ВЕСТНИК КЭУ: ЭКОНОМИКА, ФИЛОСОФИЯ, ПЕДАГОГИКА, ЮРИСПРУДЕНЦИЯ
4 2
ум обычно приходят базы данных, Интернет,
интранет, порталы или традиционные храни-
лища, такие, как архивы или руководства по
корпоративной политике и процедурам. Одна-
ко значительную часть информационной сре-
ды человека составляют отношения с другими
людьми, к которым он обращается, когда воз-
никает необходимость. Опираясь на материа-
лы исследований последних десяти лет, Том
Аллен из Массачусетского технологического
института сделал вывод, что вероятность обра-
щения инженеров и исследователей за инфор-
мацией к другому человеку, а не к "обезличен-
ному" источнику (базе данных или архиву), при-
мерно в пять раз выше. Другие исследователи
тоже считают, что от людей, с которыми мы зна-
комы, в значительной степени зависит характер
наших знаний, поскольку взаимоотношения
играют огромную роль в поисках информации,
решении проблем и подготовке к выполнению
работы.
Информационная среда (особенно при вы-
полнении знаниеемких работ), которая помо-
гает решать сложные и часто неоднозначные
проблемы, оказывает большое влияние на эф-
фективность труда.
В современной экономике сотрудничество
и инновации играют все более важную роль, по-
этому менеджерам следует уделять больше вни-
мания отношениям, которые складываются
между людьми в коллективе. Конечно, можно
ожидать, что развивающиеся технологии со-
трудничества упростят работу в виртуальной
среде, а системы составления профилей помо-
гут в поиске носителей необходимых знаний и
опыта. Однако, как наглядно показал реинжи-
ниринг, с помощью одних только технологий
трудно добиться значимого повышения эффек-
тивности бизнеса. Для успеха нужны не только
изощренные технологии, но и внимание к фор-
мируемым человеческим отношениям, к тому,
как люди учатся у окружающих и совместно
решают проблемы.
Когда мы говорим о степени развития со-
циального капитала в компании, необходимо
выделить три важных аспекта обмена информа-
цией и эффективного использования коллектив-
ного опыта группы. Прежде всего, необходимо
отметить, что социальный капитал распределен
среди персонала неравномерно. Часто соци-
альный капитал сконцентрирован у отдельных
сотрудников, которые играют ключевую роль в
формировании информационных потоков.
Именно эти сотрудники поддерживают комму-
никации в рамках подразделения и часто слу-
жат связующим звеном в коммуникациях меж-
ду подразделениями внутри компании.
Список литературы
1.Каженова А. От догм - к реалиям: роль
государства в экономических системах ХХ века
// Мысль 1998. № 4 с. 51 - 54.
2. Камаев В.Д., Абрамова М.А., Александ-
рова Л.С. и др. Учебник по основам экономи-
ческой теории (экономика). М.: "Владос", 1997. -
384с.
3.Фишер С., Дорнбуш Р., Шмалензи Р. Эко-
номика / Пер. с англ. - М.: "Дело ЛТД", 1993 -
864с.
Экономика. Учебник. Под ред. Булатова А.С.
М.: Издательство БЕК, 1996 - 632с.
Кластерный анализ - способ группировки
многомерных объектов, основанный на представ-
лении результатов отдельных наблюдений точ-
ками подходящего геометрического простран-
ства с последующим выделением групп как "сгу-
стков" этих точек [3, с. 4]. Фактически кластер-
ный анализ представляет собой группировку
объектов, однако главным отличием от обычной
группировки выступает то, что каждый кластер
содержит схожие объекты, резко отличающиеся
от объектов из других кластеров [4, с. 242].
Термин "кластерный анализ" впервые был
предложен К. Трионом в 1939 году [3, с. 10]. Пер-
вые публикации по иерархическим процедурам
кластерного анализа появились в 1950-е годы
[3, с. 44]. С начала 1960-х годов число предла-
гаемых алгоритмов кластеризации начинает ак-
тивно расти.
К началу XXI века кластерный анализ на-
шел применение в самых разнообразных науч-
ных направлениях: экономика, биология, меди-
цина, социология, геология, химия, археология,
история, география, филология, криминология
и т.д.
В последние годы кластерный анализ ис-
пользуется все более активно. Это обусловлено
появлением мощной вычислительной техники,
постоянным увеличением количества факторов,
используемых в моделях, и рядом других при-
чин. К сожалению, на данный момент, несмот-
УДК: 369.011(574)
ПРИМЕНЕНИЕ МЕТОДОВ КЛАСТЕРНОГО АНАЛИЗА В ИССЛЕДОВАНИИ
УРОВНЯ ЖИЗНИ НАСЕЛЕНИЯ КАЗАХСТАНА
КАПЕЛЮК З.А., д.э.н.,профессор
Сибирский университет потребительской кооперации
КАПЕЛЮК С.Д., к.э.н., доцент
Сибирский университет потребительской кооперации
2 (17) • 2010
4 3
ря на появление статистических программ,
включающих различные алгоритмы кластерно-
го анализа, многие исследователи не использу-
ют возможности, предоставляемые данным ме-
тодом.
В экономике кластерный анализ может
найти и уже находит самое широкое примене-
ние. При построении регрессионных моделей
часто требуется разделить совокупность данных
на однородные группы, внутри которых опре-
делять регрессионные зависимости. Кластерный
анализ используется в маркетинге для оценки
уровня конкуренции в различных сегментах, для
разделения потребителей на группы с целью
разработки индивидуальной политики обслу-
живания [9, с. 135].
Кластерный анализ состоит из 7 этапов:
1.Выбор объектов кластеризации.
2.Определение набора переменных (пока-
зателей, которые станут основой для кластери-
зации объектов).
3.Стандартизация переменных.
4.Выбор метрики.
5.Выбор метода кластерного анализа.
6.Определение необходимого числа клас-
теров.
7.Интерпретация результатов [6, с. 342].
Покажем многообразие методов кластерно-
го анализа на примере типологизации регионов
по уровню жизни населения. Уровень жизни -
сложная социально-экономическая категория,
отражающая доходы и расходы населения, по-
требление и степень удовлетворения потребнос-
тей, возможности и способности, уровень обра-
зования и квалификации, организаторские спо-
собности и мотивацию, условия жизнедеятель-
ности людей и состояние окружающей среды.
Для межстрановых сопоставлений ООН ис-
пользует систему из 12 групп показателей уров-
ня жизни, отражающих различные аспекты бла-
госостояния, здоровья, образования, условий
проживания человека [2]. Многообразие пока-
зателей затрудняет классификацию территорий
по уровню жизни, с помощью обычных методов
группировки невозможно решить все задачи ис-
следования. В таких случаях, как правило, при-
бегают к построению интегральных показате-
лей, например, ООН использует показатель
ИРЧП (индекс развития человеческого потенци-
ала), состоящий из трех индексов: дохода, дол-
голетия и образования. Соответственно, по это-
му показателю все страны делят на три группы:
с высоким (ИРЧП более 0,8), средним (0,5 - 0,8) и
низким (менее 0,5) уровнем жизни. Однако за-
частую требуется более сложная классифика-
ция, отдельные территории могут компенсиро-
вать низкое значение одного показателя высо-
ким значением другого показателя. Это легко
продемонстрировать на межстрановом приме-
ре (использованы официальные данные Про-
граммы Развития ООН за 2006 год [7, с. 30]).
По данным, представленным в таблице 1,
восемь стран (по классификации ООН, относя-
щиеся к странам с высоким уровнем человечес-
кого развития) по данному интегральному по-
казателю фактически определяются в одну груп-
пу, что подразумевает приблизительно одина-
ковый уровень жизни населения в данных стра-
нах. Однако, как легко убедиться по данным таб-
лицы, это совсем не так.
Таблица 1
Страны, близкие к России и Казахстану по
значению ИРЧП (2006 год)
М е с т о
С т р а н а
П р о д о л ж и -
т е л ь н о с т ь
ж и з н и , л е т
У р о в е н ь
г р а м о т н о с т и
в з р о с л о г о
н а с е л е н и я ,
%
В В П н а
д у ш у
н а с е л е н и я
п о П П С ,
д о л л а р о в
С Ш А
И Р Ч П
6 8
М а к е д о н и я
7 4 , 0
9 6 , 8
7 9 2 1
0 , 8 0 8
6 9
А л б а н и я
7 6 , 3
9 9 , 0
5 8 8 4
0 , 8 0 7
7 0
Б р а з и л и я
7 2 , 0
8 9 , 6
8 9 4 9
0 , 8 0 7
7 1
К а з а х с т а н
6 6 , 4
9 9 , 6
9 8 3 2
0 , 8 0 7
7 2
Э к в а д о р
7 4 , 8
9 2 , 4
7 1 4 5
0 , 8 0 7
7 3
Р о с с и я
6 5 , 2
9 9 , 5
1 3 2 0 5
0 , 8 0 6
7 4
М а в р и к и й
7 2 , 6
8 7 , 0
1 0 5 7 1
0 , 8 0 2
7 5
Б о с н и я и
Г е р ц е г о в и н а
7 4 , 6
9 6 , 7
6 8 0 1
0 , 8 0 2
Ожидаемая продолжительность жизни при
рождении в России на 11 лет ниже, чем в Алба-
нии. На Маврикии удельный вес неграмотных в
общей численности взрослого населения состав-
ляет 13%, что в 32,5 раз выше аналогичного по-
казателя в Казахстане (0,4%). По среднедушево-
му ВВП, пересчитанному по паритету покупа-
тельной способности - показателю, который во
многом свидетельствует о реальной величине
доходов гражданина, среди представленных
стран есть такие, которые различаются более чем
в 2 раза (Россия и Албания). Это подчеркивает
неоднородность указанных стран и сомнитель-
ность их нахождения в одной категории. Кроме
того, используемые показатели при расчете
ИРЧП не охватывают весь комплекс показателей
уровня жизни, не учитывая статистику правона-
рушений, доступности основных материальных
благ и услуг, гендерное неравенство, степень сво-
боды гражданина и многое другое.
Все вышеуказанные проблемы можно ре-
шить с помощью кластерного анализа. Прове-
дем его с помощью программы Statistica на ос-
нове статистических данных по регионам Рес-
публики Казахстан. Административно Казах-
стан состоит из 14 областей и 2 городов респуб-
ликанского значения (рис. 1).
Рис. 1 Административное деление Казахстана
ВЕСТНИК КЭУ: ЭКОНОМИКА, ФИЛОСОФИЯ, ПЕДАГОГИКА, ЮРИСПРУДЕНЦИЯ
4 4
Для оценки уровня жизни составим таблицу 2
на основе данных Агентства Республики Казах-
стан по статистике [1, с. 409][5]. Для города Ал-
маты показатель совокупной доли охвата обра-
зованием, составляющий 127%, для расчетов
уменьшен до 100%. Данные в целом по Казах-
стану приведены для наглядности, в дальней-
ших расчетах они использоваться не будут.
Таблица 2
Показатели уровня жизни населения по регионам
Казахстана в 2008 году
О б л а с т ь , г о р о д
П р о д о л
ж и -
т е л ь н о с
т ь
ж и з н и ,
л е т
С р е д н е д у ш
е в ы е
м е с я ч н ы е
д е н е ж н ы е
д о х о д ы
н а с е л е н и я ,
т е н г е
С о о т н о ш е н и е
д о х о д а ,
н а п р а в л е н н о г
о н а
п о т р е б л е н и е ,
и
п р о ж и т о ч н о г о
м и н и м у м а ,
р а з
У р о в е н
ь б е д -
н о с т и ,
%
С о в о к у п н а я
д о л я о х в а т а
о б р а з о в а н и е
м н а с е л е н и я
в в о з р а с т е
о т 6 д о 2 4
л е т , %
А к м о л и н с к а я
6 5 , 0
2 5 9 7 1
1 , 7 9
8 , 7
6 7 , 0
А к т ю б и н с к а я
6 7 , 6
3 0 4 5 1
1 , 9 0
7 , 0
7 6 , 3
А л м а т и н с к а я
6 7 , 5
2 1 9 7 2
1 , 3 5
2 0 , 1
6 1 , 0
А т ы р а у с к а я
6 7 , 4
6 6 1 7 3
1 , 3 3
1 2 , 9
7 5 , 3
З а п а д н о -
К а з а х с т а н с к а я
6 7 , 3
3 0 7 2 3
1 , 5 1
1 0 , 2
7 5 , 3
Ж а м б ы л с к а я
6 7 , 4
2 1 5 2 9
1 , 4 3
1 1 , 3
7 0 , 3
К а р а г а н д и н с к а
я
6 4 , 6
3 0 8 5 1
2 , 0 4
4 , 9
7 4 , 7
К о с т а н а й с к а я
6 5 , 6
2 6 7 7 5
1 , 7 5
9 , 0
6 6 , 9
К ы з ы л о р д и н с к
а я
6 7 , 5
2 5 3 2 9
1 , 2 0
2 4 , 3
7 1 , 3
М а н г и с т а у с к а я
6 6 , 8
5 6 1 7 5
1 , 2 4
3 2 , 0
8 1 , 9
Ю ж н о -
К а з а х с т а н с к а я
6 7 , 9
1 9 2 0 1
1 , 3 9
1 3 , 0
7 4 , 5
П а в л о д а р с к а я
6 6 , 5
3 1 2 5 9
2 , 0 1
8 , 8
7 1 , 6
С е в е р о -
К а з а х с т а н с к а я
6 5 , 4
2 3 9 8 3
1 , 7 3
1 1 , 0
6 0 , 5
В о с т о ч н о -
К а з а х с т а н с к а я
6 5 , 8
2 6 7 3 5
1 , 8 2
9 , 9
7 0 , 5
г . А с т а н а
7 3 , 7
6 1 2 6 4
2 , 6 9
3 , 8
9 0 , 6
г . А л м а т ы
7 0 , 4
5 7 9 1 6
1 , 7 0
1 3 , 7
1 0 0 , 0
Р е с п у б л и к а
К а з а х с т а н
6 7 , 1
3 0 8 4 2
1 , 6 2
1 2 , 1
7 5 , 3
На следующем этапе следует выделить те
показатели, которые могут быть использованы
как признаки кластеризации. При использова-
нии системы показателей практически всегда в
модель входят факторы, которые повышают ее
размерность и при этом не увеличивают точ-
ность. Наиболее простым способом исключения
малозначимых факторов можно считать прове-
дение корреляционного анализа, который ис-
пользуется как способ исключения переменных,
имеющих тесную связь друг с другом. В нашем
случае необходимо по представленным в таб-
лице 2 показателям рассчитать коэффициенты
корреляции Пирсона. Матрица коэффициентов
корреляции представлена в таблице 3.
Таблица 3
Матрица парных коэффициентов корреляции
Пирсона для показателей уровня жизни
населения по регионам Казахстана в 2008 году
П
р
о
д
о
л
ж
и
т
е
л
ь
н
о
с
т
ь
ж
и
з
н
и
С
р
е
д
н
е
д
у
ш
е
в
ы
е
м
е
с
я
ч
н
ы
е
д
е
н
е
ж
н
ы
е
д
о
х
о
д
ы
С
о
о
т
н
о
ш
е
н
и
е
д
о
х
о
д
а
и
п
р
о
ж
и
т
о
ч
н
о
г
о
м
и
н
и
м
у
м
а
У
р
о
в
е
н
ь
б
е
д
н
о
с
т
и
С
о
в
о
к
у
п
н
а
я
д
о
л
я
о
х
в
а
т
а
о
б
р
а
з
о
в
а
н
и
е
м
П р о д о л ж и т е л ь н о с т ь ж и з н и
1 , 0 0 0
С р е д н е д у ш е в ы е м е с я ч н ы е д е н е ж н ы е
д о х о д ы
0 , 5 6 8
1 , 0 0 0
С о о т н о ш е н и е д о х о д а и
п р о ж и т о ч н о г о м и н и м у м а
0 , 3 5 7
0 , 1 9 4
1 , 0 0 0
У р о в е н ь б е д н о с т и
- 0 , 0 5 9
0 , 1 1 7
-
0 , 7 5 1
1 , 0 0 0
С о в о к у п н а я д о л я о х в а т а
о б р а з о в а н и е м
0 , 7 1 9
0 , 7 4 0
0 , 2 9 5 0 , 0 1 5
1 , 0 0 0
Корреляционный анализ показал, что же-
лательно исключить из дальнейшего анализа
соотношение доходов и прожиточного миниму-
ма, так как оно имеет достаточно высокую кор-
реляционную связь с уровнем бедности (-0,751).
Следует отметить, что более корректным
будет использование методов факторного ана-
лиза на основе метода главных компонент, од-
нако в рамках данной статьи не представляется
возможным рассмотреть еще один мощный ин-
струмент статистической обработки данных.
Отметим только, что при использовании дан-
ного метода выделяются два фактора, суммар-
но объясняющие 83% общей дисперсии.
Теперь, когда выбраны четыре показателя
для классификации регионов по уровню жиз-
ни, можно перейти непосредственно к кластер-
ному анализу. Прежде всего, необходимо опре-
делиться с метрикой. Метрика - функция, опре-
деляющая расстояния между объектами. В кла-
стерном анализе используются различные мет-
рики, среди них:
• Евклида,
• Чебышева,
• Минковского,
• Хемминга,
• манхэттенская,
• Пирсона.
Наиболее часто используется метрика Евк-
лида, поэтому в данном исследовании выбор
сделан в ее пользу. Необходимо только иметь в
виду, что у метрики Евклида есть определенные
ограничения, связанные с требованием одно-
родности объектов. В том случае, когда перемен-
ные измеряются в разных единицах, рекомен-
дуется делить значения на среднеквадратичес-
кое отклонение. Мы предлагаем для кластер-
ного анализа регионов по уровню жизни насе-
ления в метрике Евклида использовать индекс-
ные показатели. Для этого пересчитаем соответ-
ствующие показатели для каждого региона, в
качестве знаменателя используя максимальное
значение среди всех регионов. Результаты пред-
ставлены в таблице 4.
Методы кластерного анализа делят на пять
основных групп: иерархические (hierarchical),
разбиения (partitioning), Q-сортировки (Q-sort),
концентрации (density) и группировки
(clumping) [8, с. 518].
2 (17) • 2010
4 5
Таблица 4
Индексные значения показателей уровня жизни
по регионам Казахстана в 2008 году
О б л а с т ь , г о р о д
И н д е к с
п р о д о л ж и -
т е л ь н о с т и
ж и з н и
И н д е к с
д о х о д о в
И н д е к с
б е д н о с т и
И н д е к с
о б р а з о в а н и я
А к м о л и н с к а я
0 , 8 8 2
0 , 3 9 2
0 , 2 7 2
0 , 6 7 0
А к т ю б и н с к а я
0 , 9 1 7
0 , 4 6 0
0 , 2 1 9
0 , 7 6 3
А л м а т и н с к а я
0 , 9 1 6
0 , 3 3 2
0 , 6 2 8
0 , 6 1 0
А т ы р а у с к а я
0 , 9 1 5
1 , 0 0 0
0 , 4 0 3
0 , 7 5 3
З а п а д н о - К а з а х с т а н с к а я
0 , 9 1 3
0 , 4 6 4
0 , 3 1 9
0 , 7 5 3
Ж а м б ы л с к а я
0 , 9 1 5
0 , 3 2 5
0 , 3 5 3
0 , 7 0 3
К а р а г а н д и н с к а я
0 , 8 7 7
0 , 4 6 6
0 , 1 5 3
0 , 7 4 7
К о с т а н а й с к а я
0 , 8 9 0
0 , 4 0 5
0 , 2 8 1
0 , 6 6 9
К ы з ы л о р д и н с к а я
0 , 9 1 6
0 , 3 8 3
0 , 7 5 9
0 , 7 1 3
М а н г и с т а у с к а я
0 , 9 0 6
0 , 8 4 9
1 , 0 0 0
0 , 8 1 9
Ю ж н о - К а з а х с т а н с к а я
0 , 9 2 1
0 , 2 9 0
0 , 4 0 6
0 , 7 4 5
П а в л о д а р с к а я
0 , 9 0 2
0 , 4 7 2
0 , 2 7 5
0 , 7 1 6
С е в е р о - К а з а х с т а н с к а я
0 , 8 8 7
0 , 3 6 2
0 , 3 4 4
0 , 6 0 5
В о с т о ч н о -
К а з а х с т а н с к а я
0 , 8 9 3
0 , 4 0 4
0 , 3 0 9
0 , 7 0 5
г . А с т а н а
1 , 0 0 0
0 , 9 2 6
0 , 1 1 9
0 , 9 0 6
г . А л м а т ы
0 , 9 5 5
0 , 8 7 5
0 , 4 2 8
1 , 0 0 0
При использовании иерархического мето-
да в первую очередь необходимо определиться
со способом определения связей между объек-
тами кластеров. Таких способов также выделя-
ют значительное количество, но 98% исследова-
телей применяют следующие три [10, с. 3]:
• одиночной связи (single linkage) - на каж-
дом шаге присоединяется объект, имеющий
наиболее близкое расстояние к одному из
объектов данного кластера независимо от рас-
стояния до других объектов кластера,
• полной связи (complete linkage) - при при-
соединении объекта учитывается его расстояние
до всех объектов кластера,
• метод Уорда (Ward's method), основанный
на дисперсионном анализе, и другие методы.
Среди наиболее подходящих для подобных
задач методов считаются методы полной связи
и Уорда. По нашему мнению, наиболее эффек-
тивным при данном типе задач будет метод пол-
ной связи.
Сама процедура построения дендрограм-
мы заключается в следующем. На первом шаге
каждый объект рассматривается как отдельный
кластер (монокластер). Далее на каждом шагу
происходит объединение двух наиболее близ-
ких кластеров. Каждая ветвь дерева соответству-
ет кластеру, появившемся на каком-либо шагу
работы алгоритма. Слияние ветвей соответству-
ет объединению кластеров, а ствол - заключи-
тельному шагу, когда все наблюдения оказыва-
ются объединенными в один кластер [4, с. 351].
Результат построения дендрограммы пред-
ставлен на рисунке 2. Чтобы получить отдель-
ные кластеры, нужно провести вертикальную
линию, соответствующую определенному зна-
чению расстояния, таким образом установив
ограничение на минимальное расстояние меж-
ду кластерами. Например, при ограничении
равном 0,5 в метрике Евклида, можно выделить
3 кластера: монокластер из Мангистауской об-
ласти, кластер из двух городов и Атырауской
области и кластер, включающий прочие облас-
ти.
Tree Diagram for 16 Cases
Complete Linkage
Euclidean distances
0,0
0,2
0,4
0,6
0,8
1,0
Linkage Distance
Мангистауская область
Астана
Алматы
Атырауская область
Кызылординская область
Алматинская область
Павлодарская область
Западно-Казахстанская область
Карагандинская область
Актюбинская область
Южно-Казахстанская область
Жамбылская область
Северо-Казахстанская область
Восточно-Казахстанская область
Костанайская область
Акмолинская область
Достарыңызбен бөлісу: |