МЕТОДЫ ВЫЯВЛЕНИЯ КОРРЕЛЯЦИОННОЙ СВЯЗИ
ПРИ ИЗУЧЕНИИ ДЕМОГРАФИЧЕСКИХ ПРОЦЕССОВ
Д.Д. ЕШПАНОВА,
кандидат экономических наук, доцент,
Алматинская академия экономики и статистики,
Республика Казахстан
В настоящее время весьма актуально изучение и практическое использование существующих
взаимосвязей и зависимостей между варьирующими параметрами экономики, так как процессы
и явления экономики находятся в причинноследственных взаимосвязях и обусловленности. Ис
следование любого социальноэкономического показателя необходимо вести путем раскрытия его
связей и соотношений с другими показателями. Естественно, что, исследуя явления в самых различных
областях, статистика неизбежно сталкивается с зависимостями как между количественными, так и
между качественными показателями, признаками. Ее задача – выявить такие зависимости и дать им
количественную характеристику.
Среди взаимосвязанных признаков (показателей) одни могут рассматриваться как определенные
факторы, влияющие на изменение других (факторные), а вторые (результативные)
– как следствие,
результат влияния первых.
Существует 2 вида связи между отдельными признаками: функциональная и стохастическая (ста
тистическая), частным случаем которой является корреляционная.
Связь между двумя переменными x и y называется функциональной, если определенному значению
переменной x строго соответствует одно или несколько значений другой переменной y, и с изменением
значения x значение y меняется строго определенно. Такие связи обычно встречаются в точных науках.
Но существуют и иного рода связи, где взаимно действуют многие факторы, комбинация которых
приводит к вариации значений результативного признака (показателя) при одинаковом значении
факторного признака [1, 135].
Тем не менее, демографические процессы являются детерминированными, т.е. имеющими опре
деленную цепь вызвавших их причин и следующих за ними следствий. Детерминизм демографических
процессов следует рассматривать с диалектической точки зрения, исходящей из предопределенной
направленности тех или иных событий и в то же время оставляющей известный простор для действия
людей, для проявления их воли, для того или иного социального поведения отдельных личностей.
Диалектическая трактовка детерминизма демографических процессов требует определенного
анализа всей цепочки причинноследственных связей. Анализ звеньев этой цепи облегчает понимание
закономерностей демографического процесса, необходимое для разумного вмешательства в их течение.
Демография не ограничивается констатацией фактов, их измерением, но стремится по возможности
объяснить их, чтобы «вторгнуться» в действительность и изменить ее. Для начала необходимо разоб
раться в категориях «фактор» и «причина».
Например, под фактором брачности следует понимать совокупность некоторых условий и об
стоятельств, которые оказывают определенное влияние на число браков в данной стране. Говоря о
факторах брачности, мы имеем в виду как бы причину этих причин, т.е. причину, имеющую общий
характер, общее значение, общее действие.
Там, где взаимодействует множество факторов, в том числе и случайных, выявить зависимости,
рассматривая единичный случай, невозможно. Такие связи можно обнаружить только при массовом
наблюдении как статистические закономерности (на основе изучения особенностей распределения,
поведения средних и других показателей). Выявленная таким образом связь именуется стохастической
или статистической.
165
Корреляционная связь – понятие более узкое, чем статистическая связь, это частный случай
стохастической связи. Именно корреляционные связи являются предметом изучения статистики, как
связь, проявляющаяся при большом числе наблюдений в виде определенной зависимости между средним
значением результативного признака и признакамифакторами. Другими словами, корреляционную
связь условно можно рассматривать как своего рода функциональную связь средней величины одного
признака (результативного) со значением другого (или других). При этом, если рассматривается связь
средней величины результативного показателя y с одним признаком – фактором x, корреляция назы
вается парной, а если факторных признаков 2 и более ( x
1
, x
2
, …, x
m
) – множественной.
Корреляционная зависимость между двумя признаками, как частный случай стохастической связи,
выражается в вариации результативного признака y, вызванной изменением определенного факторного
признака x в условиях взаимодействия его со множеством других факторов, не учитываемых при
исследовании, но имеющихся в реальности [2, 224].
Для выявления наличия и характера корреляционной связи между двумя признаками в статистике
используется ряд методов.
Рассмотрение параллельных данных (значений x и y в каждой из n единиц). Единицы наблюдения
располагают по возрастанию значений факторного признака х и затем сравнивают с ним (визуально)
поведение результативного показателя признака у.
Коэффициент корреляции знаков (Фехнера) – простейший показатель тесноты связи, основанный на
сравнении поведения отклонений индивидуальных значений каждого признака ( x и y) от своей средней
величины. При этом во внимание принимаются не величины отклонений х
i
– x и ( y
i
– y), а их знаки («+»
или «–»). Определив знаки отклонений от средней величины в каждом ряду, рассматривают все пары
знаков и подсчитывают число их совпадений (С) и несовпадений (Н) [3, 256].
Графический метод, когда корреляционную зависимость для наглядности можно изобразить
графически. Для этого, имея n взаимосвязанных пар значений x и y, пользуясь прямоугольной систе
мой координат, каждую такую пару изображают в виде точки на плоскости с координатами x и y.
Сое диняя последовательно нанесенные точки, получают ломаную линию, именуемую эмпирической
линией регрессии.
Метод аналитических группировок используется при большом числе наблюдений для выявления
корреляционной связи между двумя количественными признаками. С этой целью проводится груп пи
ровка единиц совокупности по факторному признаку х и для каждой выделенной группы рас считы вает
ся среднее значение результативного признака у
j
. Если результативный признак у зависит от факторного
х, то в изменении среднего значения у
j
будет прослеживаться определенная закономерность.
Метод корреляционных таблиц предполагает комбинационное распределение единиц совокуп
ности по двум количественным признакам. Такая таблица строится по типу «шахматной», т.е. в подле
жащем (строках) таблицы выделяются группы по факторному признаку х, а в сказуемом (столбцах) – по
результативному у (или наоборот), а в клетках таблицы на пересечении х и у показано число случаев
совпадения каждого значения х с соответствующим значением у [3, 66].
На основе аналитических группировок и корреляционных таблиц можно не только выявить нали
чие зависимости между двумя коррелируемыми показателями, но и измерить тесноту этой связи, в
частности, с помощью эмпирического корреляционного отношения.
Метод корреляционных таблиц применим не только к количественным, но и к качественным
признакам, взаимосвязи между которыми часто приходится изучать при проведении различных
социологических исследований путем опросов или анкетирования. В этом случае такие таблицы
называют таблицами сопряженности. Они могут иметь различную размерность. Простейшая раз
мерность – 2х2 (таблица «четырех полей»), когда по альтернативному признаку («да» – «нет», «хоро
шо» – «плохо» и т.д.) выделяются 2 группы.
В корреляционном анализе недостаточно лишь выявить тем или иным методом наличие связи
между исследуемыми показателями. Теснота такой связи может быть различной, поэтому весьма
важно ее измерить, т.е. определить меру связи в каждом конкретном случае. В статистике для этой
цели разработан ряд показателей (коэффициентов), используемых как для количественных, так и для
качественных признаков.
166
Связь между количественными признаками измеряется через их вариацию. Измерить зависимость
(связь) между двумя коррелируемыми величинами – значит определить, насколько вариация резуль
тативного признака обусловлена вариацией факторного признака.
В качестве показателей тесноты связи используются (кроме упоминавшегося ранее коэффициента
Фехнера): линейный коэффициент корреляции, коэффициенты корреляции рангов, коэффициент
конкордации, а также эмпирическое и теоретическое корреляционное отношение [4, 179].
Интерпретируя значение коэффициента корреляции, следует иметь в виду, что он рассчитан для
ограниченного числа наблюдений и подвержен случайным колебаниям, как и сами значения x и y, на
основе которых он рассчитан, т.е., как любой выборочный показатель, он содержит случайную ошибку
и не всегда однозначно отражает действительно реальную связь между изучаемыми показателями.
Найти уравнение регрессии – значит по эмпирическим (фактическим) данным математически
описать изменения взаимно коррелируемых величин. Уравнение регрессии должно определить, каким
будет среднее значение результативного признака у при том или ином значении факторного признака
х, если остальные факторы, влияющие на у и не связанные с х, не учитывать, т.е. абстрагироваться от
них. Другими словами, уравнение регрессии можно рассматривать как вероятностную гипотетичес
кую функциональную связь средней величины результативного признака у со значениями факторного
признака х.
Уравнение регрессии можно также назвать теоретической линией регрессии. Рассчитанные по
уравнению регрессии значения результативного признака называются теоретическими, обычно
обозначаются у
х
и рассматриваются как функция от х, т.е. у
х
= f(x).
Найти в каждом конкретном случае тип функции, с помощью которой можно наиболее адекватно
отразить ту или иную зависимость между признаками х и у, – одна из основных задач регрессионного
анализа. Выбор теоретической линии регрессии часто обусловлен формой эмпирической линии
регрессии; теоретическая линия как бы сглаживает изломы эмпирической линии регрессии. Кроме
того, необходимо учитывать природу изучаемых показателей и специфику их взаимосвязей.
Для аналитической связи между х и у могут использоваться следующие простые виды уравнений:
у = а
0
+ а
1
х – прямая линия;
у = а
0
+ а
1
х + а
1
х
2
– парабола;
– гипербола;
у = а
0
а
1
х
– показательная функция;
у = а
0
+ а
1
lgx
– логарифмическая функция и др. [4, 181].
Рассчитанные для ограниченного числа наблюдений параметры уравнения регрессии не являются
единственно возможными, строго однозначными, поскольку представляют собой лишь оценку реаль
ных параметров связи в генеральной совокупности. Поэтому в каждом конкретном случае, найдя по
эмпирическим данным параметры (оценки) уравнения регрессии, определяют их среднюю ошибку m
аi
и с заданной вероятностью пределы, в которых эти параметры могут находиться. Затем параметры
проверяют на существенность (значимость).
При решении практических задач исследователи сталкиваются с тем, что корреляционные свя зи не
ограничиваются связями между двумя признаками: результативным y и факторным x. В дейст витель
ности результативный признак зависит от нескольких факторных. Например, факторы брачности
следует различать друг от друга по степени широты их влияния, интенсивности действия и месту,
которое они занимают в общей цепочке причинноследственных связей. Поэтому нам представляется
целесообразным разложить категорию факторов на два больших вида: демографический и социально
экономический.
К числу демографических факторов относятся:
– пол, точнее диспропорция полов, т.к. соотношение мужчин и женщин влияет на брачность насе
ления.
– возраст вступающих в брак.
Социальноэкономические факторы являются сильно действующими и разнообразными. Среди них
на первом месте должно быть отмечено:
167
– общественное положение женихов и невест. В частности, заняты ли мужчины и женщины в об
щественном труде;
– уровень удовлетворения материальных и культурных потребностей населения, определяемый
индивидуальными доходами и уровнем жилищного благосостояния. Здесь также значение имеет
культурный уровень родителей, т.е. полученное ими образование, приобретенные навыки.
Большое значение имеет национальный фактор, который в немалой степени также является факто
ром социального порядка. Это объясняется национальными традициями и обычаями, сложив шимися в
условиях определенной физической и социальной среды [5,24].
В условиях действия множества факторов показатели парной корреляции оказываются условными
и неточными. Количественно оценить влияние различных факторов на результат, определить форму
и тесноту связи между результативным признаком y и факторными признаками x
1
, x
2
, …, x
k
можно
методами множественной (многофакторной) корреляции.
Математически задача сводится к нахождению аналитического выражения, наилучшим обра
зом описывающего связь факторных признаков с результативным, т.е. к отысканию функции
. Выбрать форму связи довольно сложно. Эта задача на практике основывается
на априорном теоретическом анализе изучаемого явления и подборе известных типов математических
моделей.
Например, исследуя изменение социальнодемографической структуры населения республики с
точки зрения брачности, нами проделан анализ влияния ряда факторов на уровень брачности. Анализ
зависимости уровня брачности в Казахстане от ряда социальнодемографических и социальноэконо
мических факторов основывается на ряде данных за 2001 г. [6]:
Y – Общий коэффициент брачности в территориальном разрезе РК, (‰);
Х1 = Общий коэффициент разводимости в территориальном разрезе РК, (‰);
Х2 = Ожидаемая продолжительность жизни мужчин (лет);
Х3 = Ожидаемая продолжительность жизни женщин (лет);
Х4 = Доля мужчин бракоспособного возраста ко всей численности населения бракоспособного
возраста, (%);
Х5 = Соотношение полов в населении РК (число женщин на 1000 мужчин);
Х6 = Средний возраст вступления в брак мужчин (лет);
Х7 = Средний возраст вступления в брак женщин (лет);
Х8 = Доля занятых к трудовому ресурсу населения (%);
Х9 = Средняя обеспеченность населения жильем в расчете на 1го жителя от общей площади (кв.
м.);
Х10 = Среднемесячная номинальная заработная плата 1го работника (тенге);
Х11 = Средняя продолжительность обучения мужчин (число лет);
Х12 = Средняя продолжительность обучения женщин (число лет).
Данные для корреляционнорегрессионного анализа брачности населения Республики Казахстан
представлены в табл. 1.
Коэффициент корреляции вычисляется по формуле:
P х, у = COV( x, y) / ( δ
х
δ
y
), (1)
где 1≤P≤1 и
n
COV( x, y) = 1/ n ∑ ( х
i
– µ
х
)( у
i
– µ
у
) (2)
i =1
Таблица 1. Исходные данные для корреляционно-регрессионного анализа
Области
Y
Х1
Х2
Х3
Х4
Х5
Х6
Х7
Х8
Х9
Х10
Х11 Х12
Акмолинская
6
2,1
63
60,8
47,7 1055 25,8
24,3
88,5
16,5
8578 10,8 10,6
Актюбинская
6,1 1,9
61,7
72,3
47,2 1064 26,2
25,7
84,2
15
15176 11,5 11,1
Алматинская
6,4 1,5
61,4
60,7
47,9 1041 24,3
22,6
80,6
14,9
9288 10,7 10,2
Атырауская
7,5 1,7
60,1
68,9
47,9 1042 26,4
25,8
83,6
13,9 29837 10,5 10,2
168
Восточно
Казахстанская
5,9 2,4
61,1
65,3
46,8 1090 25,3
24
85,3
16,1 15312 10,2
10
Жамбылская
6
1,4
61,4
66,4
47,6 1100 24,7
23
79,4
14,8
8560 10,9 10,4
Западно
Казахстанская
6,1 1,8
60
69,2
47,3 1070 25,5
24
86,6
14,5 14002 11,2 10,6
Карагандинская
6,2 1,8
61,3
70,3
46,3 1104 26,1
25,3
85,4
17,6 14838 10,5
10
Костанайская
5,8 2,6
60,4
68,4
47,9 1093
26
24,8
88,8
16,8 11786 10,6
10
Кызылординская
7
1,2
60,2
70,4
49,4 1004 26,3
25
81,2
16
11271 10,6
10
Мангистауская
7,9 2,4
58,1
67,3
48,4 1023 26,7
25,6
81,6
14,2 29091 10,9 10,1
Павлодарская
6,2
3
57,3
62,4
46,6 1097 25,3
24,1
87
17
15237
11
10,4
Северо
Казахстанская
5,2 1,5
56,4
67,8
47,3 1067 26,7
23,2
86,5
17,1
9920 10,8 10,2
Южно
Казахстанская
6,4 0,9
61
72
48,3
105
25,9
22,1
79,7
17
9214 10,6 10,5
г. Астана
4,6
2
61,5
70,5
45,2 1155 26,8
25,3
82,5
15,7 19514 10,9 10,5
г. Алматы
7,4 3,5
60,5
71,2
43,8 1199 26,9
25,5
77,9
17,5 18549 11,2 10,8
Отбор фактов в модель производился на основе логического анализа и матрицы парных коэф фи
циентов корреляции (cм. табл. 2).
В результате проверки значимости парных коэффициентов корреляции с помощью распределения
Стьюдента были отобраны в качестве факторов для регрессионной модели следующие признаки:
Y – Общий коэффициент брачности в территориальном разрезе РК, (‰);
Х1 = Общий коэффициент разводимости в территориальном разрезе РК, (‰);
Х3 = Ожидаемая продолжительность жизни женщин (лет);
Х4 = Доля мужчин бракоспособного возраста ко всей численности населения бракосопобного
возраста (%);
Х5 = Соотношение полов в населении РК (число женщин на 1000 мужчин);
Х6 = Средний возраст вступления в брак мужчин (лет).
Таблица 2. Матрица парных коэффициентов корреляции
У
X1
X2
X3
X4
X5
X6
X7
X8
X9
X10
X11
X12
У
1
0,17
0,13 0,08
0,22 0,09 0,14
0,32 0,42 0,29
0,53 0,0002
0,09
X1
0,17
1
0,18 0,15 0,64 0,53 0,22
0,47
0,18
0,28
0,35
0,26
0,16
X2
0,13
0,18
1
0,02 0,07 0,07 0,26 0,03 0,15 0,08 0,25
0,08
0,28
X3
0,08
0,15
0,02
1
0,17 0,25 0,64
0,38 0,31
0,08
0,24
0,21
0,23
X4
0,22
0,64 0,07 0,17
1
0,39 0,28 0,28 0,12
0,39 0,16
0,32
0,41
X5
0,09
0,53
0,07 0,25 0,39
1
0,05
0,53
0,27
0,14
0,23
0,213
0,05
X6
0,14
0,22
0,26 0,64 0,28 0,05
1
0,65 0,02
0,21
0,51
0,16
0,11
X7
0,32
0,47
0,04
0,38 0,28 0,53 0,65
1
0,11
0,14
0,70
0,21
0,08
X8
0,42
0,18
0,15 0,31 0,12
0,27 0,02 0,11
1
0,18
0,13
0,11
0,16
X9
0,29
0,28
0,08 0,08 0,39 0,14 0,21 0,14 0,18
1
0,45
0,17
0,06
X10
0,53
0,35
0,25 0,24 0,16 0,23 0,51
0,70 0,13 0,45
1
0,03
0,08
X11
0,0002
0,26
0,08 0,21 0,32 0,21 0,16
0,21
0,11 0,17
0,03
1
0,83
X12
0,09
0,16
0,28
0,23 0,41 0,05 0,11
0,08 0,16 0,06 0,07
0,83
1
В итоге было получено уравнение множественной линейной регрессии:
_
Y = 123,801+0,399Х
1
+0,16Х
3
+1,668Х
4
+0,006Х
5
0,493Х
6
Прямое сравнение коэффициентов регрессии в уравнении множественной регрессии дает пред
ставление о степени влияния факторных признаков на результативный признак только тогда, когда
169
они выражаются в одинаковых единицах и имеют примерно одинаковую колеблемость. Чтобы сделать
коэффициенты регрессии сопоставимыми, применим нормированные коэффициенты регрессии j.
Коэффициент
j
показывает величину изменения результативного фактора в значениях средней квад
ратической ошибки при изменении факторного признака х
j
на одну среднеквадратическую ошибку.
Результаты множественной линейной регрессии приведены в табл. 3.
Таблица 3. Результаты множественной линейной регрессии
Regression Summary for Dependent Variable: Y
R= ,91973336 RІ= ,84590946 Adjusted RІ= ,22954729
F(12,3) = 1,3724 p<,44562 Std.Error of estimate: ,73471
St. Err. St. Err.
Intercpt
BETA
of BETA
B
of B
t(3)
p-level
-123,801
101
-1,2
0,306
А
1
2
3
4
5
6
X1
0,322
0,4953
0,39998
0,61
0,65
0,562
А
1
2
3
4
5
6
X2
1,004
1,0589
0,48816
0,51
0,95
0,413
X3
0,716
0,7869
0,16
0,18
0,91
0,43
X4
2,638
1,5846
1,66838
1
1,66
0,195
X5
1,871
1,7033
0,0063
0,01
1,1
0,352
X6
0,44
0,5119
0,49347
0,57
0,9
0,449
X7
2,21
2,3338
1,5679
1,66
0,9
0,414
X8
0,54
0,3131
0,13284
0,08
1,7
0,185
X9
2,45
1,799
1,67647
1,23
1,36
0,267
X10
3,347
2,4509
0,00043
0
1,37
0,265
X11
0,463
0,9086
1,20618
2,37
0,51
0,645
X12
0,739
0,8743
1,91898
2,27
0,85
0,46
Множественный коэффициент детерминации для уравнения регрессии равен 0,846. Это означает,
что 84,6% разброса значений общего коэффициента брачности по областям республики объясняется
влиянием факторов, включенных в модель, и позволяет говорить о значимости модели регрессии.
Множественный коэффициент корреляции равен 0,920. F критерий значимости равен 1,3724, число
степеней свободы равно v = 12, v = 3.
Коэффициенты линейной регрессии подтверждают положительную связь между всеми выше пере
численными показателями и отрицательную связь уровня брачности с уровнем разводимости [7, 22].
Литература:
1. Теория статистики: Учебник / Под ред. Р.А. Шмойловой. 3е изд., перераб. – М.: Финансы и
статистика, 2001. – 329 с.
2. Курс социальноэкономической статистики: Учебник / Под ред. М.Т. Назарова. – М.: Фин ста т
информ, 2000. – 278 с.
3. Гришин А.Ф. Статистика: Учебное пособие. – М.: Финансы и статистика, 2003. – 240 с.
4. Ефимова М.Р. и др. Общая теория статистики: Учебник. – М.: Финансы и статистика, 1998. – 339 с.
5. Ешпанова Д.Д. Методика изучения влияния социальноэкономических факторов на брачность и
разводимость // Сборник научных трудов «Социальноэкономические проблемы современного этапа
развития Республики Казахстан». – Кызылорда: Университет «Болашак», 2002.– С.23.
6. Статистический сборник: О брачном состоянии Республики Казахстан / Агентство статистики
Рес публики Казахстан, 2001.
7. Ешпанова Д.Д. Статистическое исследование современной брачной ситуации в Республике
Казахстан: Автореферат. – М.: МЭСИ, 2004. – 24 с.
170
Түйіндеме
Қазіргі кезеңде экономиканың нұсқаланушы параметрлері арасындағы орын алып отырған өзара
байланыс пен тәуелділіктерді зерттеу және іс жүзінде пайдалану өте өзекті болып отыр. Өйткені
экономиканың үдерістері мен құбылыстары себепсалдарлық өзара байланыстар мен шарттылықтарда
тұр.
Summary
Аt present highly relevant study and practical use of existing relationships and dependencies between the
varying parameters. Because the processes and phenomena of the economy are in the causeeffect relationships
and conditionality.
УДК 001.891.57:004.383.4:061.5
Достарыңызбен бөлісу: |