И анализ больших данных

жүктеу/скачать 2,33 Mb.

Pdf көрінісі

бет	25/65
Дата	29.12.2023
өлшемі	2,33 Mb.
	#145048
түрі	Учебно-методическое пособие

1 ... 21 22 23 24 25 26 27 28 ... 65

Байланысты:
BIG дата книга

Корреляционный анализ
Между
переменными
(случайными
величинами)
может
существовать
функциональная связь, проявляющаяся в том, что одна из них определяется как функция
от другой. Но между переменными может существовать и связь другого рода,
проявляющаяся в том, что одна из них реагирует на изменение другой изменением своего
закона распределения. Такую связь называют стохастической. Она появляется в том
случае, когда имеются общие случайные факторы, влияющие на обе переменные. В
качестве меры зависимости между переменными используется коэффициент корреляции
(r), который изменяется в пределах от –1 до +1. Если коэффициент корреляции
отрицательный, это означает, что с увеличением значений одной переменной значения

37
другой убывают. Если переменные независимы, то коэффициент корреляции равен 0
(обратное утверждение верно только для переменных, имеющих нормальное
распределение). Но если коэффициент корреляции не равен 0 (переменные называются
некоррелированными), то это значит, что между переменными существует зависимость.
Чем ближе значение r к 1, тем зависимость сильнее. Коэффициент корреляции достигает
своих предельных значений +1 или -1, тогда и только тогда, когда зависимость между
переменными линейная. Корреляционный анализ позволяет установить силу и
направление стохастической взаимосвязи между переменными (случайными величинами).
Если переменные измерены, как минимум, в интервальной шкале и имеют нормальное
распределение, то корреляционный анализ осуществляется посредством вычисления
коэффициента корреляции Пирсона, в противном случае используются корреляции
Спирмена, тау Кендала, или Гамма

Регрессионный анализ
В регрессионном анализе моделируется взаимосвязь одной случайной переменной
от одной или нескольких других случайных переменных. При этом, первая переменная
называется зависимой, а остальные – независимыми. Выбор или назначение зависимой и
независимых переменных является произвольным (условным) и осуществляется
исследователем в зависимости от решаемой им задачи. Независимые переменные
называются факторами, регрессорами или предикторами, а зависимая переменная –
результативным признаком, или откликом.
Если число предикторов равно 1, регрессию называют простой, или
однофакторной, если число предикторов больше 1 – множественной или многофакторной.
В общем случае регрессионную модель можно записать следующим образом:
y = f(x
1
, x
2
, …, x
n
),
где y – зависимая переменная (отклик), x
i
(i = 1,…, n) – предикторы (факторы), n –
число предикторов.
Посредством регрессионного анализа можно решать ряд важных для исследуемой
проблемы задач:
1). Уменьшение размерности пространства анализируемых переменных
(факторного пространства), за счет замены части факторов одной переменной – откликом.
Более полно такая задача решается факторным анализом.
2). Количественное измерение эффекта каждого фактора, т.е. множественная
регрессия, позволяет исследователю задать вопрос (и, вероятно, получить ответ) о том,
«что является лучшим предиктором для...». При этом, становится более ясным
воздействие отдельных факторов на отклик, и исследователь лучше понимает природу
изучаемого явления.
3). Вычисление прогнозных значений отклика при определенных значениях
факторов, т.е. регрессионный анализ, создает базу для вычислительного эксперимента с
целью получения ответов на вопросы типа «Что будет, если… ».
4). В регрессионном анализе в более явной форме выступает причинно-
следственный механизм. Прогноз при этом лучше поддается содержательной
интерпретации.

жүктеу/скачать 2,33 Mb.

Достарыңызбен бөлісу:

1 ... 21 22 23 24 25 26 27 28 ... 65