И анализ больших данных



Pdf көрінісі
бет25/65
Дата29.12.2023
өлшемі2,33 Mb.
#145048
түріУчебно-методическое пособие
1   ...   21   22   23   24   25   26   27   28   ...   65
Байланысты:
BIG дата книга

 
 
Корреляционный анализ 
Между 
переменными 
(случайными 
величинами) 
может 
существовать 
функциональная связь, проявляющаяся в том, что одна из них определяется как функция 
от другой. Но между переменными может существовать и связь другого рода, 
проявляющаяся в том, что одна из них реагирует на изменение другой изменением своего 
закона распределения. Такую связь называют стохастической. Она появляется в том 
случае, когда имеются общие случайные факторы, влияющие на обе переменные. В 
качестве меры зависимости между переменными используется коэффициент корреляции 
(r), который изменяется в пределах от –1 до +1. Если коэффициент корреляции 
отрицательный, это означает, что с увеличением значений одной переменной значения 


37 
другой убывают. Если переменные независимы, то коэффициент корреляции равен
(обратное утверждение верно только для переменных, имеющих нормальное 
распределение). Но если коэффициент корреляции не равен 0 (переменные называются 
некоррелированными), то это значит, что между переменными существует зависимость. 
Чем ближе значение r к 1, тем зависимость сильнее. Коэффициент корреляции достигает 
своих предельных значений +1 или -1, тогда и только тогда, когда зависимость между 
переменными линейная. Корреляционный анализ позволяет установить силу и 
направление стохастической взаимосвязи между переменными (случайными величинами). 
Если переменные измерены, как минимум, в интервальной шкале и имеют нормальное 
распределение, то корреляционный анализ осуществляется посредством вычисления 
коэффициента корреляции Пирсона, в противном случае используются корреляции 
Спирмена, тау Кендала, или Гамма 
 
 
Регрессионный анализ 
В регрессионном анализе моделируется взаимосвязь одной случайной переменной 
от одной или нескольких других случайных переменных. При этом, первая переменная 
называется зависимой, а остальные – независимыми. Выбор или назначение зависимой и 
независимых переменных является произвольным (условным) и осуществляется 
исследователем в зависимости от решаемой им задачи. Независимые переменные 
называются факторами, регрессорами или предикторами, а зависимая переменная – 
результативным признаком, или откликом. 
Если число предикторов равно 1, регрессию называют простой, или 
однофакторной, если число предикторов больше 1 – множественной или многофакторной. 
В общем случае регрессионную модель можно записать следующим образом: 
y = f(x
1
, x
2
, …, x
n
), 
где y – зависимая переменная (отклик), x
i
(i = 1,…, n) – предикторы (факторы), n – 
число предикторов. 
Посредством регрессионного анализа можно решать ряд важных для исследуемой 
проблемы задач: 
1). Уменьшение размерности пространства анализируемых переменных 
(факторного пространства), за счет замены части факторов одной переменной – откликом. 
Более полно такая задача решается факторным анализом. 
2). Количественное измерение эффекта каждого фактора, т.е. множественная 
регрессия, позволяет исследователю задать вопрос (и, вероятно, получить ответ) о том, 
«что является лучшим предиктором для...». При этом, становится более ясным 
воздействие отдельных факторов на отклик, и исследователь лучше понимает природу 
изучаемого явления. 
3). Вычисление прогнозных значений отклика при определенных значениях 
факторов, т.е. регрессионный анализ, создает базу для вычислительного эксперимента с 
целью получения ответов на вопросы типа «Что будет, если… ». 
4). В регрессионном анализе в более явной форме выступает причинно-
следственный механизм. Прогноз при этом лучше поддается содержательной 
интерпретации. 


Достарыңызбен бөлісу:
1   ...   21   22   23   24   25   26   27   28   ...   65




©emirsaba.org 2024
әкімшілігінің қараңыз

    Басты бет