Зертханалық жұмыс 11
Қарапайым сызықтық регрессия.
Категориялық айнымалыларды болжаушы ретінде пайдалану
Мысал: Python-дағы сызықтық регрессия
Оқуға жұмсалған сағаттардың саны және студенттің белгілі бір емтиханда алатын бағасына дайындық емтихандарының саны әсер ететінін білгіміз келеді делік.
Бұл байланысты зерттеу үшін біз Python-да бірнеше сызықтық регрессияны орындау үшін келесі қадамдарды орындай аламыз.
1-қадам: деректерді енгізіңіз.
Біріншіден, біз деректер жиынтығын сақтау үшін dataframe pandas құрамыз:
2-қадам: Сызықтық регрессияны орындаңыз.
Әрі қарай, біз statsmodels кітапханасынан OLS() функциясын болжамды айнымалылар ретінде "сағат" және "емтихандар" және жауап айнымалысы ретінде "бағалау" арқылы ең кіші квадраттар әдісімен әдеттегі регрессияны орындау үшін қолданамыз:
3-қадам: нәтижелерді түсіндіріңіз.
Шығарудағы ең маңызды сандарды қалай түсіндіруге болады:
R-квадрат: 0,734. Бұл детерминация коэффициенті ретінде белгілі. Бұл болжаушы айнымалылармен түсіндірілуі мүмкін жауап айнымалысының дисперсиясының үлесі. Бұл мысалда емтихан ұпайларындағы вариациялардың 73,4% -. оқу сағаттарының санымен және тапсырылған дайындық емтихандарының санымен түсіндіруге болады.
F-статистика: 23,46. Бұл регрессиялық модель үшін жалпы F статистикасы.
Ықтималдық (F-статистика): 1,29 e-05. Бұл жалпы F статистикасымен байланысты p мәні. Ол бізге регрессиялық модельдің жалпы статистикалық тұрғыдан маңызды екенін айтады. Басқаша айтқанда, ол біріктірілген екі болжамды айнымалының жауап айнымалысымен статистикалық маңызды байланысы бар-жоғын айтады. Бұл жағдайда p мәні 0,05-тен төмен, бұл "оқу сағаттары" мен "өткен дайындық емтихандары" болжамды айнымалыларының емтихан балымен статистикалық маңызды байланысы бар екенін көрсетеді.
coef: әрбір болжаушы айнымалының коэффициенттері жауап айнымалысының орташа күтілетін өзгерісі туралы айтады, бұл басқа болжаушы айнымалы тұрақты болып қалады деп болжайды. Мысалы, оқуға жұмсалған әрбір қосымша сағат үшін орташа емтихан ұпайы 5,56-ға артады деп күтілуде, егер тапсырылған дайындық емтихандарының саны өзгеріссіз қалса.
Бұл туралы ойланудың тағы бір жолы: Егер А оқушысы мен В оқушысы бірдей дайындық емтихандарын тапсырса, бірақ А оқушысы бір сағатқа көп оқыса, онда А оқушысы В оқушысына қарағанда 5,56 ұпай жинайды деп күтілуде.
Біз ұстау коэффициентін нөлдік сағат оқитын және нөлдік дайындық емтихандарын тапсыратын студент үшін күтілетін емтихан бағасы 67,67 екенін білдіреді деп түсіндіреміз .
Р> / т|. Жеке p мәндері әрбір болжамды айнымалының статистикалық маңызды екенін айтады. Біз "сағаттардың" статистикалық маңызды екенін көреміз (p = 0,00), ал "емтихандар"(p = 0,52) α = 0,05 кезінде статистикалық маңызды емес. "Емтихандар" статистикалық тұрғыдан маңызды емес болғандықтан, біз оларды модельден шығаруды шеше аламыз.
Есептелген регрессия теңдеуі: келесі есептелген регрессия теңдеуін құру үшін модельдің шығысындағы коэффициенттерді қолдана аламыз:
Достарыңызбен бөлісу: |