Біз бұл регрессияның бағалау теңдеуін оқушының күтілетін емтихан ұпайын олар оқитын сағаттар мен олар тапсыратын дайындық емтихандарының санына қарай есептеу үшін пайдалана аламыз.
Мысалы, үш сағат оқитын және бір дайындық емтиханын тапсыратын студент 83,75 балл алуы керек:
Есіңізде болсын, дайындық емтихандары статистикалық тұрғыдан маңызды болмағандықтан (p = 0,52), біз оларды алып тастауды шеше аламыз, өйткені олар жалпы модельді жақсартпайды. Бұл жағдайда біз тек үйренген сағаттарды болжаушы айнымалы ретінде қолдана отырып, қарапайым сызықтық регрессияны орындай аламыз.
4-қадам: модельдің болжамдарын тексеріңіз.
Сызықтық регрессияны орындағаннан кейін, регрессия моделінің нәтижелері сенімді екеніне көз жеткізу үшін тексеруге болатын бірнеше болжамдар бар. Бұл болжамдарға мыналар жатады: Қалдық график - регрессиялық модель үшін қалдық мәндермен салыстырылған мәндер көрсетілетін график түрі.
Графиктің бұл түрі көбінесе сызықтық регрессия моделінің берілген мәліметтер жиынтығына сәйкес келетіндігін бағалау және қалдықтардың гетероскедастикасын тексеру үшін қолданылады.
Бұл нұсқаулық Python-да сызықтық регрессия моделі үшін қалдық графикті қалай жасау керектігін түсіндіреді.
№ 2 болжам: қалдықтардың Тәуелсіздігі. Дарбин-Уотсон сынағы арқылы бұл болжамды тексеріңіз.
Регрессиялық модель қалдықтарының автокорреляцияланғанын анықтау үшін statsmodels кітапханасындағы durbin_watson ()функциясын пайдаланып Durbin Watson жасай аламыз:
Тест статистикасы - 1,506. Бұл 1,5-тен 2,5-ке дейінгі диапазонда болғандықтан, біз автокорреляция бұл регрессиялық модельде қиындық тудырмайды деп санаймыз.
№ 3 болжам: қалдықтардың гомоскедастикасы.
Бреуш-Паган сынағы арқылы бұл болжамды тексеріңіз.
Бірнеше сызықтық регрессия үлгісін таңдаңыз.
Біріншіден, біз бірнеше сызықтық регрессия моделін реттейміз:
2-қадам: Бреуш-Паган сынағын өткізіңіз.
Әрі қарай, біз гетероскедастиканың бар-жоғын анықтау үшін Бреуш-Паган сынағын өткіземіз.
Бреуш-Паган тесті келесі нөлдік және балама гипотезаларды қолданады:
Нөлдік гипотеза (H0): гомоскедастика бар.
Балама гипотеза: (Ha): гомоскедастика жоқ (яғни гетероскедастика бар)
Бұл мысалда тест үшін Лагранж мультипликаторының статистикасы 6,253, ал сәйкес p мәні 0,0439. Бұл p мәні 0,05-тен кем
№ 4 болжам: қалдықтардың қалыптылығы.
Бұл болжамды QQ графигін пайдаланып көзбен тексеріңіз.
QQ графигі, "кванттық-кванттық" графикке қысқартылған, деректер жиынының кейбір теориялық таралудан ықтимал алынғанын бағалау үшін жиі қолданылады.
Көп жағдайда графиктің бұл түрі деректер жиынтығының қалыпты үлестірімге сәйкес келетіндігін анықтау үшін қолданылады .
Мысал: Python-дағы QQ графигі
Бізде 100 мәннен тұратын келесі мәліметтер жиынтығы бар делік:
Осы деректер жиынтығы үшін QQ графигін құру үшін біз statsmodels кітапханасынан qqplot () функциясын қолдана аламыз:
QQ графигінде X осі теориялық квантильдерді көрсетеді.Бұл дегеніміз, ол сіздің нақты деректеріңізді көрсетпейді, керісінше, егер ол қалыпты түрде таратылса, сіздің деректеріңіз қайда болатынын көрсетеді.
Y осі сіздің нақты деректеріңізді көрсетеді.Бұл дегеніміз, егер деректер мәндері шамамен 45 градус бұрышта түзу сызыққа түссе, онда деректер қалыпты түрде бөлінеді.
Жоғарыдағы QQ графигімізде деректер мәндері 45 градусқа жақын болатынын көре аламыз, яғни деректер қалыпты түрде таралуы мүмкін. Бұл таңқаларлық емес, өйткені біз numpy функциясын пайдаланып 100 деректер мәнін жасадық.random.normal() .
Оның орнына, егер біз 100 біркелкі үлестірілген мәндер жиынтығын құрсақ және сол деректер жиынтығы үшін QQ графигін жасасақ, қарастырайық:
Жеке тапсырма: Оқытушы бекіткен тақырып бойынша регрессиялық талдау жасау.