Ағаштың өсуін тоқтату
Ағаш өсіп келе жатқанда, бөлу ережелері егжей - тегжейлі болады және ағаш бірте - бірте деректердегі нақты және сенімді байланыстарды анықтайтын "үлкен" ережелерді танудан тек шуды көрсететін "кішкентай" ережелерге ауысады. Толық өсірілген ағаш мүлдем таза парақтарға әкеледі, сондықтан ол үйретілген деректерді жіктеуде 100% дәлдікке әкеледі. Бұл дәлдік, әрине, иллюзиялық — біз тым жақын сәйкестікті орындадық (бөлімдегі "мещысу мен дисперсия Арасындағыисаға келу "жазбасын қараңыз. Осы тараудың басында "k таңдау") жаңа деректерде анықтағымыз келетін сигналға емес, жаттығу деректеріндегі шуға бейімделген деректерге.
Бізге жаңа деректерге қорытындыларды қорытындылайтын кезеңде ағаш өсіруді қашан тоқтату керектігін анықтаудың қандай да бір әдісі қажет. Деректерді бөлуді тоқтатудың екі жалпы қабылданған әдісі бар.
Егер алынған ішкі сегмент немесе терминал парағы тым кішкентай болса, сегменттің бөлінуіне жол бермеңіз. Rpart-та бұл шектеулер тиісінше 20 және 7 әдепкі мәндері бар minsplit және minbucket параметрлерімен басқарылады.
Егер жаңа сегмент гетерогенділікті "айтарлықтай" төмендетпесе, сегментті бұзбаңыз. Rpart-та бұл CP күрделілік параметрімен басқарылады, яғни. ағаштың қаншалықты күрделі екендігі-неғұрлым күрделі болса, соғұрлым cp білімі артады. Іс жүзінде cp ағаштың өсуін шектеу үшін қолданылады, бұл ағаштың қосымша күрделілігіне (қосымша бөлімдеріне) айыппұл салу арқылы. Бірінші әдіс ерікті ережелерді қамтиды және барлау кезеңінде жұмыс істеу үшін пайдалы болуы мүмкін, бірақ біз оңтайлы мәндерді оңай анықтай алмаймыз (яғни. жаңа деректермен болжамды дәлдікті барынша арттыратын мәндер). CP күрделілік параметрінің көмегімен біз ағаштың қандай өлшемі жаңа деректермен жақсы нәтиже беретінін бағалай аламыз. Егер CP күрделілік параметрі тым аз болып шықса, онда ағаш сигналға емес, шуылға бейімделіп, деректерге қайта өңделеді. Екінші жағынан, егер cp тым үлкен болса, онда ағаш тым кішкентай болып шығады және болжау күші аз болады. Rpart-та әдепкі мән 0,01 құрайды, дегенмен үлкен деректер жиынтығы жағдайында сіз оны тым үлкен деп санайсыз. Алдыңғы мысалда cp 0,005-ке орнатылды, өйткені әдепкі мән бір реттік ағашқа әкелді. Барлау талдауында бірнеше мәндерді сынау жеткілікті. Оңтайлы CP параметрінің анықтамасы орын ауыстыру мен дисперсия арасындағыроманың мысалы болып табылады (бөлімдегі "орын ауыстыру мен дис - Персия Арасындағыромаға келу" жазбасын қараңыз. Осы тараудың басында "k таңдау"). Сіз үшін ең көп қабылданған әдіс - CP параметрінің сәйкес мәнінің шамамен бағасын есептеу кросс-тексеру арқылы жүзеге асырылады (бөлімді қараңыз. 4-тараудың" кросс-тексеру"):
1. Деректерді оқу және тексеру (жалған мәліметтермен бақылау үлгісі) жиынтықтарына бөліңіз.
2. Ағашты жаттығу деректерімен өсіріңіз.
3. Оны дәйекті түрде кесіңіз, әр қадамда cp жазыңыз (жаттығу деректерін пайдалану).
4. Тексеру деректеріндегі ең аз қатеге (жоғалтуға) сәйкес келетін cp белгілеңіз.
5. Деректерді жаттығу және тексеру жиынтықтарына қайта бөлу және ағаш өсіру, бұтақтарды кесу және жазу процесін қайталау
6. Бұл процесті қайта-қайта орындаңыз және әр ағаш үшін ең аз қатені көрсететін cp параметрлерін орташалаңыз.
7. Бастапқы деректерге немесе болашақ деректерге оралып, алынған оңтайлы CP параметріне тоқталып, ағашты өсіріңіз.
Rpart-та cptable аргументін cp мәндерінің кестесін және олармен байланысты кросс-валидация қатесін (R-дегі xerror) құру мақсатында пайдалануға болады, одан кросс - версияның ең төменгі қателігі бар CP мәнін анықтауға болады.
Достарыңызбен бөлісу: |