Рекурсивті сегменттеу алгоритмі
Шешім ағашын құру үшін рекурсивті сегменттеу алгоритмі өте қарапайым және интуитивті. Деректер деректерді салыстырмалы түрде біртекті сегменттерге бөлу үшін қолдан келгеннің бәрін жасайтын болжаушылардың мәндері арқылы бірнеше рет бөлінеді. 6.4 -Суретте. суреттегі ағаш үшін жасалған сегменттердің 6.3-суреті ұсынылған.. Бірінші ереже
borrower_score >= 0.525 графикте 1 нөмірімен көрсетілген. Екінші ереже payment_inc_ratio < 9.732 оң жақ аймақты екіге бөледі.
Бізде Y жауап айнымалысы және 1, үшін j x болжамды айнымалыларының P жиынтығы бар делік ...,jP = . Жазбалары бар А сегменті үшін рекурсивті сегменттеу алгоритмі А ны екі ішкі сегментке бөлудің жақсы әдісін табады:
1. Әрбір болжамды айнымалы үшін X j : •
X j ішінен әрбір S j мәні үшін :
жазбаларды Xj < Sj мәндерімен бір сегментке және қалған жазбаларға, мұндағы Xj≥S j басқа сегментке жатқызыңыз;
әрбір А ішкі сегментіндегі сыныптардың біртектілігін өлшеңіз • * сыныптың максималды сегментішілік біртектілігін тудыратын js мәнін таңдаңыз.
2. J x айнымалысын және сыныптың максималды сегментішілік біртектілігін тудыратын j s бөлу мәнін таңдаңыз. Енді рекурсивті бөлікке кезек келеді: 1. A-ны барлық деректер жиынтығымен инициализациялаңыз. 2. А-ны екі ішкі сегментке, 1 А және 2 А-ға бөлу үшін сегменттеу алгоритмін қолданыңыз .
3. 1 A және 2 a ішкі сегменттерінде 2-қадамды қайталаңыз .
4. Алгоритм сегменттердің біртектілігін жеткілікті түрде жақсартатын кез-келген қосымша сегмент құру мүмкін болмаған кезде аяқталады.
6.4.-Сурет. Несие деректеріне сәйкес келетін қарапайым
ағаш үлгісінің ережелері
Соңғы нәтиже-суреттегідей деректерді сегменттеу. 6.4, P-өлшемдерін қоспағанда, әр сегмент осы сегменттегі жауаптың көпшілік дауыс беруіне байланысты 0 немесе 1 нәтижесін болжайды.
Біртектілікті немесе гетерогенділікті өлшеу
Ағаш тәрізді модельдер Y = 0 немесе Y =1 нәтижесін болжайтын А сегменттерін (жазбалар жиынтығын) рекурсивті түрде жасайды . Алдыңғы алгоритмнен сегменттегі сыныптың тазалығы деп аталатын біркелкілікті өлшеу әдісі қажет екенін көруге болады. Немесе сол сияқты, біз сегменттің гетерогенділігін өлшеуіміз керек. Аңыздардың дәлдігі-бұл сегменттің ішіндегі қате жіктелген жазбалардың p үлесі, ол 0-ден (мінсіз) 0,5-ке дейін (таза кездейсоқ болжам).
Дәлдік гетерогенділіктің жақсы өлшемі емес екен. Оның орнына гетерогенділіктің тағы екі шарасы қабылданды-Гетерогенділік коэффициенті Джини және энтропия, немесе ақпарат. Бұл (және басқа) шаралар гетерогенді жаңалықтар екіден көп сыныптары бар жіктеу тапсырмаларына қолданылады, біз екілік жағдайға назар аударамыз. А жазбалар жиынтығы үшін Джинидің гетерогенділік коэффициенті келесідей:
Энтропиялық Өлшем келесі формуламен берілген:
6.5 -суретте. Джиннидің гетерогенділік өлшемі (қайта масштабталған) және энтропия өлшемі ұқсас, ал энтропия орташа және жоғары дәлдік деңгейлері үшін гетерогенділіктің жоғары бағаларын береді.
Гетерогенділіктің метрикалық көрсеткіші бұрын сипатталған сегменттеу алгоритмінде қолданылады. Әрбір ұсынылған деректерді бөлу үшін гетерогенділік бөлу нәтижесінде алынған әрбір сегмент үшін есептеледі. Содан кейін өлшенген орташа мән есептеледі және (әр қадамда) ең төменгі өлшенген орташа мәнді беретін кез келген сегмент таңдалады.
6.5. -сурет. Джини мен энтропияның гетерогенділік
шаралары
Достарыңызбен бөлісу: |