K ең жақын көршілер. Ағаш үлгілері. Статистикалық Машиналық оқыту



бет3/9
Дата18.11.2022
өлшемі1,63 Mb.
#51167
1   2   3   4   5   6   7   8   9
Бір белсенді күйі бар кодтаушы

Кестедегі несиелер туралы мәліметтер. 6.1 бірнеше факторлық (жолдық) айнымалыларды қамтиды. Статистикалық және машиналық оқыту модельдерінің көпшілігі айнымалының бұл түрін кесте сияқты бірдей ақпаратты тасымалдайтын екілік жалған айнымалылар қатарына түрлендіруді талап етеді. 6.2. Үй иесінің мәртебесін білдіретін бір айнымалының орнына: "ипотекамен иелік етеді", "ипотекасыз иелік етеді", "жалға алады" немесе "басқа", біз төрт екілік белбеуге келеміз. Біріншісі "ипотекамен — Y/N", екіншісі "ипотекасыз — Y/N" және т. б. болады. Бұл бір болжаушы, үй иесінің мәртебесі, осылайша статистикалық және машиналық оқыту алгоритмдерінде қолдануға болатын бір 1 және үш 0 векторын тудырады. "Бір белсенді күйді кодтау" (one hot encoding) тіркесі цифрлық интегралды Чип терминологиясынан шыққан, онда ол тек бір биттің оң (белсенді)болуына рұқсат етілген Чип конфигурациясын сипаттайды.


6.2.-Кесте Сандық жалған айнымалы арқылы үй иесі туралы


факторлық деректерді ұсыну

Стандарттау (қалыпқа келтіру, z-бағалау)

Өлшеу нәтижесінде алынған мәліметтерде бізді көбінесе олардың мөлшері емес, олардың орташадан қаншалықты ерекшеленетіні қызықтырады. Стандарттау немесе қалыпқа келтіру процедурасы барлық айнымалыларды орташа мәнді алып тастау және стандартты ауытқуға бөлу арқылы ұқсас шкалаларға орналастырады. Осылайша, біз айнымалының бастапқы өлшеу шкаласына байланысты модельге шамадан тыс әсер етпейтініне кепілдік береміз.



Стандарттау нәтижесінде алынған шамалар әдетте стандартты бағалау немесе z-бағалау деп аталады. Өлшеу деректері одан әрі"орташадан стандартты ауытқуларда" қолданылады. Осылайша, айнымалының модельге әсері оның бастапқы өлшеу шкаласына әсер етпейді.

KNN және басқа да бірнеше процедуралар үшін (мысалы, негізгі компоненттерді талдау және кластерлеу) процедураны қолданар алдында деректерді стандарттауды ескеру өте маңызды. Бұл идеяны көрсету үшін KN date және payment_inc_ratio көмегімен кемелер туралы мәліметтерге қолданылады (бөлімді қараңыз. "Шағын өлшемдер: несиені қайтармауды болжау" осы тараудың басында) және басқа екі өзгермелі: revol_bal — өтініш берушіге доллармен қол жетімді жалпы жаңартылатын несие және revol_util — пайдаланылған несиенің пайызы. Жаңа болжамды жазба төменде көрсетілген:




new loan
payment_inc_ratio dti revol_bal revol_util
1 2.3932 1 1687 9.4

Доллармен есептелетін rival_ball шамасы басқа айнымалыдан әлдеқайда үлкен. Ln функциясы nn атрибуты сияқты ең жақын көршілердің индексін қайтарады.Индекс және оны loan_df деректер кадрындағы ең жақын бес жолды көрсету үшін пайдалануға болады:




loan_df <- model.matrix(~ -1 + payment_inc_ratio + dti + revol_bal + revol_util, data=loan_data)
knn_pred <- knn(train=loan_df, test=newloan, cl=outcome, k=5) loan_df[attr(knn_pred,"nn.index"),]
payment_inc_ratio dti revol_bal revol_util
36054 2.22024 0.79 1687 8.4
33233 5.97874 1.03 1692 6.2
28989 5.65339 5.40 1694 7.0
29572 5.00128 1.84 1695 5.1
20962 9.42600 7.14 1683 8.6

Бұл көршілердегі rival_ball мәні оның жаңа жазбадағы мәніне өте жақын, бірақ басқа болжамды айнымалылар шашыраңқы және көршілерді анықтауда маңызды рөл атқармайды.


Мұны әр айнымалы үшін z бағасын есептейтін scale R-функциясын қолдана отырып, стандартталған деректерге қолданылатын KNN-мен салыстырайық:
loan_std <- scale(loan_df) knn_pred <-
knn(train=loan_std, test=newloan_std, cl=outcome, k=5) loan_df[attr(knn_pred,"nn.index"),]
payment_inc_ratio dti revol_bal revol_util
2081 2.61091 1.03 1218 9.7
36054 2.22024 0.79 1687 8.4
23655 2.34286 1.12 523 10.7
41327 2.15987 0.69 2115 8.1
39555 2.76891 0.75 2129 9.5

Ең жақын бес көрші барлық айнымалыларда әлдеқайда ұқсас, бұл ақылға қонымды нәтиже береді. Нәтижелер бастапқы мектепте көрсетілгенін ескеріңіз, бірақ KNN талданған мәліметтерге және болжанған жаңа несиеге қолданылды.






Достарыңызбен бөлісу:
1   2   3   4   5   6   7   8   9




©emirsaba.org 2024
әкімшілігінің қараңыз

    Басты бет