K ең жақын көршілер. Ағаш үлгілері. Статистикалық Машиналық оқыту

жүктеу/скачать 1,63 Mb.

бет	4/9
Дата	18.11.2022
өлшемі	1,63 Mb.
	#51167

1 2 3 4 5 6 7 8 9

Байланысты:
12-дәріс (1)

KNN әдісі атрибут құрастырушы ретінде

K Таңдау

K таңдау KNN өнімділігі үшін өте маңызды. Ең оңай таңдау - 1 K = орнату , бұл 1-ші жақын көршінің фикаторына сәйкес келеді. Болжам интуитивті: ол жаңа болжамды жазбаға ұқсас жазбаның жаттығу жиынтығында болу негіздері болып табылады. Негіз ретінде қабылдау 1 K = сирек ең жақсы бор болып табылады; сіз әрқашан 1 K > жақын көршілерді пайдалану арқылы жоғары өнімділікке ие боласыз. Жалпы айтқанда, егер k мәні тым төмен болса, онда біз артық жарысты тудыруы мүмкін: модельге деректердегі шуды қосу арқылы. Жоғары k мәндері жаттығу деректерінде қайта жарамдылық қаупін азайтатын тегістеуді қамтамасыз етеді. Екінші жағынан, егер K тым жоғары болса, онда біз деректердің шамадан тыс тегістелуіне әкеліп соқтырамыз және KNN - дің деректердегі жергілікті құрылымды түсіру мүмкіндігін жіберіп аламыз - оның басты артықшылықтарының бірі. Қайта сәйкестендіру мен өте тегістеу арасындағы жақсы тепе - теңдікті сақтайтын k мәні әдетте дәлдік метрикалық көрсеткіштерімен және, атап айтқанда, кешіктірілген деректермен немесе кросс - валидациямен бақылау үлгісіне негізделген дәлдікпен анықталады. K-ны жақсы білуге қатысты жалпы ереже жоқ-бәрі негізінен деректердің табиғатына байланысты. Шуы аз жоғары құрылымдалған деректер үшін кіші k мәндері жақсы жұмыс істейді. Сигналдарды өңдеу аймағынан терминді ала отырып, деректердің бұл түрі кейде жоғары сигнал/кедергі қатынасы (SNR, signal-to-noise ratio) деп аталады. Жоғары SNR деректерінің мысалдары әдетте қолжазба мен сөйлеуді тануға арналған деректер болып табылады. Несие деректері сияқты құрылымы төмен (SNR деректері төмен) шулы деректер үшін үлкенірек k мәндері орынды болады.әдетте, k мәндері 1-ден 20-ға дейінгі диапазонға түседі. Дауыс беру кезінде дауыстардың теңдігін болдырмау үшін тақ сан сирек таңдалмайды.

KNN әдісі атрибут құрастырушы ретінде

KNN әдісі өзінің қарапайымдылығы мен интуитивті табиғатына байланысты танымал болды. Тиімділік тұрғысынан KNN әдетте неғұрлым жетілдірілген жіктеу әдістерімен салыстырғанда кон - курентке қабілетті емес. Практикалық жағдайларда модельдерді сәйкестендіру кезінде KNN басқа жіктеу әдістерімен көп сатылы процесте "жергілікті білімді" қосу үшін қолданыла алады. 1. KNN деректерде орындалады және әрбір жазба үшін класс - сификация нәтижесі (немесе сыныптың квази ықтималдығы) қалыптасады. 2. Бұл нәтиже жазбаға жаңа белгі ретінде қосылады, содан кейін деректерде тағы бір жіктеу әдісі орындалады. Бастапқы болжау pe-белбеулер осылайша екі рет қолданылады. Алдымен бұл процесс мультиколлинеарлыққа байланысты проблеманы тудыратынына күмәндануға болады, өйткені кейбір болжаушылар оны екі рет қолданады (бөлімді қараңыз. "Мультиколлинеарлық" 4 тарау). Бұл проблема емес, өйткені екінші кезең моделіне енгізілген ақпарат өте Жергілікті, тек бірнеше көрші жазбалардан алынған және сондықтан артық ақпарат емес, Қосымша ақпарат болып табылады.

Мысалы, Кинг округінің тұрғын үй қорының деректерін қарастырыңыз. Үйді сату бағасын белгілеу кезінде жылжымайтын мүлікті сату агенті бағаны жақында сатылған ұқсас үйлерге негіздейді, олар"сату - ана-журналдар" деп аталады. Негізінде, жылжымайтын мүлік агенттері KNN-дің қолмен нұсқасын орындайды: ұқсас үйлердің сату бағасына қарап, олар Boo - det үйі не үшін сатылғанын бағалай алады. Біз KNN - ді соңғы сатылымдарға өзгерту арқылы жылжымайтын мүлік саудасының маманына еліктейтін статистикалық модель үшін жаңа белгі жасай аламыз. Болжалды мән сату бағасы болып табылады және қолданыстағы болжамды айнымалыларға орналасу орны, жалпы шаршы метр, құрылым түрі, жер көлемі және жатын бөлмелері мен жуынатын бөлмелердің саны кіруі мүмкін. Біз KNN арқылы қосатын жаңа болжау айнымалысы (белгі) - әрбір жазба үшін KNN болжаушысы (жылжымайтын мүлік агенттеріндегі аналогтық сатылымдарға ұқсас). Болжалды мән сандық болғандықтан, жақын көршілердің орташа K (KNN регрессиясы деп аталады) мажоритарлық мемлекеттік лосингтің орнына қолданылады. Сол сияқты, несие деректері үшін біз несие беру процесінің әртүрлі жақтарын білдіретін белгілерді жасай аламыз. Мысалы, келесі код үзіндісі қарыз алушының несиелік қабілетін білдіретін белгіні жасайды:
borrow_df <- model.matrix(~ -1 + dti + revol_bal + revol_util + open_acc + delinq_2yrs_zero + pub_rec_zero, data=loan_data)
borrow_knn <- knn(borrow_df, test=borrow_df, cl=loan_data[, 'outcome'], prob=TRUE, k=10)
prob <- attr(borrow_knn, "prob")
borrow_feature <- ifelse(borrow_knn=='default', prob, 1-prob) summary(borrow_feature)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.0000 0.4000 0.5000 0.5012 0.6000 1.0000

нәтиже-бұл жағдайдың сенімділігін болжайтын белгі, қарыз алушы несие тарихына сүйене отырып, несиені қайтармайды.

жүктеу/скачать 1,63 Mb.

Достарыңызбен бөлісу:

1 2 3 4 5 6 7 8 9