K ең жақын көршілер. Ағаш үлгілері. Статистикалық Машиналық оқыту



бет5/9
Дата18.11.2022
өлшемі1,63 Mb.
#51167
1   2   3   4   5   6   7   8   9
K көршілеріне арналған негізгі идеялар:

  • Жақын көршілердің k әдісі (KNN) жазбаны ұқсас жазбаларға жататын сыныпқа жатқызу арқылы жіктейді.

  • Ұқсастық (қашықтық) евклидтік қашықтықпен немесе басқа ұқсас метрикалық көрсеткіштермен анықталады.

  • Жазбаны салыстыратын жақын көршілердің Саны, к, алгоритмнің әртүрлі K мәндерін қолдана отырып, жаттығу деректерінде қаншалықты жақсы нәтиже көрсететіндігімен анықталады.

  • Әдетте, болжамды айнымалылар стандартталған, нәтижесінде үлкен масштабты айнымалылар метрикалық қашықтық көрсеткішінен басым болмайды.

  • Болжалды модельдеуде KN бірінші кезеңде жиі қолданылады және болжамды мән деректерге екінші (KNN емес) кезеңде модельдеудің болжаушысы ретінде қосылады.



Ағаш модельдері

Ағаш модельдері, жіктеу және регрессия ағаштары деп аталады (классификация және регрессия ағаштары, карта)3, шешім ағаштары, немесе жай ағаштар-бұл тиімді және танымал жіктеу әдісі (және регрессия), бастапқыда 1984 жылы Лео Брейман жасаған және т. б. ағаш модельдері және олардың күшті ағындары кездейсоқ ормандар және бустинг (бөлімді қараңыз. Осы тарауда) регрессия үшін де, жіктеу үшін де деректер ғылымында ең көп қолданылатын және қуатты болжамды модельдеу құралдарының негізін құрайды.


Негізгі терминдер:
* Рекурсивті сегменттеу (recursive partitioning) әрбір қорытынды кіші бөлімде барынша біртекті нәтижелерді жасау мақсатында деректерді бөлімдер мен кіші бөлімдерге бірнеше рет бөлу.
* Бөлу нүктесіндегі мән (split value) жазбаларды осы болжаушы кішірек және бөлу нүктесіндегі мәннен үлкен жерлерге бөлетін болжаушы мәні.
* Түйін (түйін) шешім ағашында немесе тиісті тармақталу ережелерінің жиынтығында түйін графикалық немесе ереже түрінде бөлу нүктесіндегі мәнді көрсету болып табылады.
* Жапырақ (жапырақ) "егер-онда" форматындағы ережелер жиынтығының соңы немесе ағаштың бұтақтары, яғни жапыраққа әкелетін ережелер ағаштың кез келген жазбасы үшін жіктеу ережелерінің бірін қамтамасыз етеді.
* Жоғалту (жоғалту) бөлу процесінде белгілі бір кезеңдегі қате жіктеу нәтижелерінің Саны; шығындар неғұрлым көп болса, гетерогенділік соғұрлым көп болады.
* Гетерогенділік (impurity) деректер бөліміндегі сыныптардың араласу дәрежесі (аралас неғұрлым көп болса, гетерогенділік соғұрлым көп болады).
Синонимдер: гетерогенділік, арамдық.
Антонимдер: біртектілік, тазалық, біртектілік.
* Кесу (pruning) қайта орнатуды азайту мақсатында толық өсірілген ағаштың бұтақтарын трансляциялық кесу процесі.


Ағаш Моделі-бұл түсіну және жүзеге асыру үшін "егер-онда - басқаша" түрінің импликация ережелерінің жиынтығы. Регрессия мен логистикалық регрессиядан айырмашылығы, ағаштар деректердегі күрделі өзара әрекеттесулерге сәйкес келетін жасырын үлгілерді (суреттер, үлгілер) анықтау қабілетіне ие. Сонымен қатар, CNN немесе аңғал Байес классификаторынан айырмашылығы, қарапайым ағаш үлгілерін оңай түсіндіруге болатын болжаушылар арасындағы байланыстар тұрғысынан көрсетуге болады.




Достарыңызбен бөлісу:
1   2   3   4   5   6   7   8   9




©emirsaba.org 2024
әкімшілігінің қараңыз

    Басты бет