ГАЖ классификация әдiстерiнiң ортақ мiнездемесi
Классификацияның әдiстерiнiң барлық түрлерiн түрлі негіздеу бойынша кейбiр топтарға бөлшектеуге болады. Экология және географиядағы классификациялар әдiстерiнiң жүйелеулерi үшiн негiздері ретінде жиiрек классификацияның мақсаты болады, класты анықтау, үйрету іріктеуінің болуы, географиялық кеңiстiктi қолдану, кластардың статистикалық қасиеттері туралы априорлық ақпараттың болуы, классификатор кіруіне ОТЕ жіберу тәсілі.
Мақсат бойынша бағалау және типологиялық классификацияларын жиiрек ерекшелейдi. Бағалау классификациялар жақсы-жаман және жақсырақ-жаманырақ терминдердегi ОТЕ-ні талдау және салыстыруы үшiн, ал типологиялық – ОТЕ-нің кейбiр орнықты түрлерiң ерекшелеуi үшiн қажет.
Географиялық кеңістікті есепке алудың дәрежелерi бойынша классификацияның әдiстерi математикалық процедураларда қолданушыларға және қолданбайтындарға бөлшектенедi.
Классты анықтау бойынша классификациялардың әдiстерi кәдімгі және айқын емес болады. Айқын емес классификациялау әдістері ОТЕ класстардың әрқайсыларына тиiстiлiктiң ықтималдығын анықтайды, ОТЕ-ні бұлардың біріне бірмәнді жатқызбайды.
Үйретуші іріктеуі бойынша классификация әдістері бақыланатын және бақыланбайтын классификация әдістеріне бөлшектенедi, олар «мұғаліммен» және «мұғалімсіз» (автоматтық классификация) классификация деп аталады.
Кластардың статистикалық қасиеттерi туралы апроирлық ақпараттың болуынан классификацияның параметрлiк және параметрлiк емес әдiстерi болуы мүмкiн. Параметрлiк әдiстердiң мақсаты әрбiр сынып шектерiндегi ОТЕ-ні үлестiрiлудiң белгiлi функцияларының белгiсiз параметрлерiнiң және бұл класстардың пайда болуың ықтималдықтарын iздеп табуы болып табылады. Параметрлiк емес әдiстерді әдетте иерархиялыққа және иерархиялық емеске бөледi, соңғыларын эвристикалық және ұтымдылықтыққа. Иерархиялық әдiстер жеке ОТЕлердің бiртiндеп бiрiктiруiнiң немесе барлық ОТЕ болатын жалғыз кластың бөлiктеу жолымен керек кластар санын қалыптастырады. Эвристикалық процедуралар классификацияның негiзгi мақсаттары туралы зерттеушiнiң интуициялық ұсынысында негiзделген. Ұтымдылық алгоритмдар бөлiктеуді сапаның таңдаулы функционалын максимумға аудару үшiн өндiрiп алады. ОТЕ-ні талдауға кiруге беру әдiсі бойынша классификацияның ретті және параллельді әдiстерiн танып бiледi.
Ретті әдiстер барлық ОТЕ-ні бiр рет кезекпен қарап шығады, О1-ден бастап ОN-ге дейін параллельді процедуралар бiрден барлық ОТЕ-лерге классификатор кіруіне беруді талап етедi.
Бағалау және типологиялық классификациялары. Бағалау классификацияларды S1, ..., Sk, бiрнеше класстарды алу үшiн қолданады, олар үшiн бiр кластың өкiлдерi басқа өкiлдерден жақсы немесе жаман деп айтуға болады (кейде қаншалықты жақсы немесе жаман). Отяға Бағалау классификациясын өткiзудiң нәтижесiнде алған ОТЕ кластары арнайы түрмен реттеген деп әрдайым есептеледi, яғни,
S{ < S2 <... < SK немесе (1)
Sx > S2 > ... > SK.
мұндағы S1, ..., Sk– бағалау классификациялар бірнеше класстарды алу үшін.
SI < SJ белгiлермен І клас ОТЕ-сі J класының ОТЕ-сінен көрсеткiштердiң кешенi бойынша жақсырақ деп ұғылады. Сонымен бiрге, әрбiр клас шектерiнде ОТЕ шамамен бiрдей жақсаратынын немесе (көрсеткiштермен суреттелетін мәселе тұрғысында) бiрдей жаман болады деп есептеледi.
Бағалау классификациялардағы міндетті кезеңi жалғыз белгiге өту болып табылады. Қорытынды көрсеткiшті ОТЕ класын оның минималды мәндерімен «жаман» деп түсіндіріледі, ал максималдылармен «жақсы», немесе керісінше болатындай алады. Мысалы, ОТЕ ретінде жер телiмдерi алынады, ал көрсеткiштер ретiнде – топырақтардың түрлерi, су қорларынан алшақтығы, көлiк желiге жақындығы және тағы басқалар. Сонда мақсаттық белгiмен тұрғын үйдiң құрылымы орындылығының дәрежесi бола алады.
Мақсаттық белгiнiң мәндерiне байланысты ОТЕ үш класқа бөлiне алады: «құрылыстар үшiн жарамды емес», «құрылыс үшiн қолайлы» және «жарамды».
Типологиялық классификацияларының мақсаты ОТЕ-нің орнықты топтарын М-өлшемді нышандық кеңістікте, яғни ОТЕ-лердің мүмкін түрлерін алу болып табылады. Бағалау классификацияларына қарағанда, көрсеткіштер сирек «жақсы» немесе «жаман» деп түсіндіріледі, ал салдарлы кластар бір көрсеткіш бойынша «жақсы» және басқа көрсеткіш бойынша «жаман» мәні бар ОТЕ-лерді енгізеді.
Типологиялық классификациясының мысалымен біздің заманның VII-VIII, IX-X, XI-XIII және XX ғғ. төрт кезеңдері бойынша ортағасырлық Самарканд ескi қаланың мәдени қабатында ауыр металлдар (қорғасын, мыс, цинк, темір) тiркесінiң заңдылығының анықталуы болады. Зерттеудiң тақырыбы бойынша мамандардың типологиялық классификациясының өткiзулерiнен кейiн әрбiр клас-типке маңызды интерпретация беріледі, яғни бұл клас ОТЕсінде әрбір көрсеткіш өзгерісінің диапазондары бөлшектенеді.
Айқын емес классификациялар. Айқын емес (көмескi) классификацияға кейде кеңірек міндет (суреттеп айтылған канондықпен салыстырғанда) қойылады. Классификацияның бұл түрі егер клас көмескi, ауыспалы сипатта болса қолданылуы керек. Мысалы, Н.М.Солодухо мен А.М.Трофимовтың жұмысында жазылған: «табиғи күйі әртүрлі бөліктердің кеңістікте өзара әрекеттесудi жинақтылықтың қағидасыдана қарағанда, шектің көмескілігі – оның табиғи күйі деп санауға болады, сонда айқын және нақты сызықты немесе суыртпақ айқындалу шектері геожүйенің шектілігі айқындалуының дербес жағдайы болып саналады».
Айқын емес классификацияның канондықтан негiзгi айырмашылығы, барлық ОТЕ үшiн кластар нөмiрін алуда емес, ОТЕ-нің кластардың әрқайсыларына тиiстiлiк ықтималдығында тұрады. ОТЕ-ні кластардың біріне бiрмәндi жатқызу қажеттігінде (яғни айқын емес классификацияның нәтижелерiнiң канондық жағдайға жеткізу) ОТЕ пайда болуы әбден мүмкін клас табылады.
Географиялық кеңiстiк классификацияларда қолдану.
Классификациялардың көбін өткізгенде кластарды құрастыру жалпы жағдайда географиялық, және атрибутивтi серпiлт кеңiстiктер негiзінде болады. Алайда, географиялық кеңiстiктiң қолдану дәрежесiне сүйене келесi нұсқалар (немесе олардың комбинациясы, бiрiншiні қоспағанда) болуы мүмкiн:
- классификацияда географиялық кеңiстiк қолданылмайды;
- географиялық кеңiстiк классификацияны өткiзу алдында атрибутивтi кеңiстiктiң белгiлерiн құрастыруында қолданылады (тиiстi мысалдар ОТЕ-белгі кесте түрiнде атрибутивтi кеңiстiктiң ұсынысының талқылауында келтiрiлдi);
- географиялық кеңiстiк классификацияның барысы мен нәтижелерiн көргенде қолданылады (яғни талдаудың барысы мен нәтижелері картографияланады);
- географиялық кеңiстiк ОТЕ-ОТЕ түріндегі жақындықтарының матрицасымен көрсетілген, ол атрибутивтi серпiлт кеңiстiкті ұсынатын матрицамен бiрге классификацияның алгоритмымен қолданылады.
Алдында болғандай, атрибутивтік серпілт кеңістігі үшін ОТЕ-нышаны мен ОТЕ-ОТЕ матрицаларын Х және А символдарымен белгілейміз, оған сәйкес географиялық кеңістік ОТЕ-ОТЕ матрицасын G символымен белгілейміз.
Географиялық классификация мысалы ретінде (ОТЕ) аймақтарды байланыс күші бойынша (көбінесе – экономикалық) топтастыру болады. Мұндай классификацияның мақсаты – ОТЕ арасындағы байланыстары максималды топтарды алу. Мұндағы географиялық қашықтықтар жеке кестемен жазылады және байланыстар түрлерінің бірі болып саналады, өйткені, мысалы, тауардың бір ОТЕден басқаға жылжу құнын көрсетуі мүмкін.
Екi кеңiстiктердің (және де географиялық кеңiстiкті көрсететін ОТЕ-ОТЕ түрдiң матрицасы бинарлық) матрицаларын қолданатын классификацияның тағы бiр түрi – аудандастыру.
Аудандастыру деп территорияны көптеген кесіп өтпейтін бүтіндік аудандарға бөлінуді айтады. Бұл аудандар – географиялық та нышандық кеңістіктерде ОТЕ-лердің тығыз қойытулары. Классикалық географиялық түсінікте бұл территорияны олардың ұқсамастығы, өзгешелігі принцибі бойынша бөлінуі.
Бұл әдіс класындағы қашықтық матрицасы G шектестік кестесімен көрсетілген. Аудандастыру терминдерінде кеңістік бөлшектенбеуіне шектелген кластың синонимі – аудан түсінігі.
Аудандастыру міндеттерін қойу негізінде ОТЕ-ні территориалдық басқару қажеттілігі жатыр. Кластарды кеңістік бөлшектенбеуден басқа, аудандастырудың шектеуі болып алынған аудан класының тұтастығы, мүмкін бұрыңғы әкімшілік-территориалдық жүйені (мысалы, экономикалық аудандарды) есепке алу саналады.
Үйретуші іріктеу. Классификация өткізгенде талдауда қалыптастыру қажет кластар туралы априордық ақпаратты максималды қолдану өте маңызды. Осындай ақпарат ретінде үйретуші іріктеу саналады, яғни көптеген ОТЕ, әрқайсысына кластардың біріне жататындығы мәлім.
Үйретуші іріктеуді меңгеру көптеген жағдайларда классификацияларды өткізуді жеңілдетеді де олардың сапасын арттырады. Ол математикалық модельдерді күйге келтіру үшін – D метрикасын және Q классификация сапасының көрсеткішін таңдау үшін, К кластар санын, олардың ядроларын және тағы басқа анықтау үшін қолдануы мүмкін. Мысалы, әлем елдерін әлеуметтік-экономикалық даму деңгейі бойынша классификациялауды өткізгенде, В.С.Тикуновтың еңбегінде жазылғандай, үйретуші іріктеу әр кластың бірнеше типтік ел – өкілдерінен құрастырылды, бұл география жағынан ұғынып кластарды құрастыруға көмектесті.
Кластардың шын санын бағалау. Жиі классификация өткізгенде құрастыру керек кластар санын бағалау қажет. Кластардың шын санын Кшын анықтау үшін қарапайым, бірақ кең қолданылатын жол бар. Бұл жол К[Кmin,..., Kmax] кластар саны үшін есептелген Q(K) классификация сапасы функционалы мәндерін қолдануда негізделген. Кшын шынайы мәні Q(K) сапа функционалының соңғы күрт секірісінен кейін жатады. Бұл кластар саны көбейу классификация сапасының өсуін бермейтінін көрсетеді.
Нақты міндетті шешу кезінде Кmin, және Kmax (мысалы, Кmin = 2 және Кmax = 10) кластардың мүмкіндік минималдық және максималдық сандарымен шешу орынды. Диапазон үлкен болса, Кшын-ды табу жеңіл және көбірек есептер шығару керек.
ОТЕ классификациялауындағы маңызды кезең – жиі нормалауды, өлшеуді, мөлшерін төмендетуді және агрегирлауды қосатын алдын ала өңдеу.
Тәжірибеде классификацияны өткізгенде талданатын көрсеткіштер бірдей өлшем бірлігінде және масштабта сирек беріледі.
Мөлшерлес және шамаласпайтын көрсеткіштер жүйелерiнiң (моноструктурлық және полиструктурлық сәйкесiнше) белгiлеу үшiн арнайы терминдер бар.
Моноструктуралық көрсеткіштер жүйесінің үлгісі – өнеркәсіптің түрлі салаларында қызмет істейтіндер пайызы.
Көбінесе нормалаудың келесі түрлері кездеседі:
- берілген көрсеткіш бойынша нормалау. Әлеуметтік-экономикалық географияда нормалау көрсеткіш ретінде жиі ОТЕ халқының жалпы саны немесе ОТЕнің территория көлемі саналады;
- берілген мән бойынша нормалау;
- дисперсия және математикалық күтулер бойынша нормалау. Бұл нормалаудың мақсаты – әр көрсеткішті стандартты түрге келтіру (нәтижесінде әр көрсеткіштің математикалық күтуі нөлге, ал дисперсия - бірге теңеледі);
- ең жақсы немесе ең жаман мән бойынша нормалау. Бұл нормалаудың мақсаты – берілген ең жақсы немесе ең жаман мәндерден С көрсеткіштердің ауытқу пайызына өткізілуі.
Көрсеткіштерді өлшеу. Көрсеткіштер үшін таразыларды алу процесі классификацияларды түзу өткізу үшін керек. Көбінесе, көрсеткіштердің әртүрлі өлшеу бірлігіне ұқсас, олардың үлестері де, бұл пән саласы үшін маңызы да әртүрлі. Зерттеуші, мысалы, талдау көрсеткіштері санына аса маңызды және болмашысыны қосуы мүмкін, ал олардың соңғы нәтижесіне әсері деңгейін анықтау үшін болмашысы көрсеткіштердің әсерін азайтуы мүмкін (оларды өлшеп). Осындай өлшеу нормаланған көрсеткіш J-ді {1, …,M} қандай да болса TER санға бөлуде, яғни көрсеткішке өлшемді беруде көрсетілген.
Типтік классификацияларда өлшеу таңбасы талдау нәтижесіне ешқандай әсерін тигізбейді, өйткені бастапқы көрсеткішті -1-ге көбейтуге болады.
Бағалау классификацияларды өткізу үшін көрсеткіштерді қолданған жағдайда, олардың белгілері шешуші болуы мүмкін. Солай, өлшеу тек қана кейбір көрсеткіштерді 1-ге көбейтуде болуы мүмкін, қайсы-бірінің мәнін көбейуі қарастырылған ОТЕ-дегі жағдайдың жақсаруы немесе нашарлауы туралы белгілеу үшін.
Көрсеткіштер үшін объективті таразыларды алу тәсілдері әртүрлі.
Көбінесе экспертті әдіс қолданылады, мұнда маман немесе олардың тобы нақты пән саласында әр көрсеткіштің маңыздылығын бағалайды. Аналитикалық әдістер де болады.
Бас компоненттерді талдау, немесе компонентті талдау, өлшемдікті төмендету әдістерінің ең жиі қолданатындардың бірі. Бұл әдіспен бар жүйе негізінде ОТЕ-ні суреттейтін атрибутивтік нышандарды табу міндеті шешіледі, жаңа жүйені келесі қасиеттермен:
- жаңа жүйенiң белгiлерi – бастапқы жүйе сызықты комбинациялары белгiлері болып табылады;
- белгiлердiң жалпы жағдайда жаңа жүйесiндегi саны, көп емес, iс жүзiнде бастапқы жүйедегі белгiлердiң санынан әрдайым аз;
- жаңа жүйе нышандары ортогоналды, яғни корреляциялау керек емес;
- жаңа жүйе нышандары дисперсия төмендеу ретінде реттелген;
- жаңа жүйе нышандары объекттер құбылмалылықтар туралы бастапқы нышандар бергендей ақпарат береді (немесе алдын ала берілген ақпарат пайызы, мысалы 90%). Ақпарат деп нышандар дисперсиясын айтады.
Бас компонент әдісін нышандардың өзара корелляциясымен бұрмалалған бастапқы кеңістігінің түзету үшін, ОТЕ туралы ақпараттың маңызды бөлігін жоғалтпай сақталатын мәліметтердің көлемін төмендету үшін, Нышандар кеңістігінде ОТЕ-ні көру үшін (бұл, мысалы, бірінші бас компонент тегістігінде нүкте түрінде ОТЕ-ні көрсетумен қол жеткізіледі) және процестің немесе құбылыстың мәнін айқындайтын латенттік (яғни, жасырынды, нақты көрінбейтін) көрсеткіштерді анықтау үшін қолдану қажет.
Бас компоненттер әдiсiнiң геометриялық интерпретациясы өте жай ғана қабылданады. Нышандардың көпөлшемді кеңістігінде ОТЕ, олардың бұлт геометриялық құрылымы нормалы үлестiрiлу жағдайында М-өлшемді эллипсоидқа ұқсас нүктелер ретінде қарастырылады. Жаңа нышандар деп осьтер бойынша дисперсияларды кеміту ретінде сұрыпталған ойдағы эллипсоидтің бас осьтары алынады.
Өте жай интерпретацияға агрегаттау – бастапқы көрсеткіштердің көптігінен жалғыз, ОТЕ-ні айыру көрсеткіштеріне өту әдістерінің бірі. Отрақ жағдайда агрегаттау әдістері түрлі шкалаларда өлшенген көрсеткіштермен пайдаланады және нышандар иерархиясын алу үшін қызмет етеді.
Агрегаттау өте жиі географиялық және экологиялық зерттеулерде қолданылады, өйткені көп көрсеткіштер бойынша бағалау классификациясын алуға көмектеседі. Көбінесе нәтиже беретін көрсеткішті минималдық мәні бар ОТЕ «жаман» деп, ал максималдық – «жақсы» (көрсеткіштермен суреттелетін мәселелер кескінінде), немесе керісінше интерпретацияланатындай алады.
Ядролармен кластарды суреттеуде негізделген классификация әдістері.
«Ядролық» әдістер ОТЕ-лер қойытулардың нышандық кеңістікте айқындауына көзделген және ертеде таза эвристикалық сипатта болған, өйткені нышандық кеңістіктегі ОТЕ тығыздығы ұғымы формалданылмаған. Теория дамуымен бірқатар эвристикалық процедуралар үшін топқа бөлу сапасының функционалдары табылды, сөйтіп оларға сәйкес тығыздық ұғымы формалдандырылды. Оған сәйкес ядролармен кластарды суреттеуде негізделген классификация алгоритмдерін эвристикалық және ықшамдалғанға бөледі. Одан басқа, әдістерді алгоритм кіруіне ОТЕ-лерді жіберу тәсілдері бойынша бөлуге болады. Егер ОТЕ-лер бір-бірден (ретті түрде) жіберілсе, оған сәйкес процедуралар ретті деп аталады. Егер алгоритм кірулеріне барлық ОТЕ-лер бірақ жіберілсе, олар параллелді деп аталады. Ретті процедуралардың артықшылығы – жұмыстың биік жылдамдығы, параллелдіктің – О бастапқы жиынтықтағы ОТЕ ретінен алынатын классификацияның тәуелсіздігі.
Клас ядросы деп нақты болған немесе сипаттар жиынтығының барлығы бұл кластың эталоны болған ең «өкілетті» ОТЕ-ні санайды. Көбінесе ядромен класты суреттеуде негізделген алгоритмдер ОТЕ-лерді ядроға классификация процедурасын қашықтықтың минималдығы бойынша қолданады:
- D метрикасымен беру;
- кластар ядроларын табу;
- оларға дейін қашықтықтың минималдығы бойынша барлық ОТЕ-лерді ядроларға классификациялау.
Ядроларды табу үшін әдетте үйретуші іріктеуді қолданады, сонымен кластардың геометриялық орталықтарын табады, немесе арнайы формалдық процедураларды пайдаланады.
Ядроларды таңдаудағы кейбір эвристикалық көзқарастар.
Кластар ядроларын таңдаудыңкейбір эвристикалық формалданған процедуралар жиырма жылдан астам жылдар белгілі.
Біріншіден, кластар ядроларын олардың максималды гетерогенттігі принцибінен табуға болады. Мысалы, бірінші екі ядро деп көрсеткіштер жиынтығы бойынша өзара көп айырмашылығы бар екі ОТЕ-ні таңдайға болады. Содан кейін, егер ядролардың (ЛГ-1) болса, Ядроның КТО-сы деп ядролардың (К-1) көп ерекшеленетін ОТЕ таңдалады.
Ядролар қалыптасуының басқа принцибі ОТЕнің максималды гомогенді кластарын бөлуінде негізделеді. Кластар ядроларын таңдағанда оларға қашықтық минималдығы бойынша қалған ОТЕ-лерді жатқызғанда (солай кластар жүйесін алу) қолданылатын классификация сапасының функционалы Q өз экстремумына жетуі тиіс (сапа функционалын интерпретациялауға тәуелді максимумына немесе минимумына).
Тағы бір «ядролық» эвристикалық алгоритм – ядроларды ретті шығару әдісі. Бұл әдістің негізінде кластар бір-бірінен ОТЕ арасындағы кластар ішіндегі қашықтықтардан көп біршама қашықтықта С болу туралы жорамал тұр. Алгоритм өз жұмысын бірінші ядроны қалыптастырудан бастайды, бұл ядро Ох болады. Содан кейін, алгоритмнің келесі әр қадамында ретті ОТЕ О қарастырылады.
Егер одан қашықтығы О-ға дейін С шегінен аз ј-ші ядро бар болса, О ј-ші класқа жатады. Керісінше, О жаңа класты қалытастырып оның ядросы болады.
Алгоритмнің кемшіліктері: С-тің шектік мәнін таңдау қажеттілігі және нәтижелердің классификатор кіруіне ОТЕ-нің келу реттілігіне тәуелділігі (яғни, ОТЕні бірдей алғанда классификацияның түрлі нұсқалары алынуы мүмкін, олардың нумерациясына қарай).
Екінші кемшілігі – барлық ретті процедураларға ортақ.
J-Орташа әдiсі ядролармен кластарды сипаттауда негiзделген мәлiметтер классификациясының ең белгiлi параллелді ұтымдылық алгоритмдардын бiрі болып табылады. Алгоритм идеясы кластар ядроларын үнемі санауда, бұл оның жұмыс процесiнде нышандық кеңiстiктегi ОТЕ қойытулардың нақты құрылымға шығуға мүмкiндiк береді. Формалдық көзқаратан алгоритм ОТЕ-нің ядролар жан-жағына жиынтықтық шәшілуді минималдайды.
Алгоритмның сөзсіз артықшылығы – кластар ядроларын санаусыздан гөрі жақсырақ классификацияның сапасы, шын ядролар мен нышандық кеңiстiктегi ОТЕ-лер жиынтығын табу қабiлеттiлiгі.
Алгоритмнің кемшілігі – есептердің көп саны.
f0(x) = (2)
мұндағы f0(x) - бас жиынтықтың тығыздығы;
М – қоспа компонентінің саны;
рi – i-ші қоспа компонентінің пайда болу ықтималдығы;
f(х,) – i-ші қоспа компонентінің тығыздығы;
f(х,)–i-ші қоспа компоненті үшін параметрлердiң векторы (мысалы, бірөлшемді қалыпты үлестірілу үшін, i = (μi,σi).
Үлестірілу қоспасының моделі классификация міндеттеріне қатысты i-ші клас тұтасынан қоспаның i-ші компонентасымен және оның пайда болу ықтималдығымен сипатталады. ОТЕ классификациялауының міндеті бұл ОТЕнің қай кластарының шеңберінде пайда болуы ең ықтимал екенін анықтауды.
Үлестіру қоспасы моделінің негізінде классификациялаудың ең күрделі кезеңі – қоспаны теңестіру процедурасы, яғни М кластар санын және шешуші ережені құрастыру үшін керек pi, мен f үшін бағаны алу алгоритмі.
Қоспалардың барлығы теңестірілуге келмейді, яғни үлестірудің барлық түрлеріне жалғыз М, pi, және f бағаларын табуға болмайды. Мысалы, қалыпты үлестіру қоспалары теңестіріледі, ал бір қалыптылар қоспасы – жоқ.
Қоспалар параметрлерін көптеген ОТЕ бойынша бағалаудың әртүрлі көзқарастары бар, кең таралғаны ЕМ-алгоритм.
ЕМ-алгоритм атауы қысқартылған ағылшын терминдерінен Estimation (бағалау) және Maximization (максималдау) шығады. Бұл әдіс кластардың тіркелген саны үшін К (қоспа элементтері) pi және fi қоспа параметрлерін бағаларын {1,..., К} бағаларға (Estimation адымы) ретті жақындаудың көпқабатты табу жолымен және шындыққа ұқсас функцияларға жақындауды есепке алумен максималдау (Maximization адымы) жолымен анықтауға көмектеседі.
Классификацияның иерархиялық әдістері алдын ала белгіленген немесе белгіленбеген кластардың аз санына бастапқы ОТЕ-лерді ретімен қосуға, немесе, керісінше, бір немесе бірнеше кластарды бөлшектеудің керекті деңгейіне дейін бөлуді көздейді.
Бірінші түрінің процедуралары классификацияның иерархиялық агломеративтік алгоритмі, екіншінің – классификацияның иерархиялық дивизимдік алгоритмі деп аталады.
Иерархиялық классификацияны өткізу үшін бастапқы ақпарат ретінде ОТЕ-ОТЕ түріндегі жақындылық матрицасы есептеледі. Ерекшесі, мысалы, 2-орташа әдіс негізіндегі дивизимдік алгоритм (яғни k-орташа әдісі, мұнда k = 2).
Иерархиялық алгоритмдердің артықшылығы – кластар қасиеті туралы априорлық ақпаратсыз қолдану мүмкіндігі (мысалы, кластар ядролары немесе үйретүші іріктеу), географиялық аудандастыру мақсаттары үшін модификациялар, кластардың белгісіз санында және дендограмма аталған арнайы сұлбада классификация нәтижелерін және барысын көрнекі көруді қолдану.
Иерархиялық процедуралардың кемшілігі – оларды өндірудің үлкен есептеу құны. Бұл кемшілік жартылай «жедел» (немесе «шекті») иерархиялық алгоритмдердің болуымен орнын толтырады.
Иерархиялық классификацияның классикалық агломеративтік алгоритмі өз жұмысын К1 = N кластарын қалыптастырудан бастайды да (мұнда әр нөлдік адымдағы ОТЕ жеке класты көрсетеді) және жалпы жағдайда I=N-l итерацияны өткізеді. Алгоритмнің әр адымында екі «жақын» кластардың біреуге бірігуі, яғни Кn- 1 = Kn+1 басталады. Алгоритмнің соңғы (N-l)-ші адымы алдыңғы кезеңдерде қалыптасқан кластардың бір өзіне барлық ОТЕлерді қосқан (талдау кіруіне жеткен) класқа бірігумен сипатталады. Қашықтықтың таңдауы классификация нәтижесіне соншама әсер етеді, жиі ол алгоритм атауына енгізіледі (мысалы, «орта байланыстың агломеративті алгоритмі»).
«Жедел» агломеративті алгоритмдердің болуы туралы айтып кету қажет.
Олар классификация процесінде алдын ала берілген немесе күйіне келтірілген шектеу мәндердің с1 ..., сi (мұнда сi = const {1,..., I} мүмкін) реттілігін қолдануда негізделген.
Келесі алгоритм интерациясында n {1,...,I} арасындағы қашықтығы белгіленген с1шегінен аспаған кластар бірігеді.
Сонымен, әр адымда қашықтық матрицасында минималды элементті іздеу қажет емес. Шекті мәндерді дұрыс таңдағанда осындай жол классификация сапасын жоғалтпай алгоритм жұмысының жылдамдығын арттырады.
Иерархиялық классификацияның дивизимдік алгоритмі өз жұмысын барлық ОТЕ-лері бар жалғыз клас қалыптасырудан бастайды да жалпы жағдайда I = N-1 итерацияны өткізеді. Алгоритмнің әр адымында бір кластың екіге ретімен бөлінуі, алынған ақпараттың сапасы максималды болатындай жасалады. Алгоритм жұмысының соңғы адымы екі ОТЕ-ден тұратын қалған бөлінбеген класты екі класқа бөледі (әрқайсысында бір ОТЕ-ден).
Жақындылық графын бөлшектеуде негізделген дивизимдік алгоритм. Графты бөлшектеудің дивизимдік алгоритмі «жедел» агломеративті алгоритмге ұқсас с1 ..., сi шекті мәндер реттілігін белгілеуді талап етеді. Әр n {1,..., I} алгоритм интерациясында үлкен мәні бар жақтар графтан шығарылады, содан кейін бастапқы граф неше бөлімдерге (байланыстық компоненті) бөлінгені тексеріледі. Әр бөлім жеке класты белгілейді.
Достарыңызбен бөлісу: |