Анықтау, түрлері және мысалдары
Кластерлік талдау - бұл әртүрлі бірліктер, адамдар, топтар немесе қоғамдар сияқты жалпы сипаттамалар бойынша біріктіруге болатын статистикалық әдіс. Сондай-ақ, кластерлеу деп те аталатын, бұл деректерді талдау құралы болып табылады, ол түрлі нысандарды топтарға біріктіруге мүмкіндік береді, сол кезде олар сол топқа жатса, олар бірлестіктің барынша дәрежесі бар және сол топқа жатпайтын кезде қауымдастығының дәрежесі ең аз.
Кейбір басқа статистикалық әдістерден айырмашылығы, кластерлік талдау арқылы ашылған құрылымдар ешқандай түсініктеме немесе түсінікке мұқтаж емес - ол деректердің құрылымын неге түсіндірместен анықтайды.
Кластерлеу дегеніміз не?
Кластерлеу біздің күнделікті өміріміздің барлық қырларында бар. Мысалы, азық-түлік дүкеніндегі заттарды алыңыз. Бөлшектердің әртүрлі түрлері әрқашан сол немесе жақын жерде - ет, көкөніс, сода, дәнді дақыл, қағаз өнімдері және т.б. көрсетіледі. Зерттеушілер жиі деректер мен топтық нысандар немесе тақырыптармен кластерлерге ұқсас нәрселерді жасауға тырысады.
Әлеуметтік ғылымнан мысал келтіру үшін, айталық, біз елдерге қараймыз және оларды еңбек , армия, технология немесе білімді халық бөлу сияқты сипаттамаларға негізделген кластерлерге топтастырғымыз келеді. Біз Ұлыбритания, Жапония, Франция, Германия және Құрама Штаттардың ұқсас қасиеттерге ие екенін және бірге топтасатынымызды білеміз.
Уганда, Никарагуа және Пәкістан басқа кластерде біріктіріледі, өйткені олар байлықтың төмен деңгейі, еңбектің қарапайым бөлімі, салыстырмалы түрде тұрақсыз және демократиялық емес саяси институттар, сондай-ақ технологиялық дамудың төмен деңгейі.
Кластерлік талдау әдетте зерттеудің зерттеу кезеңінде зерттеушінің ешқандай алдын-ала болжаған болжамдарына ие емес . Бұл әдетте қолданылатын статистикалық әдіс емес, керісінше, талдаудың қалған бағыттарын басшылыққа алуға көмектесетін жобаның бастапқы кезеңдерінде жасалады. Осы себепті мәнділік тестілеуі, әдетте, сәйкес келмейді де, сәйкес келмейді.
Кластерлік талдаудың бірнеше түрі бар. Ең жиі қолданылатын K-құралдары кластерлеу және иерархиялық кластерлеу.
K - кластерлеуді білдіреді
K-кластерлеу деректердегі бақылауды бір-бірінен орындары мен қашықтықтары бар объектілер ретінде қарастырады (кластерлеуде пайдаланылатын қашықтық жиі кеңістіктік қашықтықты білдірмейді). Ол кластерлердегі нысандар мүмкіндігінше басқа кластерлердегі объектілерден бірдей жақын және бір мезгілде жақын болу үшін нысандарды K өзара біріктірілген кластерлерге бөледі. Әр кластер орта немесе орталық нүктесімен сипатталады .
ad
Иерархиялық кластерлеу
Иерархиялық кластерлеу - бұл деректерді топтастыруды бір мезгілде әр түрлі масштабтар мен арақашықтықтар бойынша зерттеу. Мұны әртүрлі деңгейлерде кластерлік ағаш жасау арқылы жасайды. K-кластерлеуден өзгеше, ағаш кластерлердің бірде-бір жиынтығы емес.
Керісінше, ағаш көп деңгейлі иерархия болып табылады, онда бір деңгейдегі кластерлер келесі жоғары деңгейде кластерлер ретінде қосылады. Пайдаланылатын алгоритм әр оқиға немесе айнымалы мәннен бөлек кластерде басталады, сосын кластерлерді тек біреу қалдырылғанша біріктіреді. Бұл зерттеуші өзінің зерттеуі үшін кластерліктің қандай деңгейіне сәйкес келетінін анықтауға мүмкіндік береді.
Кластерлік талдауды орындау
Көптеген статистика бағдарламалары кластерді талдауды орындай алады. SPSS-те мәзірден талдауды , сосын классификациялауды және кластерді талдауды таңдаңыз . SAS-де Proc кластер функциясын пайдалануға болады.