Кластерлеу
Кластерлеу – қандай да бір критерий бойынша бір кластердегі объектілер басқа кластерлердің объектілеріне қарағанда бір-біріне көбірек ұқсас болатындай етіп объектілер жиынын ішкі жиындарға (кластерлерге) топтастыру міндеті.
Кластерлік талдау келесі негізгі міндеттерді орындайды:
Типологияны немесе классификацияны әзірлеу.
Объектілерді топтастырудың пайдалы тұжырымдамалық схемаларын зерттеу.
Мәліметтерді зерттеу негізінде гипотеза құру.
Гипотезаны тексеру немесе белгілі бір жолмен анықталған түрлердің (топтардың) қолда бар деректерде шынымен бар-жоғын анықтау үшін зерттеу.
Кластерлеу мәселесі бақылаусыз оқыту мәселелері класына жатады.
Кластерлік талдау әртүрлі салаларда қолданылады:
маркетингте – тұтынушыларды, бәсекелестерді сегменттеу, нарықты зерттеу үшін;
медицина - белгілерді, ауруларды, препараттарды кластерлеуге арналған;
биология – жануарлар мен өсімдіктерді жіктеу үшін;
әлеуметтану – респонденттерді біртекті топтарға бөлу үшін;
информатика - сайттарды, файлдарды және басқа нысандарды іздеу кезінде нәтижелерді топтастыруға арналған.
5. DataMining. Деректерді өндіру, оның айырмашылықтары мен міндеттері.
Мәтін өндірісі. Веб-кен өндірісі. Веб-мазмұнды өндіру. Тау-кенді веб-қолдану.
Әлеуметтік медиа тау-кен. RapidMiner.
Егер дәстүрлі статистикалық деректерді талдау әдістері негізінен алдын ала тұжырымдалған гипотезаларды тексеруге бағытталған болса, ал OLAP барлау талдауға бағытталған болса, үлкен деректер жиындарында айқын емес заңдылықтарды іздеу үшін Data Mining әдістері қолданылады.
Data Mining қолданбалы статистика, үлгіні тану, жасанды интеллект, дерекқор теориясы және т.б.
Деректерді іздеу әдістері модельдеудің ақпараттық тәсіліне негізделген, онда модель математикалық заңдылықтарға емес, мәліметтерді өңдеу негізінде құрылады. Ақпараттық модельдерді құру машиналық оқытуға негізделген, бұл кезде модель параметрлері деректердің оқу жиынында анықталады, ал модельді бағалау сынақ жиынында болады.
Data Mining тапсырмаларының әрқайсысы әртүрлі әдістермен шешілуі мүмкін. Сонымен, жіктеу мәселесін шешу үшін шешім ағаштарының модельдерін, логистикалық регрессияны және жасанды нейрондық желілерді қолдануға болады. Регрессия мәселесін статистикалық немесе нейрондық желі әдістерімен шешуге болады, ал нейрондық желілер сызықты емес тәуелділіктерді модельдеуге мүмкіндік береді.
Достарыңызбен бөлісу: |