Жаркимбекова А. Т., Кадирова Ж. Б., Рысбекқызы Б. ДӘріс материалдары


Тақырып 6. ДЕРЕКТЕРДІ ТАЛДАУ. ДЕРЕКТЕРДІ БАСҚАРУ



бет14/31
Дата19.12.2023
өлшемі1,5 Mb.
#140911
1   ...   10   11   12   13   14   15   16   17   ...   31
Байланысты:
Дәріс материалдары ИКТ каз

Тақырып 6. ДЕРЕКТЕРДІ ТАЛДАУ. ДЕРЕКТЕРДІ БАСҚАРУ.
Жоспар:
1. Деректерді талдау негіздері. Жинау, жіктеу және болжау әдістері.
2. Шешім ағаштары. Деректердің үлкен көлемін өңдеу.
3. Data Mining әдістері мен кезеңдері. Data Mining Тапсырмалары.
4. Деректерді визуализациялау.


Дәстүрлі деректерден айырмашылығы, Үлкен деректер термині гетерогенді пішімдерді қамтитын үлкен өсіп келе жатқан деректер жиынын білдіреді: құрылымдық, құрылымдалмаған және жартылай құрылымдық деректер. Үлкен деректер қуатты технологиялар мен озық алгоритмдерді қажет ететін күрделі сипатқа ие.
Көптеген деректер ғалымдары мен сарапшылары үлкен деректерді келесі үш негізгі сипаттамамен анықтайды (3Vs деп аталады):
- Көлемі: миллиондаған құрылғылар мен қолданбалардан (АКТ, смартфондар, өнімдер кодтары, әлеуметтік желілер, сенсорлар, журналдар және т.б.) үлкен көлемдегі сандық деректер үздіксіз жасалады;
- Жылдамдық: Деректер жылдам жолмен жасалады және пайдалы ақпарат пен сәйкес түсініктерді алу үшін жылдам өңделуі керек;
- Әртүрлілік: Үлкен деректер таратылған әртүрлі көздерден және бірнеше пішімдерде жасалады (мысалы, бейнелер, құжаттар, түсініктемелер, журналдар). Үлкен деректер жиыны құрылымдалған және құрылымдалмаған, жалпыға ортақ немесе жеке, жергілікті немесе алыс, ортақ немесе құпия, толық немесе толық емес және т.б.
Деректерді талдау (DA) - бұл ақпарат туралы қорытынды жасау мақсатында бастапқы деректерді зерттейтін ғылым. Деректерді талдау көптеген салаларда компаниялар мен ұйымдарға жақсырақ бизнес шешімдер қабылдауға және ғылымда бар модельдерді немесе теорияларды тексеру немесе жоққа шығаруға мүмкіндік беру үшін қолданылады. Деректерді талдау деректер өндіруден талдаудың көлемі, мақсаты және бағыты бойынша ерекшеленеді. Деректер кеншілері ашылмаған үлгілерді анықтау және жасырын қарым-қатынастарды орнату үшін күрделі бағдарламалық жасақтаманы пайдаланып үлкен деректер жиынын сұрыптайды. Деректерді талдау қорытындыға, зерттеуші бұрыннан белгілі болған нәрсеге негізделген қорытынды шығару процесіне баса назар аударады.
Ғылым әдетте деректердегі жаңа мүмкіндіктер ашылатын барлау деректерін талдауға (EDA) және бар гипотезалар дұрыс немесе жалған дәлелденетін растаушы деректерді талдауға (CDA) бөлінеді. Сапалы деректерді талдау (QDA) әлеуметтік ғылымдарда сөздер, фотосуреттер немесе бейне сияқты сандық емес деректерден қорытынды жасау үшін қолданылады [7].
«Аналитика» терминін көптеген іскерлік интеллект (BI) бағдарламалық қамтамасыз ету жеткізушілері мүлдем басқа функцияларды сипаттау үшін танымал сөз ретінде қолданылған. Деректер аналитикасы онлайн аналитикалық өңдеуден (OLAP) бастап байланыс орталықтарындағы CRM аналитикасына дейін барлығын сипаттау үшін қолданылады.
Мұнда ақпарат индустриясында қол жетімді деректердің үлкен көлемі бар. Бұл деректер пайдалы ақпаратқа түрленбейінше еш пайдасыз. Осы үлкен көлемді деректерді талдап, одан пайдалы ақпаратты алу керек.
Data Mining үлкен деректер жиынтығынан ақпаратты алу ретінде анықталады. Басқаша айтқанда, біз деректерді өндіру процедурасы деп айта аламыз
мәліметтерден алынған білім. Алынған ақпарат немесе білім келесі қолданбалардың кез келгені үшін пайдаланылуы мүмкін:
- нарықты талдау;
- Алаяқтықты анықтау;
- Тұтынушыны ұстап тұру;
- өндірістік бақылау;
- Ғылымды зерттеу.
Деректерді іздеу оңай жұмыс емес, өйткені қолданылатын алгоритмдер өте күрделі болуы мүмкін және деректер әрқашан бір жерде қол жетімді бола бермейді. Оны әртүрлі гетерогенді деректер көздерінен біріктіру қажет.
Деректерді іздеу жүйесі деректерді өңдеу жүйесі үшін өте маңызды. Ол келесі функцияларды орындайтын функционалдық модульдер жиынтығынан тұрады:

  • мінездеме;

  • Ассоциация және корреляциялық талдау;

  • лассификациясы;

  • Болжау;

  • кластерлік талдау;

  • Шектеулі талдау;

  • Эволюциялық талдау.

Білім қоры
Бұл домендік білім. Бұл білім іздеуді бағыттау немесе алынған үлгілердің қызықтылығын бағалау үшін қолданылады.
Білімді ашу
Кейбір адамдар деректерді өндіруді білімнің ашылуымен бірдей қарастырады, ал басқалары деректерді іздеуді білімді ашу үдерісіндегі маңызды қадам ретінде қарастырады. Міне, білімді ашу процесіне қатысатын қадамдардың тізімі:

  • Деректерді тазалау;

  • Деректерді біріктіру;

  • Деректерді таңдау;

  • Деректерді түрлендіру;

  • Мәліметтерді өндіру;

  • Үлгіні бағалау;

  • Білімді таныстыру.

Пайдаланушы интерфейсі
Пайдаланушы интерфейсі – пайдаланушылар мен деректерді өңдеу жүйесі арасындағы байланысқа көмектесетін деректерді іздеу жүйесінің модулі. Пайдаланушы интерфейсі келесі функцияларға мүмкіндік береді:
деректерді іздеу сұрау тапсырмасын көрсету арқылы жүйемен әрекеттесу;
 іздеуді шоғырландыруға көмектесетін ақпарат беру;
 аралық деректерді өндіру нәтижелеріне негізделген тау-кен өндіру;
мәліметтер базасы мен деректер қоймасының схемаларын немесе деректер құрылымдарын шолу;
 қазылған үлгілерді бағалау;
 өрнектерді әртүрлі формада елестету.
Деректер интеграциясы
Деректерді біріктіру – бірнеше гетерогенді деректер көздерінен алынған деректерді когерентті деректер қоймасына біріктіретін деректерді алдын ала өңдеу әдісі. Деректерді біріктіру сәйкес келмейтін деректерді қамтуы мүмкін, сондықтан деректерді тазалау қажет.
Деректерді тазалау
Деректерді тазалау - шулы деректерді жою және деректердегі сәйкессіздіктерді түзету үшін қолданылатын әдіс. Деректерді тазалау қате деректерді түзету үшін түрлендірулерді қамтиды. Деректерді тазалау деректер қоймасы үшін деректерді дайындау кезінде деректерді алдын ала өңдеу қадамы ретінде орындалады.
Деректерді таңдау
Деректерді таңдау – талдау тапсырмасына қатысты деректер дерекқордан алынатын процесс. Кейде деректерді түрлендіру және біріктіру деректерді таңдау процесінің алдында орындалады.
Кластерлер
Кластер ұқсас нысандар тобын білдіреді. Кластерлік талдау бір-біріне өте ұқсас, бірақ басқа кластерлердегі нысандардан айтарлықтай ерекшеленетін нысандар тобын құруды білдіреді.
Деректерді түрлендіру
Бұл қадамда деректер жинақтау немесе біріктіру операцияларын орындау арқылы өндіруге сәйкес пішіндерге түрлендіріледі немесе біріктіріледі.
Жинау, жіктеу және болжау әдістері
Кейбір адамдар деректерді іздеуді білімді ашудан ажыратпайды, ал басқалары деректерді іздеуді білімді ашу үдерісіндегі маңызды қадам ретінде қарастырады.
Маңызды сыныптарды сипаттайтын үлгілерді шығару немесе болашақ деректер үрдістерін болжау үшін пайдаланылуы мүмкін деректерді талдаудың екі түрі бар. Бұл екі пішін келесідей:
 классификациясы;
 Болжау.
Жіктеу үлгілері категориялық класс белгілерін болжайды; және болжау үлгілері үздіксіз мәнді функцияларды болжайды. Мысалы, банктік несиелік өтінімдерді қауіпсіз немесе қауіпті деп жіктеу үшін жіктеу үлгісін немесе әлеуетті клиенттердің кірісі мен кәсібін ескере отырып, компьютерлік жабдыққа жұмсалатын шығындарын болжау үшін болжау үлгісін құра аламыз.
Төменде деректерді талдау тапсырмасы Жіктеу болып табылатын жағдайлардың мысалдары берілген:
- банктің несие маманы қай клиенттің (несие берушінің) тәуекелді немесе қайсысы қауіпсіз екенін білу үшін деректерді талдағысы келеді;
- компанияның маркетинг менеджері жаңа компьютер сатып алатын берілген профилі бар тұтынушыны талдауы керек.
Жоғарыда келтірілген мысалдардың екеуінде де категориялық белгілерді болжау үшін үлгі немесе классификатор құрастырылған. Бұл белгілер несиелік өтінім деректері үшін қауіпті немесе қауіпсіз, ал маркетинг деректері үшін иә немесе жоқ.
Деректерді жіктеу процесі екі кезеңнен тұрады:
- классификаторды немесе модельді құру;
- Классификация үшін классификаторды пайдалану.
1) классификаторды немесе модель құру
Бұл қадам оқу қадамы немесе оқу кезеңі болып табылады.
Бұл қадамда жіктеу алгоритмдері классификаторды құрастырады.
Жіктеуіш дерекқор кортеждерінен және олармен байланысты сынып белгілерінен тұратын оқу жинағынан құрастырылған.
Жаттығу жиынын құрайтын әрбір кортеж санат немесе сынып деп аталады. Бұл кортеждерді үлгі, нысан немесе деректер нүктелері деп те атауға болады.
2) Классификациялау үшін классификаторды пайдалану
Бұл қадамда жіктеу үшін классификатор қолданылады. Мұнда сынақ деректері классификация ережелерінің дәлдігін бағалау үшін пайдаланылады. Егер дәлдік қолайлы деп есептелсе, жіктеу ережелерін жаңа деректер кортеждеріне қолдануға болады.
Негізгі мәселе - деректерді жіктеу және болжау үшін дайындау.
Деректерді дайындау келесі әрекеттерді қамтиды [7]:
 Деректерді тазалау − Деректерді тазалау шуды жоюды және жетіспейтін мәндерді өңдеуді қамтиды. Шу тегістеу әдістерін қолдану арқылы жойылады және жетіспейтін мәндер мәселесі жетіспейтін мәнді сол атрибут үшін ең жиі кездесетін мәнмен ауыстыру арқылы шешіледі;
 Сәйкестікті талдау − Деректер базасында сәйкес емес атрибуттар да болуы мүмкін. Корреляциялық талдау кез келген екі берілген атрибуттардың байланысы бар-жоғын білу үшін қолданылады;
 Деректерді түрлендіру және азайту − Деректерді келесі әдістердің кез келгенімен түрлендіруге болады;
 Нормализация − Нормалау арқылы деректер түрленеді. Нормалау берілген төлсипаттың барлық мәндерін шағын көрсетілген ауқымға түсіру үшін масштабтауды қамтиды. Нормалау оқыту қадамында нейрондық желілер немесе өлшемдерді қамтитын әдістер пайдаланылған кезде қолданылады;
 Жалпылау − Деректерді жоғары ұғымға жалпылау арқылы да түрлендіруге болады. Осы мақсатта біз иерархия тұжырымдамасын пайдалана аламыз.
Жіктеу және болжау әдістерін салыстыру
Жіктеу және болжау әдістерін салыстыру критерийлері:
 Дәлдік − Жіктеуіштің дәлдігі классификатордың қабілетіне жатады. Ол класс белгісін дұрыс болжайды және болжаушының дәлдігі берілген болжаушының жаңа деректер үшін болжанған атрибуттың мәнін қаншалықты жақсы болжай алатынын білдіреді;
 Жылдамдық – Бұл классификаторды немесе болжамды жасау және пайдалану кезіндегі есептеу құнын білдіреді;
 Тұрақтылық − Бұл классификатордың немесе болжаушының берілген шулы деректерден дұрыс болжау жасау мүмкіндігін білдіреді;
 Масштабтау − Масштабтылық классификаторды немесе болжамды тиімді құру мүмкіндігін білдіреді; деректердің үлкен көлемін береді;
 Түсіндіргіштік − Бұл классификатор немесе болжаушының қаншалықты түсінетінін білдіреді.
Мәліметтерді өңдеу әдістері мен кезеңдері
Кең ауқымды ақпараттық технологиялар бөлек транзакциялық және аналитикалық жүйелерді дамытып жатқанымен, деректерді өңдеу екеуінің арасындағы байланысты қамтамасыз етеді. Деректерді өңдеу бағдарламалық құралы ашық пайдаланушы сұраулары негізінде сақталған транзакция деректеріндегі қарым-қатынастар мен үлгілерді талдайды. Аналитикалық бағдарламалық қамтамасыз етудің бірнеше түрі бар: статистикалық, машиналық оқыту және нейрондық желілер. Әдетте, қарым-қатынастың төрт түрінің кез келгені ізделеді:
 Класстар: Сақталған деректер алдын ала анықталған топтардағы деректерді табу үшін пайдаланылады. Мысалы, мейрамханалар тізбегі тұтынушылардың қашан келетінін және әдетте не тапсырыс беретінін анықтау үшін тұтынушы сатып алу деректерін зерттей алады. Бұл ақпаратты күнделікті арнайы ұсыныстар арқылы трафикті арттыру үшін пайдалануға болады;
 Кластерлер: Деректер элементтері логикалық қатынастарға немесе тұтынушылардың қалауларына сәйкес топтастырылған. Мысалы, нарық сегменттерін немесе тұтынушылардың ұқсастығын анықтау үшін деректерді өндіруге болады;
 Қауымдастықтар: ассоциацияларды анықтау үшін деректерді өндіруге болады. Сыра жөргегінің мысалы ассоциативті тау-кен өндірудің мысалы болып табылады;
 Тізбекті үлгілер: деректер мінез-құлық үлгілері мен үрдістерін болжау үшін алынады. Мысалы, сыртқы жабдықты сатушы тұтынушының ұйықтау қаптары мен жаяу жүруге арналған аяқ киімді сатып алуы негізінде рюкзак сатып алу ықтималдығын болжай алады.
Әр түрлі талдау деңгейлері бар:
Жасанды нейрондық желілер: оқыту арқылы үйренетін және құрылымы бойынша биологиялық нейрондық желілерге ұқсайтын сызықты емес болжамдық модельдер;
 Генетикалық алгоритмдер: табиғи эволюция тұжырымдамаларына негізделген дизайнда генетикалық комбинация, мутация және табиғи сұрыптау сияқты процестерді қолданатын оңтайландыру әдістері;
Шешім ағаштары: шешімдер жиынтығын білдіретін ағаш тәрізді құрылымдар. Бұл шешімдер деректер жиынын жіктеу ережелерін жасайды. Арнайы шешімдер ағашының әдістеріне жіктеу және регрессия ағаштары (CART) және Чи квадратының өзара әрекеттесуін автоматты түрде анықтау (CHAID);
Ең жақын көрші әдісі: Деректер жиынындағы әрбір жазбаны тарихи деректер жиынындағы оған ең ұқсас k жазба(лар) кластарының комбинациясы негізінде жіктейтін әдіс (мұндағы k 1). Кейде k-ең жақын көршілес техника деп аталады;
Ережені индукциялау: Статистикалық маңыздылыққа негізделген мәліметтерден пайдалы болса-онда ережелерін шығару;
 Деректерді визуализациялау: көп өлшемді деректердегі күрделі қатынастарды визуалды интерпретациялау. Графикалық құралдар деректер қатынасын көрсету үшін пайдаланылады.
Шешім ағаштары
Шешім ағашы – жалпы сұраққа жауапты анықтау үшін пайдаланылатын иерархиялық қатынас диаграммасы. Ол мұны сол сұраққа қатысты ішкі сұрақтар тізбегін қою арқылы жасайды.
Шешім ағашы - түбір түйінін, бұтақтарды және жапырақ түйіндерін қамтитын құрылым. Әрбір ішкі түйін атрибуттағы сынақты білдіреді, әрбір тармақ сынақтың нәтижесін білдіреді және әрбір жапырақ түйіні сынып белгісін ұстайды. Ағаштың ең жоғарғы түйіні – түбір түйіні.

Келесі шешім ағашы сатып алу_компьютер концепциясына арналған, ол компаниядағы тұтынушының компьютерді сатып алуы немесе сатып алмау мүмкіндігін көрсетеді. Әрбір ішкі түйін атрибуттағы сынақты білдіреді. Әрбір жапырақ түйіні сыныпты білдіреді. Шешім ағашы ағаш құрылымы түрінде жіктеу немесе регрессия үлгілерін құрастырады. Ол деректер жиынын кішірек және кішірек ішкі жиындарға бөледі, сонымен бірге байланысты шешім ағашы біртіндеп дамытады. Соңғы нәтиже - шешім түйіндері мен жапырақ түйіндері бар ағаш.
Деректерді визуализациялау


Деректерді визуализациялаудың мәні - пайдаланушыға не болып жатқанын түсінуге мүмкіндік беру. Деректерді өндіру әдетте дерекқордан «жасырын» ақпаратты алуды қамтитындықтан, бұл түсіну процесі біршама күрделі болуы мүмкін. Көптеген стандартты дерекқор операцияларында пайдаланушы көретіннің барлығы дерлік дерекқорда бұрыннан бар екенін білетін нәрсе.
Деректерді өндіру, екінші жағынан, пайдаланушы бұрын білмейтін мәліметтер базасынан ақпаратты шығарады. Интуитивті емес айнымалылар арасындағы пайдалы байланыстар деректерді іздеуде табуға үміттенетін зергерлік бұйымдар болып табылады. Пайдаланушы деректерді іздеу процесі нені ашқанын алдын ала білмейтіндіктен, жүйенің нәтижесін алу және оны бизнес мәселесінің әрекеттік шешіміне аудару әлдеқайда үлкен секіріс. Модельді графикалық түрде көрсетудің әдетте көптеген жолдары болғандықтан, пайдаланылатын визуализациялар қараушы үшін мәнді барынша арттыру үшін таңдалуы керек.
Visual Data Mining үлкен деректер жиынынан жасырын білімді ашу үшін деректерді және/немесе білімді визуализациялау әдістерін пайдаланады.
Визуалды деректерді өндіру келесілермен тығыз байланысты:
 Компьютерлік графика;
 Мультимедиялық жүйелер;
 Адамның компьютермен әрекеттесуі;
 Үлгілерді тану;
 Жоғары өнімді есептеулер.
Data Mining қандай мәселелерді қарастырады. Көптеген беделді білім
көздері келесілерді тізбектейді: жіктелу, кластеризация, болжау, ассоциация,
визуализация, талдау және ауытқуларды анықтау, бағалау, қарым-қатынас
талдауы, қорытындылау.
Деректер визуализациясы - суреттер, графиктер, диаграммалар,
кестелер мен диаграммалар арқылы ақпарат беру болып табылады.
Визуализацияның мәнділігі деректер қамтылған ақпаратты нақты анықтау
және көрсету мүмкіндігін беретіндігінде. Жобалауды визуализациялауда
қаншалықты айқын деректердің көрнекі әдістерін дамыту кезінде IT
мамандар мен дизайнерлер тең дәрежеде қатысады.
Ең түрлі мәселелерді шешу деректер визуализациясы көмегімен
орындалады.
Біріншіден, бұл талдау бастапқы кезеңдерінде маңызды құрал болып
табылады. Графика ең қарапайым деректермен жұмысында деректер
үлгілерін басшылыққа алады, трендтерді немесе ауытқуларды табуға
мүмкіндік береді. Сол сияқты, журналист, бастауыш деректерді көру кезінде
диаграммаларды пайдаланып, одан әрі басқа материалға тарихын әкелуі
мүмкін.
Екіншіден, визуализация жиі талдау қорытынды нәтижелері туралы
ұсыныста маңызды рөл атқарады. Бұл тенденцияларды көрсетуге статикалық
графиктер болуы мүмкін; интерактивті визуализация, пайдаланушылар
деректерді зерттеуге мүмкіндік беретін және инфографика (статикалық және
интерактивті), айқын кескін деректер тарихына негізделген.
Визуализация тапсырмасының маңыздысы бір суретте физикалық
(әдетте екі өлшемді) өлшеудің шектелген саны дисплейлік өлшеудің
берілгендерінен және осы өлшемдегі олардың арасындағы байланыс тұрады




Достарыңызбен бөлісу:
1   ...   10   11   12   13   14   15   16   17   ...   31




©emirsaba.org 2024
әкімшілігінің қараңыз

    Басты бет