Мардан сапарбаев

жүктеу/скачать 290,41 Kb.

бет	15/42
Дата	15.11.2023
өлшемі	290,41 Kb.
	#123185
түрі	Лекция

1 ... 11 12 13 14 15 16 17 18 ... 42

Дәріс №6. Деректерді талдау. Деректерді басқару. Мақсаты

Сұрақтар:
1. Дерекқорлардың қазіргі өмірде осындай маңызды болуының себебі
неде?
2. Дерекқорларды тұтынушылық мінез-құлықты болжау үшін
пайдалануға бола ма?
3. Деректер базасының негізгі компоненттері қандай?
4. Неге байланыс деректер базасының айтарлықтай аспектісі болып
табылады?
5. Файлдар және басқа дерекқор модельдері арасында қандай
айырмашылық бар?
Дәріс №6. Деректерді талдау. Деректерді басқару.
Мақсаты: регрессияның корреляциялық тұжырымдамасы туралы
жалпы түсінік беру, сондай-ақ статистикаға сипаттама.
Жоспары:
1.Деректерді талдау негіздері.
2.Жинау, жіктеу және болжау әдістері. Шешімдер ағаштары. Үлкен
көлемді деректерді өңдеу.
3.Data Mining әдістері мен кезеңдері. Data Mining міндеттері.
Деректерді визуализациялау.
1.Деректерді талдау негіздері.
Бұл дәрісте біз деректердің статистикалық талдауының кейбір
аспектілерін қарап шығамыз, атап айтқанда, сипаттамалық статистика,
корреляциялық және регрессиялық талдау. Осы дәрістің мақсаты -
регрессияның корреляциялық тұжырымдамасы туралы жалпы түсінік беру,
сондай-ақ статистиканың сипаттамасымен танысуға арналған. Дәрістегі
мысалдар оңайлатылған.
Сондай-ақ, қолданбалы пакеті немесе құралдар жиынтығы деп
аталатын статистикалық әдістердің кең ауқымын жүзеге асыруға арналған
бағдарламалық пакеттер бар. Microsoft Excel бағдарламасында сондай-ақ,
математикалық статистикалық әдістерін жүзеге асыруға осы дәрістің
мысалдарын жүзеге асыруға қолданбалы бағдарлама қамтамасыз етілген.
Статистикалық сипаттама
Статистикалық сипаттама - қабылдау және талқылау үшін түсінікті
түрге сандық деректер массасын түрлендіру үшін сандық деректерді біріктіру
әдістемесі пайдаланылады.
Сипаттама статистиканың мақсаты - эксперименттер және бақылау
нәтижесінде алынған бастапқы қорытындысын корреляциялық түрде талдау.
Корреляциялық талдау
Корреляциялық талдау өлшемсіз түрінде ұсынылған деректердің екі
комплект қарым-қатынасын сандық түрде пайдаланады. Деректер
байланысындағы мәнінің орнатуын анықтауға мүмкіндік береді.
Корреляция коэффициенті әрқашан R латын әрпімен белгілененіп, екі
қасиеттері арасындағы өзара байланысы бар екендігін анықтау үшін
пайдаланылады.
Белгілердің (Шкала Cheddok бойынша) арасындағы қатынастары
күшті, орташа және әлсіз болуы мүмкін. Байланыстың жақындығын -1-ден
+1 ге дейінгі мәнін қабылдайтын корреляция коэффициентінің шамасымен
анықталады. Кеста 7 көрсетілген байланыс жақындығына бағалау
критерийлері көрсетілген.
Кесте 7- Сандық өлшемдердің байланысты- жақындығын бағалау
Пирсонның Корреляция коэффициенті
Пирсон корреляция коэффициенті R -1.0-ден 1.0 диапазонындағы
өлшемсіз индексі деректерді екі жиыны арасындағы сызықтық тәуелділігі
дәрежесін білдіреді.
Екі белгілері арасындағы байланыс көрсеткіш жақындығы сызықтық
корреляция коэффициенті бойынша анықталады:
мұндағы
х - фактор көрсеткішінің мәні;
у - алынған нәтижесінің мәні;
N - деректердің жұп саны.
Жұп корреляциясы - екі таңбаның (тиімді және факторлық немесе екі
факторлық) арасындағы байланыс
Таңбалардың арасындағы сызықтық қарым-қатынастың болуын немесе
болмауын сипаттайтын байланыс нұсқалары:
• басқа да жиынтық (оң корреляциялық) үлкен мәндермен байланысты
деректердің бір жиынтығындағы жоғары мәндерінде - тікелей __________сызықтық
байланыс бар;
• бір жиынтық шағын маңызы басқа (теріс корреляция) үлкен
мәндерімен байланысты - теріс желілік қарым-қатынаста болуы;
• екі полигондардың деректерімен (нөлдік корреляциялық) байланысты
емес.
Мысал ретінде, деректер жиынтығы 7- кестеде. Ол х және у белгілері
арасындағы желілік екенін анықтау үшін қажет.
айнымалылар х және у үшін тиісті ось координат жүйесінде
пайдаланылатын екі айнымалылар арасындағы қатынастардың Графикалық
дисперсия диаграмма деп аталады , ол 7 - кестеде көрсетілген.. Бұл
диаграмма айнымалы х төмен мәні айнымалы у төмен мәндерге сәйкес екенін
көрсетеді, х жоғары құндылықтар айнымалы у жоғары құндылықтарына
сәйкес келеді. Бұл мысал айқын қарым-қатынасты көрсетеді.
Сурет 4- Нүктелік диаграмма
Осылайша, біз айнымалылар х және у арасындағы қарым-қатынасты
орната алады. Біз MS Excel PEARSON (массив 1, массив 2) функциясының
көмегімен екі массивтердің (х және у) арасындағы Пирсон корреляция
коэффициентін есептеп берушінің нәтижесі корреляциялық коэффициентінің
мәні, яғни 0.998364 тең болып, айнымалылар х және у арасындағы қарым-
қатынастар өте жоғары болып табылады. MS Excel талдау пакеті және
«корреляциялық» талдау құралын пайдалана отырып, біз корреляциялық
матрицаны құрамыз.
Мөлшері мен сенімділіктегі айнымалылар арасындағы кез келген
қарым-қатынас екі маңызды сипаттамалары бар. Екі айнымалы арасындағы
қарым-қатынастар, үлкен тәуелділігін және оңайырақ басқа айнымалысы бар
айнымалы мәнін болжау болып табылады.
Сенімділік тәуелділігі маңызды, оның саны артық. Бұл сипат зерттеу
үлгідегі репрезентативтікке байланысты. қарай Сенімділік, бұл тәуелділіктің
қайтадан басқа деректерден табылған.Тәуелді айнымалы сенімділік құнының
өсуін әдетте бірге арттырады.
Регрессиялық талдау
Негізгі регрессиялық талдау ерекшелігі: нақты ақпарат қандай нысанда
және оқыған айнымалылар арасындағы қарым-қатынас сипатында, оның
көмегімен алуға болады.
Регрессиялық талдау тізбегі
Қысқаша регрессиялық талдау қадамдарын қарастырайық.
1. Ақаулық мәлімдемесі. Бұл кезеңде, зерттелген құбылыстардың
тәуелділігі туралы алдын ала гипотезаны қалыптасады.
2. Тәуелді және тәуелсіз (түсіндірме) айнымалыны анықтау.
3. Статистикалық деректердің жинағы. Регрессиялық модель енгізілген
айнымалылардың әрқайсысы үшін деректер жиналуы керек.
4. Байланыс нысан болжамдарының (қарапайым немесе бірнеше
сызықтық немесе сызықтық) тұжырымдамасы.
5. Регрессия функциясының анықталуы (регрессиялық теңдеудің
параметрлерін сандық мәндерді есептеу үшін болып табылады)
6. Регрессиялық талдау нәтижелерінің дәлдігін бағалау.
7. Түсіндірме нәтижесінде алынған регрессиялық талдау нәтижелері
бойынша алдын ала болжамдарын салыстырылады. Нәтижелердің дәлдігі
мен нақтылығы бағаланады.
8. Тәуелді айнымалының белгісіз құндылықтарын болжау.
Болжау және жіктеу проблемасына ықтимал шешімін регрессиялық
талдауда пайдалану. Болжамды мәндері регрессия теңдеуі параметрлерінің
түсіндірме айнымалылар ішіне алмастыру арқылы есептеледі. Төмендегідей
жіктеу тапсырманың шешімі бойынша жүзеге асырылады. Регрессия желісі
екі топқа нысандардың бүкіл жиынтығын бөледі, және функция мәні нөлден
артық болып жиынтығының бөлігі сол класқа жатады, және ол нөлден кем
болып табылатын болса онда ол басқа класта.
2.Жинау, жіктеу және болжау әдістері. Шешімдер ағаштары. Үлкен
көлемді деректерді өңдеу.
Жіктелуі. Жіктеуді нақты класта анықтау үшін атрибуттар санын
сипаттайтын тұтынушы өнімнің немесе объекті түрінің идеясын алу үшін
пайдаланылуы мүмкін. Мысалы, автомобильдер оңай түрлі атрибуттарды
(орындық, дене стилі, жетекші дөңгелектер) анықтайтын түрі (седан, SUV,
айырбасталатын) бойынша жіктеледі. Жаңа автокөлікті зерттеу, сіз сондай-
ақ белгілі анықтамаға сәйкес атрибуттарын салыстыру арқылы белгілі бір
класқа оны қабылдауыңызға болады. Сол принциптерді сатып алушыларға
мысалы, жасына және әлеуметтік топқа жіктеп қолдануға болады.
Сонымен қатар, басқа да жіктеу әдістерін кіріс ретінде пайдаланылуы
мүмкін. Мысалы, сыныптау шешімінің ағашына жатқызуға болады.
Болжам - бұл алаяқтықты анықтау үшін аппараттық құрамдас
ақаулықтары созылып жатқан кең тақырып болып табылады, тіпті
компанияның пайда болуын болжауға. деректер тау-кен болжау басқа
әдістермен ұштастыра трендті талдау, жіктеу, іріктеу және модель
қатынастарын қамтиды. Өткен оқиғалар немесе элементтерді талдау арқылы
сіз болашақты болжауыңызға болады.
Мысалы, несиелік карта авторизациялау туралы деректерді пайдалана
отырып, сіз алаяқтық операцияларды анықтау үшін тарихи өрнектермен
жіктеу және салыстыруын операциялардың шешім ағаш талдауымен
біріктіруге болады. АҚШ-тағы авиабилеттерді сатып алу АҚШ-тағы
транзакцияға сәйкес келе, бұл операциялар шынайы емес болуы мүмкін.
Шешім ағаштары.
Шешім ағаш әдісі (шешім ағаштары) жіктеу және болжау
проблемаларын шешу үшін ең танымал әдістерінің бірі болып табылады.
Кейде бұл әдіс, сондай-ақ Data Mining ағаштары шешім ережелерін, жіктеу
және регрессиялық ағаштары деп аталады.
Осы әдісті пайдалана отырып жіктеу және болжау мәселесін шешуге
болады.
Тәуелді айнымалы үздіксіз мәндер қабылдаса, онда шешім ағаш
тәуелсіз айнымалы, яғни осы айнымалы тәуелділігін белгілейді. Ол ауа
райының сандық болжау мәселесін шешеді.
Шешім ағашы қарапайым түрінде - бұл иерархиялық, келісілген
құрылымындағы ережелерін білдіретін бір жол болып табылады. Осы
құрылымның негізі - бірқатар мәселелер бойынша жауап «Иә» немесе «Жоқ».
Сурет 4 шешім ағашы мысалға келтірілген - «гольф ойыны ма?»
мәселені шешуғе арналған сұраққа жауап: (бұл жағдайда «Ойнау» немесе
«ойынамау»), ағымдағы жағдай белгілі сыныптардың біріне жатқызылуға
тиіс. Ағаштың түбінен бастап барлық сұрақтарға бірқатар жауап талап
етіледі.
Түбінен өту нәтижесінде (кейде түбір түйіні деп аталады), оның
жоғарғы жіктеу проблемасы шешіледі, біреуін таңдаңыз - «ойнау» және
гольф «ойнауға болмайды».
Сурет 5- «Гольф ойнаймыз ба?» шешім ағашы
Интуитивті шешім ағаштар. шешім ағаштан түрінде ұсынылған
жіктелумоделі шешілуде проблеманың интуициялық түсінігі жеңіл түсіну
болып табылады. Шешім ағаштар алгоритмдерін жобалау нәтижесі,
керісінше, мысалы, «қара жәшіктер» болып табылады, нейрондық желілерді
пайдаланушы оңай түсінуіне болады. Тұтастай алғанда жіктеу моделін
түсіндіру жаңа нысанның нақты сыныбына сілтеме, сондай-ақ
интерпретация кезінде пайдалы. Бұл шешім ағаштары бізге неге нақты
обьект осы не басқа класқа жататынын түсінуге мүмкіндік береді.
Ағаш алгоритмі жобалық шешімдер енгізу атрибуттарын (тәуелсіз
айнымалылар) таңдау үшін пайдаланушыға талап етілмейді. Алгоритмді
енгізу қолданыстағы барлық атрибуттарға берілуі мүмкін, алгоритм олардың
арасында ең маңыздысын таңдайды, және тек олар ағаш салу үшін
пайдаланылатын болады. Кіріс таңдау атрибуттары нейрондық желілер
сомасы айтарлықтай оқыту уақытын салыстырғанда, нейрондық желілер,
мысалы, осы пайдаланушы жұмысын жеңілдетеді.
Шешім ағаштарды пайдаланып жасалған модельдер дәлдігі,
модельдерді жіктеу, (статистикалық әдістер, нейрондық желілер) салу, басқа
да әдістеріді салыстыруға болады.
Өте ауқымды деректер базасы туралы шешім ағаш салу үшін
масштабталатын алгоритмдердің бірқатарын; мұнда ауқымдылығы, яғни,
мысалдар немесе деректер базасына саны артуда оқыту жұмсалған уақытты
жазады, бұл шешім ағаштарды құру, сызықтық өсуде пайдалануға болады.
Мұндай алгоритмдер мысалдарына: SLIQ, СПРИНТ айтамыз.
Деректердің үлкен көлемін өңдеу.
«Big Data» термині - ағылшын терминінің калькасы. Big Data –ның
қатаң анықтамасына жоқ. Ол нақты шектеу жүргізу мүмкін емес - 10
Терабайт, немесе 10 мегабайт? дегеннің өзі өте субъективті болып табылады.
«Көп» сөзі – бұрынғы тайпалардың арасындағы «көптеген бір, екі,» ретінде
болып табылады.
Үлкен деректер деп - үш операцияларды орындау үшін жасалған
технологиялардың жиынтығы. Біріншіден, «стандартты» деректер көлемі
сценарийлерімен салыстырғанда үлкен айлалы. Екіншіден, өте үлкен көлемде
кіріс деректермен тез жұмыс істеуге қабілетті болуы үшін. Бұл деректер тек
көп емес, және олар үнемі көбірек болып отыр. Үшіншіден, олар әр түрлі
аспектілері бойынша параллель құрылымдық және нашар құрылымдық
деректермен жұмыс істеуге қабілетті болуы тиіс. Ірі деректерді енгізу ағыны
алгоритмдері әрқашан ақпаратты құрылымдалған және ол бір емес, бірнеше
идеядан алынатын болады деп емес, алынған деп болжайды.
Қоғамдық кеңістікте үлкен деректердің пайда болуы осындай
проблемалармен ұзақ уақыт бойы шешіп жүргендерді ғана емес (ғылыми
қоғамдастық),бұл деректер барлық адамдарды қобалжытты. Планетаның
тұрғындарының саны - бұл өте нақты саныға жете бастағанда қоғамдықға
Big Data технологиясы келді. YouTube, Facebook -та адамдардың саны
миллиардтаған. ВКонтакте оларды бір уақытта орындау мәмілелер саны көп.
Бұл жағдайда деректер ағыны пайдаланушының іс-қимылы. Мысалы, сол
YouTube хостингідегі деректер.
Талдау үшін пайдаланылатын ірі тәсілдерге қатысты деректері көп,
шын мәнінде өте ұзақ. Мысалы, бейнебақылау камералары арқылы
суреттерді өңдеу, бір сурет емес, көп деректер ағыны туралы айтып тұрмыз.
Немесе роботтардың шарлауы. Осының бәрі ондаған жылдар бойы болған,
дәл қазір адамдарға деректерді өңдеу міндеттері әлдеқайда көп әсер етеді.
Көптеген жасаушылар статикалық объектілермен жұмыс істеуге
үйренген. Өөзге де деректерде парадигма үлкен. Сіз үлкен деректер
ағынымен жұмыс істеуге қабілетті болуыңыз тиіс, және ол қызықты, күрделі
міндет болып табылады. Ол көп аймақ бағыттарын қамтиды.
Біздің өмірімізде аппараттық және бағдарламалық деректер көп
деректерді өңдеуді бастап отыр - мысалы, «заттар интернеті».
Заттар ақпараттың үлкен ағынын генерациялап жатыр. Полиция жүйесі
«ағыны» барлық камераларынан ақпараттар жібереді және осы деректер
бойынша машинаны табуға мүмкіндік береді. Фитнес -білезіктер, GPS-
трекерлер және адам тапсырмаларын және бизнес қызметін көрсететiн басқа
да заттар сәнге кірді.
3.Data Mining әдістері мен кезеңдері. Data Mining міндеттері.
Деректерді визуализациялау.
Барлық Data Mining әдістері бастапқы оқыту деректермен жұмыс
кезінде екі үлкен топқа бөлінеді. Осы классификацияда Data Mining-нан
кейін деректер сақталады ма деген негізде жоғарғы деңгей анықталады.
1. Деректерді тікелей пайдалану немесе деректерді сақтау.
Бұл жағдайда, бастапқы деректерді тікелей болжамды модельдеу
қадамдары және / немесе талдау ерекшеліктертолық және айқын сақталады.
әдістерін Осы топпен мәселе - оларды пайдаланудың өте үлкен деректер
базасының күрделі талдауы болуы мүмкін.
Осы топтың әдістері: кластерлік талдау, ең жақын көрші әдісі, K-жақын
көрші әдісі, ұқсас пайымдау.
2. Формальды заңдар немесе дистиляция үлгілерін анықтау
пайдаланады.
Дистиляция үлгілер технологиясы кезінде ақпараттың бір үлгісі
өңделмеген деректерден алынады, оның нысаны Data Mining әдісіне
байланысты белгілі бір формальды құрылымына айналады. Бұл процесс жоқ,
негізінен, осы әдістің алғашқы топтық кезеңінде тегін іздеу сахнасында
жүзеге асырылған. Сахнада болжалды модельдеу және талдау нәтижелері
еркін іздеу ерекшеліктер кезеңін пайдаланылады, олар әлдеқайда көп жинақы
дерекқорлар болып табылады. Бұл модельдердің құрылысы талдаушы
немесе бағыттаушы ( «қара жәшіктер») арқылы түсіндіруге болатынын еске
саламыз.
Data Mining статистикалық әдістері
Бұл әдістер өзара байланысты төрт бөлімдерден тұрады:
• статистикалық берілгендердің алдын ала талдау (стационарлық
сынау гипотезалар, қалыпты, тәуелсіздік, біртектілік, тарату функциясын
бағалау, оның параметрлері және т.б.) табиғаты;
• сілтемелер мен үлгілерін анықтау (сызықты және сызықты емес
регрессиялық талдау, корреляциялық талдау және басқалар.);
• көп статистикалық талдау (сызықтық және сызықтық емес
дискриминантты талдау, кластерлік талдау, компоненттік талдау, факторлық
талдау және басқалар.);
Динамикалық модель және болжамы қатардың уақытына
негізделген.
Data Mining статистикалық әдістер арсенал әдістері төрт топқа
жіктеледі:
1. Сызба талдауы және бастапқы деректердің сипаттамасы.
2. Байланыстың талдауы (корреляциялық және регрессиялық талдау,
факторлық талдау, дисперсиялық талдау).
3. Көпсатылы статистикалық талдау (компоненттік талдау,
дискриминанттық талдау, көпөлшемді регрессиялық талдау, канондық
корреляция, және басқалар.).
4. Қатарлардың уақытша талдауы (динамикалық моделдеу және
болжам).

жүктеу/скачать 290,41 Kb.

Достарыңызбен бөлісу:

1 ... 11 12 13 14 15 16 17 18 ... 42