АЛМАТЫ ТЕХНОЛОГИЯЛЫҚ УНИВЕРСИТЕТІ ИНЖИНИРИНГ ЖӘНЕ АҚПАРАТТЫҚ ТЕХНОЛОГИЯЛАР ФАКУЛЬТЕТІ Ақпараттық Технологиялар Кафедрасы
Реферат
Баға
Ескертпе
Қолы
Орындаған:
Кенжеғазиев М.Б
Қабылдаған:
Молдакалыкова А.Ж
Алматы, 2023ж Жоспары 1) Кіріспе
Big Data дегеніміз не?
2) Негізгі бөлім
Big Data сипаттамалары
Үлкен Деректер қалай жұмыс істейді: үлкен деректер қалай жиналады және сақталады?
Үлкен деректердің проблемалары мен перспективалары
Big Data Analytics-үлкен деректер қалай талдануы
Бизнестегі үлкен деректер
3) Қорытынды
Big Data салаларда қолданылуы
4) Пайдаланылған әдебиеттер
Кіріспе
Big Data дегеніміз не?
Big Data немесе үлкен деректер — бұл үлкен көлемдегі құрылымдалған немесе құрылымдалмаған деректер массивтері. Олар статистика, талдау, болжау және шешім қабылдау үшін пайдалану үшін арнайы автоматтандырылған құралдардың көмегімен өңделеді.
"Үлкен деректер" терминін Nature журналының редакторы Клиффорд Линч 2008 жылғы арнайы шығарылымында ұсынған . Ол әлемдегі ақпарат көлемінің жарылғыш өсуі туралы айтты. Линч үлкен деректерге тәулігіне 150 Гб-тан астам гетерогенді деректердің кез-келген массивін жатқызды, бірақ әлі күнге дейін бірыңғай критерий жоқ.
2011 жылға дейін үлкен деректерді талдау тек ғылыми және Статистикалық зерттеулер аясында жүргізілді. Бірақ 2012 жылдың басында деректер көлемі үлкен пропорцияларға дейін өсті және оларды жүйелеу мен практикалық қолдану қажеттілігі туындады.
2014 жылдан бастап Big Data-ға қолданбалы инженерлік және IT-мамандықтарды оқытатын әлемдік жетекші жоғары оқу орындары назар аударды. Содан кейін Microsoft, IBM ,acacle, EMC, содан кейін Google, Apple, Facebook және Amazon сияқты IT корпорациялары жинау мен талдауға қосылды. Бүгінгі таңда барлық салалардағы ірі компаниялар, сондай — ақ мемлекеттік органдар үлкен деректерді пайдаланады.
Негізгі бөлім
Big Data сипаттамалары қандай ?
Meta Group үлкен деректердің негізгі сипаттамаларын ұсынды :
Volume - деректер көлемі: тәулігіне 150 Гб-тан;
Velocity - деректер массивтерінің жинақталу және өңдеу жылдамдығы. Үлкен деректер үнемі жаңартылып отырады, сондықтан оларды онлайн режимінде өңдеу үшін Ақылды технологиялар қажет;
Variety - деректер түрлерінің әртүрлілігі. Деректер құрылымдалған, құрылымдалмаған немесе ішінара құрылымдалған болуы мүмкін. Мысалы, әлеуметтік желілерде деректер ағыны құрылымдалмаған: бұл мәтіндік хабарламалар, фотосуреттер немесе бейнелер болуы мүмкін.
Бүгінгі күні осы үшеуіне тағы үш белгі қосылады :
Veracity-деректер жиынтығының өзі де, оны талдау нәтижелері де;
Variability - өзгергіштік. Деректер ағындарының жыл мезгілдерінің немесе әлеуметтік құбылыстардың әсерінен шыңдары мен құлдырауы болады. Деректер ағыны неғұрлым тұрақсыз және өзгермелі болса, оны талдау соғұрлым қиын болады;
Value - құндылық немесе маңыздылық. Кез келген ақпарат сияқты, үлкен деректер қарапайым немесе қабылдау және талдау қиын болуы мүмкін. Қарапайым деректердің мысалы — әлеуметтік желілердегі хабарламалар, күрделі-банктік операциялар.
Үлкен Деректер қалай жұмыс істейді: үлкен деректер қалай жиналады және сақталады?
Барлық маңызды факторларды талдау және дұрыс шешім қабылдау үшін үлкен деректер қажет. Big Data көмегімен модельдеу модельдері белгілі бір шешімді, идеяны, Өнімді сынау үшін жасалады.
Үлкен деректердің негізгі көздері:
Заттар интернеті (IoT) және оған қосылған құрылғылар;
әлеуметтік желілер, блогтар және БАҚ;
компаниялардың деректері: транзакциялар, тауарлар мен қызметтерге Тапсырыс беру, такси және автокөлік сапарлары, клиенттердің профильдері;
аспаптардың көрсеткіштері: метеорологиялық станциялар, ауа мен су айдындарының құрамын өлшегіштер, спутниктерден алынған деректер;
қалалар мен мемлекеттердің статистикасы: орын ауыстыру, туу және өлім туралы мәліметтер;
медициналық деректер: сынақтар, аурулар, диагностикалық суреттер.
2007 жылдан бастап ФБР мен ЦРУ — да Prism пайда болды-бұл барлық әлеуметтік желі пайдаланушылары, сондай-ақ Microsoft, Google, Apple, Yahoo қызметтері және тіпті телефон жазбалары туралы Жеке деректерді жинайтын ең озық қызметтердің бірі.
Заманауи есептеу жүйелері үлкен деректер массивтеріне жылдам қол жеткізуге мүмкіндік береді. Оларды сақтау үшін ең қуатты серверлері бар арнайы деректер орталықтары қолданылады.
Дәстүрлі физикалық серверлерден басқа, бұлтты сақтау, "деректер көлдері" (data lake — бір көзден құрылымдалмаған деректердің үлкен көлемді қоймалары) және таратылған есептеу бағдарламаларын әзірлеу және орындау үшін утилиталар жиынтығынан тұратын Hadoop құрылымы қолданылады. Big Data-мен жұмыс істеу үшін Интеграция мен басқарудың озық әдістері, сондай-ақ аналитика үшін деректерді дайындау қолданылады.
Үлкен деректердің проблемалары мен перспективалары қандай?
Негізгі мәселелер:
Үлкен деректер гетерогенді, сондықтан статистикалық қорытындылар үшін өңдеу қиын. Болжау үшін неғұрлым көп параметрлер қажет болса, талдау кезінде соғұрлым көп қателер жиналады;
Интернеттегі үлкен деректер массивтерімен жұмыс істеу үшін сізге үлкен есептеу қуаты қажет. Мұндай ресурстар өте қымбат және әзірге тек ірі корпорацияларға қол жетімді;
Big Data сақтау және өңдеу кибершабуылдар мен ағып кетудің барлық түрлеріне осалдықтың жоғарылауымен байланысты. Жарқын мысал — Facebook профиль жанжалдары;
Үлкен деректерді жинау көбінесе құпиялылық мәселесімен байланысты: әркім олардың әрбір әрекетін қадағалап, үшінші тұлғаларға бергісі келмейді. "Не өзгерді" подкастының кейіпкерлері желіде неге құпиялылық жоқ екенін түсіндіреді және технологиялық алыптар біз туралы бәрін біледі;
Үлкен деректерді корпорациялар ғана емес, саясаткерлер де өз мақсаттары үшін пайдаланады: мысалы, сайлауға әсер ету үшін.
Артықшылықтары мен перспективалары:
Үлкен деректер жаһандық мәселелерді шешуге көмектеседі — мысалы, пандемиямен күресу, қатерлі ісікке қарсы дәрі табу және экологиялық дағдарыстың алдын алу;
Big Data-ақылды қалаларды құруға және көлік мәселесін шешуге арналған жақсы құрал;
Үлкен деректер тіпті мемлекеттік деңгейде де шығындарды үнемдеуге көмектеседі: мысалы, Германияда шамамен €15 млрд бюджетке қайтарылды , кейбір азаматтар ешқандай себепсіз жұмыссыздық бойынша жәрдемақы алатынын анықтады. Олар транзакциялар арқылы есептелді.
Big Data Analytics-үлкен деректер қалай талданады?
Торлы есептеу немесе жедел жадтағы аналитика сияқты өнімділігі жоғары технологиялардың арқасында компаниялар талдау үшін кез — келген үлкен деректерді қолдана алады. Кейде Big Data алдымен құрылымдалады, тек талдау үшін қажет нәрсені таңдайды. Жасанды интеллектті қоса алғанда, кеңейтілген аналитика шеңберіндегі тапсырмалар үшін үлкен деректер жиі қолданылады.
Big Data талдауының төрт негізгі әдісі бар:
1. Сипаттамалық аналитика (descriptive analytics) — ең көп таралған. Ол " не болды?", нақты уақыттағы деректерді және тарихи деректерді талдайды. Негізгі мақсат-осы деректерді ең тиімді модельдер үшін пайдалану үшін белгілі бір саладағы жетістіктер мен сәтсіздіктердің себептері мен заңдылықтарын анықтау. Сипаттамалық аналитика үшін Негізгі математикалық функциялар қолданылады. Әдеттегі мысал-компания Google Analytics арқылы алатын әлеуметтанулық зерттеулер немесе веб-статистика деректері.
Антон Мироненков, "X5 технологиясы" басқарушы директоры:
"Баға туралы шешім қабылдауға арналған модельдердің екі үлкен класы бар. Біріншісі белгілі бір тауардың нарықтық бағасынан туындайды. Басқа дүкендердегі баға белгілері туралы мәліметтер жиналады, талданады және олардың негізінде белгілі бір ережелерге сәйкес өзіндік бағалар белгіленеді.
Модельдердің екінші класы бағаға байланысты сату көлемін көрсететін сұраныс қисығын құрумен байланысты. Бұл аналитикалық оқиға. Интернетте мұндай механизм өте кең қолданылады және біз бұл технологияны желіден офлайн режимге ауыстырамыз".
2. Болжалды немесе предикативті аналитика (predictive analytics) — қолда бар деректер негізінде оқиғалардың ықтимал дамуын болжауға көмектеседі. Ол үшін ұқсас сипаттамалар жиынтығы бар кез-келген объектілерге немесе құбылыстарға негізделген дайын шаблондарды қолданыңыз. Предикативті (немесе болжамды, болжамды) аналитиканың көмегімен, мысалы, қор нарығындағы құлдырауды немесе бағаның өзгеруін есептеуге болады. Немесе әлеуетті қарыз алушының несиені төлеу мүмкіндіктерін бағалаңыз.
3. Рецепт бойынша талдау (prescriptive analytics) болжаммен салыстырғанда келесі деңгей болып табылады. Big Data және заманауи технологиялардың көмегімен бизнестегі немесе кез-келген басқа қызметтегі проблемалық нүктелерді анықтауға және болашақта оларды қандай сценариймен болдырмауға болатындығын есептеуге болады.
Aurora health Care медициналық орталықтарының желісі жыл сайын рецепт бойынша аналитика арқылы 6 6 млн үнемдейді: ол қайта қабылдау санын 10% - ға төмендете алды .
4. Диагностикалық аналитика — diagnostic analytics) - болған оқиғаның себептерін талдау үшін деректерді пайдаланады. Бұл оқиғалар мен әрекеттер арасындағы ауытқулар мен кездейсоқ байланыстарды анықтауға көмектеседі.
Мысалы, Amazon әртүрлі өнімдердің сату және жалпы пайда деректерін талдап, олардың неліктен күтілгеннен аз табыс әкелгенін анықтайды.
Деректер әртүрлі құралдар мен технологиялар арқылы өңделеді және талданады :
Арнайы бағдарлама: NoSQL, MapReduce, Hadoop, R;
Data mining-әдістердің үлкен жиынтығын қолдана отырып, бұрын белгісіз деректер массивтерінен алу;
AI және нейрондық желілер-мәтінді және кескінді тануды қоса алғанда, Big Data негізіндегі модельдерді құруға арналған. Мысалы, "Столото" лотерея операторы үлкен деректерді data-driven Organization шеңберінде өзінің стратегиясының негізіне айналдырды. Big Data және ai көмегімен компания тұтынушы тәжірибесін талдайды және жекелендірілген өнімдер мен қызметтерді ұсынады;
Аналитикалық деректерді визуализациялау-үлкен деректерден жасалған анимациялық модельдер немесе графиктер.
РБК трендтер подкастында "Яндекс.Бұлттар " Александр Сурков, әзірлеушілер ақпарат жинаудың екі критерийін ұстанады:
Деректерді иесіздендіру пайдаланушылардың жеке ақпаратын белгілі бір дәрежеде қол жетімсіз етеді;
Деректерді біріктіру тек орташа көрсеткіштермен жұмыс істеуге мүмкіндік береді.
Интернеттегі деректердің үлкен массивтерін өңдеу үшін суперкомпьютерлер қолданылады: олардың қуаты мен есептеу мүмкіндіктері әдеттегіден бірнеше есе жоғары. Толығырақ - "суперкомпьютерлер қалай жұмыс істейді және олар не істей алады"материалында.
Big Data және Data Science-айырмашылығы неде?
Data Science немесе деректер туралы ғылым — бұл деректерді жинауды, өңдеуді және талдауды қамтитын қызмет саласы — құрылымдалған және құрылымдалмаған, тек үлкен емес. Онда математикалық және статистикалық талдау әдістері, сондай-ақ бағдарламалық шешімдер қолданылады. Data Science, соның ішінде Big Data — мен де жұмыс істейді, бірақ оның басты мақсаты-нақты тапсырмалар үшін пайдалану үшін деректерден құнды нәрсе табу.
Бизнестегі үлкен деректер
Үлкен деректер үш негізгі бағыттағы бизнес үшін пайдалы:
Мақсатты аудиторияның қажеттіліктері бойынша дәлірек "ататын" өнімдер мен қызметтерді іске қосу;
Оларды жақсарту үшін өнімге немесе қызметке қатысты тұтынушы тәжірибесін талдау;
Аналитика арқылы клиенттерді тарту және сақтау.
Үлкен деректер MasterCard-қа клиенттердің шоттары бойынша жылына 3 миллиард доллардан асатын алаяқтық операциялардың алдын алуға көмектеседі. Олар жарнама берушілерге бюджеттерді тиімді бөлуге және әртүрлі тұтынушыларға бағытталған жарнамаларды орналастыруға мүмкіндік береді.
Netflix, Procter & Gamble немесе Coca — Cola сияқты ірі компаниялар тұтынушылардың сұранысын үлкен деректермен болжайды. Бизнес пен мемлекеттік басқарудағы шешімдердің 70% - ы геодеректер негізінде қабылданады. Толығырақ-Бизнестің Big Data-дан қалай пайда табатыны туралы материалда.
Әлемдегі үлкен деректер
IBS мәліметтері бойынша, 2012 жылы әлемде сақталған цифрлық деректер көлемі 50% - ға өсті: 1,8-ден 2,7 Збайтқа дейін (2,7 трлн Гб). 2015 жылы әлемде әр он минут сайын 2003 жылдағыдай көп деректер жасалды.
NetApp мәліметтері бойынша, 2003 жылға қарай әлемде 5 Эбайт деректер жинақталған (1 Эбайт = 1 миллиард Гбайт). 2015 жылы-6,5 Збайттан астам, содан кейін бүкіл әлем бойынша компаниялардың тек 17% - ы ғана үлкен деректерді пайдаланды [9]. Деректердің көп бөлігін олардың клиенттері емес, компаниялардың өздері жасайды. Бұл жағдайда қарапайым пайдаланушы күніне шамамен 4800 рет деректерді шығаратын әртүрлі құрылғылармен байланысады.
Алғашқы Big Data бес жыл бұрын ат, Телеком және банктерде қолданыла бастады. Дәл осы салаларда транзакциялар, геолокация, іздеу сұраулары және желідегі профильдер туралы көптеген мәліметтер жиналады. 2019 жылы үлкен деректерді пайдаланудан түскен пайда 189 миллиард долларға бағаланды [10]-Бұл 2018 жылмен салыстырғанда 12% - ға өсті, ал 2022 жылға қарай ол жыл сайын екі есеге артады.
Қазір АҚШ — та компаниялардың 55% - дан астамы үлкен деректермен жұмыс істейді [11], Еуропа мен Азияда-шамамен 53%. Тек соңғы бес жылда бизнесте Big Data таралуы үш есе өсті.
Қорытынды
Big Data салаларда қолданылуы
Мемлекеттік басқару. Үлкен деректерді зерттеу және талдау үкіметтерге Денсаулық сақтау, халықты жұмыспен қамту, экономикалық реттеу, қылмыспен күресу және қауіпсіздікті қамтамасыз ету, төтенше жағдайларды жою сияқты салаларда шешім қабылдауға көмектеседі;
Өнеркәсіп. Big Data құралдарын енгізу өнеркәсіптік процестердің ашықтығын арттыруға және өнімге сұранысты дәлірек болжауға және сәйкесінше ресурстарды жұмсауды жоспарлауға мүмкіндік беретін "болжамды өндірісті" енгізуге көмектеседі;
Медицина. Медициналық мекемелер мен әртүрлі электронды құрылғылар (фитнес-білезіктер және т.б.) жинайтын деректердің үлкен көлемі Денсаулық сақтау саласы алдында түбегейлі жаңа мүмкіндіктер ашады. Үлкен деректер жаңа дәрі-дәрмектерді табуға, дәлірек диагноз қоюға, тиімді емдеуді таңдауға, пандемиямен күресуге көмектеседі;
Қайта сатып алу. Желілік және электрондық сауданың дамуын Big Data негізіндегі шешімдерсіз елестету мүмкін емес-осылайша дүкендер ассортимент пен жеткізуді жекелендіреді;
Заттар интернеті. Big Data және Заттар интернеті бір-бірімен тығыз байланысты. Заттар интернетіне қосылған өнеркәсіптік және тұрмыстық техника көптеген деректерді жинайды, олардың талдауы кейіннен осы құрылғылардың жұмысын реттейді;
Жылжымайтын мүлік нарығы. Әзірлеушілер Big Data технологиясын бүкіл ақпарат массивін жинау және талдау үшін пайдаланады, содан кейін пайдаланушыға ол үшін ең қызықты нұсқаларды береді. Қазірдің өзінде болашақ сатып алушы сізге ұнайтын үйді сатушысыз көре алады;
Спорт. Үлкен деректердің көмегімен футбол клубтары ең перспективалы ойыншыларды таңдап, әр қарсылас үшін тиімді стратегия жасайды.
Ауыл шаруашылығы. "Дәл егіншілік деп аталатын саладағы IoT шешімі-бұл өрістерде тұрған арнайы метеостанциялар сенсорлар арқылы деректерді (температура, ылғалдылық) жинап, радио-GSM модульдерін IoT платформасына жіберген кезде. Онда Big Data алгоритмдері арқылы Сенсорлардан жиналған ақпарат өңделеді және жоғары дәлдіктегі сағаттық ауа райы болжамы жасалады. Клиент оны компьютердегі, планшеттегі немесе смартфондағы интерфейсте көреді және тез шешім қабылдай алады", — деп түсіндірді "Мегафон".