И анализ больших данных


 Задачи анализа больших данных



Pdf көрінісі
бет6/65
Дата29.12.2023
өлшемі2,33 Mb.
#145048
түріУчебно-методическое пособие
1   2   3   4   5   6   7   8   9   ...   65
1.3 Задачи анализа больших данных 
Задачи, связанные с анализом данных, возникали в самых разных областях 
исследования задолго до того, как появился сам термин. Но именно благодаря быстрому 
развитию компьютерной техники, появлению сети Интернет (в современном понимании 
этого термина) в конце 1980-х – начале 1990-х годов, сделавшему возможным сбор, 
хранение, передачу и обработку больших объёмов данных, анализ данных сформировался 
как самостоятельное научное направление. Термин «Анализ данных», или 
«Интеллектуальный анализ данных» - перевод английского термина «Data Mining», т.е. 
буквально «добыча данных» или даже «раскапывание данных». Сам термин «Data 
Mining», (а также термин «Knowledge Discovery in Data», KDD) был предложен в 1991 
году Григорием Пятецким-Шапиро, выпускником Нью-Йоркcкого университета, который 
заинтересовался вопросом: «Возможно, ли автоматически находить правила, которые 
позволили бы ускорить выполнение запросов к большим базам данных?». 
По определению Г.Пятецкого-Шапиро, «Data Mining — это процесс обнаружения 
знаний (в сырых данных), которые являлись бы: 
- неизвестными ранее, 
- нетривиальными, 
- доступными для интерпретации; 
- практически полезными; 
необходимыми для принятия решений в различных сферах человеческой деятельности». 
Определение понятия «Анализ данных» тесно связано с классификацией уровней 
информации (таблица 1):
Таблица 1 – Классификация уровней информации 
Уровень информации 
Описание 
Сырые данные (raw data) 
Необработанные данные, получаемые в результате 
наблюдения за объектами и отображающие их состояние в 
конкретные моменты времени (например, данные о 
котировках акций за прошедший год, данные о ценах на 
рынке жилья, данные об абитуриентах, зачисленных на 1 
курс) 
Информация 
Это либо:

сырые 
данные, 
но 
систематизированные, 
представленные в более компактном виде (например, 
результаты 
поиска 
– 
сведения 
об 
абитуриентах, 
поступивших в КГУ в этом году);
- обработанные данные, имеющие информационную 
ценность 
для 
пользователя 
(например, 
сводные 
статистические 
характеристики 
– 
средний 
балл 
абитуриентов, поступивших в КГУ в этом году – его 
абсолютная величина и % по отношению к тому же 
показателю за предыдущий год). 
Знания 
Понятие «знания» включает:
- скрытые взаимосвязи между объектами (признаками 
объектов);
- некоторое ноу-хау, алгоритмы, методы решения задач.
Знания обладают практической ценностью: «Знание – 
сила!» // 
Фрэнсис Бэкон. 


11 
В настоящее время выделяют следующие основные классы задач анализа данных: 
Таблица 2- Основные классы задач анализа данных 
Класс задач 
Описание, примеры 
Прогнозирование 
(Forecasting) 
Нахождение будущих состояний объекта на основании предыдущих 
состояний (исторических данных). Примеры:
- прогнозирование ситуаций на валютных рынках, 
- прогнозирование цен на рынке недвижимости, 
- прогнозирование демографических процессов, 
- прогнозирование климатических процессов…. 
Классификация 
(Classification) 
Нахождение правила, позволяющее отнести объект к тому или 
иному классу (выбрать класс из числа известных заранее классов) на 
основе информации о том, к какому классу относятся другие объекты. 
Примеры:
- Задачи распознавание образов (распознавание рукописного текста, 
фотографии (например, определение номера автомобиля по фото), 
идентификация личности по фото, голосу, видео…); 
- Задачи атрибуции (определение авторства / периода создания / 
страны происхождения …произведений искусства, археологических 
находок);
- Задачи диагностики (в медицине и технике) 
Кластеризация 
(Clusterization) 
Нахождение правила для автоматического разделения имеющихся 
объектов на классы на основании сходства тех или иных характеристик 
(факторов) этих объектов. При этом ни сами классы, ни их количество 
заранее неизвестны. Примеры:
- Сегментация рынка (разделение всех потенциальных потребителей 
на кластеры для последующего целевого воздействия, например, 
создания целевой рекламы); 
- Задачи разбиения множества индивидов на группы кластеры (в 
социологии, психологии, биологии и пр…) 
Ассоциация 
(Associations) 
Поиск устойчивых закономерностей между случайными событиями, 
наступающими одновременно.
Пример: - Анализ покупательской корзины – поиск «устойчивых 
связей в корзине покупателя» (осуществляется с целью учёта их при 
планировании расположения отделов в супермаркете). 
Последовательность 
(Последовательная 
ассоциация, 
Нахождение 
последовательных 
шаблонов) (Sequence, 
Sequential association, 
Sequential pattern) 
Поиск устойчивых закономерностей между случайными событиями, 
связанными во времени, т.е. правил вида: после события X через время t 
происходит событие Y. 
Пример: - После покупки квартиры жильцы в 60% случаев в 
течение двух недель приобретают холодильник, а в течение двух 
месяцев в 50% случаев приобретается телевизор. 
Решение данной задачи широко применяется в маркетинге и 
менеджменте, например, при управлении циклом работы с клиентом 
(Customer Lifecycle Management). 
Визуализация данных 
(Data Visualization) 
Графическое изображение данных (2D и 3D диаграммы, 
гистограммы, графики, облака точек…) 
Анализ отклонений 
(Deviation Detection) 
Обнаружение и анализ данных, наиболее отличающихся от общего 
множества данных. Примеры:
- выявление нетипичной сетевой активности позволяет обнаружить 
вредоносные программы; выявление мошенничества с кредитными 
карточками. 
 
Таким образом, названные задачи анализа данных возникают в самых разных 
областях, в частности, в таких как:


12 
- Розничная торговля 
- Банковское дело 
- Страхование 
- Телекоммуникации 
- Техника 
- Медицина 
- Молекулярная биология 
- Молекулярная генетика 
- Хемоинформатика


Достарыңызбен бөлісу:
1   2   3   4   5   6   7   8   9   ...   65




©emirsaba.org 2024
әкімшілігінің қараңыз

    Басты бет