И анализ больших данных



Pdf көрінісі
бет5/65
Дата29.12.2023
өлшемі2,33 Mb.
#145048
түріУчебно-методическое пособие
1   2   3   4   5   6   7   8   9   ...   65
1.2 Понятие Data Mining 
Сегодня на рынке представлено множество инструментов, включающих различные 
методы, которые делают Data Mining прибыльным делом, все более доступным для 
большинства компаний.
Термин Data Mining получил свое название из двух понятий: поиска ценной 
информации в большой базе данных (data) и добычи горной руды (mining). Оба процесса 
требуют или просеивания огромного количества сырого материала, или разумного 
исследования и поиска искомых ценностей. 
Термин Data Mining часто переводится как добыча данных, извлечение 
информации, раскопка данных, интеллектуальный анализ данных, средства поиска 
закономерностей, извлечение знаний, анализ шаблонов, «извлечение зерен знаний из гор 
данных», раскопка знаний в базах данных, информационная проходка данных, 



«промывание» данных. Понятие «обнаружение знаний в базах данных» (knowledge 
discovery in databases, KDD) можно считать синонимом Data Mining.
Понятие Data Mining, появившееся в 1978 г., приобрело высокую популярность в 
современной трактовке примерно с первой половины 90-х годов. До этого времени 
обработка и анализ данных осуществлялись в рамках прикладной статистики, при этом в 
основном решались задачи обработки небольших баз данных. О популярности Data 
Mining говорит и тот факт, что результат поиска термина «Data Mining» в поисковой 
система Google (на сентябрь 2005 года) – более 18 миллионов страниц.
Что же такое Data Mining?
Data Mining – мультидисциплинарная область, возникшая и развивающаяся на базе 
таких наук, как прикладная статистика, распознавание образов, искусственный интеллект, 
теория баз данных и др. (рисунок 1). 
Рисунок 1 - Data Mining как мультидисциплинарная область 
Понятие статистики 
Статистика – это наука о методах сбора данных, их обработки и анализа для 
выявления закономерностей, присущих изучаемому явлению. 
Статистика является совокупностью методов планирования эксперимента, сбора 
данных, их представления и обобщения, а также анализа и получения выводов на 
основании этих данных. 
Статистика оперирует данными, полученных в результате наблюдений либо 
экспериментов. Одна из последующих глав будет посвящена понятию данных
Понятие машинного обучения 
Единого определения машинного обучения на сегодняшний день нет. Машинное 
обучение можно охарактеризовать как процесс получения программой новых знаний. 
Митчелл в 1996 году дал такое определение: «Машинное обучение – это наука, которая 
изучает компьютерные алгоритмы, автоматически улучшающиеся во время работы». 
Одним из наиболее популярных примеров алгоритма машинного обучения являются 
нейронные сети. 
 



Понятие Искусственный интеллект 
Искусственный интеллект – научное направление, в рамках которого ставятся и 
решаются задачи аппаратного или программного моделирования видов человеческой 
деятельности, традиционно считающихся интеллектуальными. Термин интеллект 
(intelligence) происходит от латинского intellectus, что означает ум, рассудок, разум, 
мыслительные способности человека. Соответственно, искусственный интеллект (AI, 
artificial intelligence) толкуется, как свойство автоматических систем брать на себя 
отдельные функции интеллекта человека. Искусственным интеллектом называют 
свойство интеллектуальных систем выполнять творческие функции, которые традиционно 
считаются прерогативой человека. Каждое из направлений, сформировавших Data Mining, 
имеет свои особенности. Проведем сравнение с некоторыми из них. 
Сравнение статистики, машинного обучения и Data Mining: 
Статистика
• Более, чем Data Mining, базируется на теории.
• Более сосредотачивается на проверке гипотез.
Машинное обучение
• Более эвристично.
• Концентрируется на улучшении работы агентов обучения.
Data Mining
• Интеграция теории и эвристик. 
• Сконцентрирована на едином процессе анализа данных, включает очистку 
данных, обучение, интеграцию и визуализацию результатов. 
Понятие Data Mining тесно связано с технологий баз данных и понятием данные. 
Развитие технологии баз данных:
1960 гг.
В 1968 году была введена в эксплуатацию первая промышленная СУБД система 
IMS фирмы IBM.
1970 гг.
В 1975 году появился первый стандарт ассоциации по языкам систем обработки 
данных – Conference of Data System Languages (CODASYL), определивший ряд 
фундаментальных понятий в теории систем баз данных, которые и до сих пор являются 
основополагающими для сетевой модели данных. В дальнейшее развитие теории баз 
данных большой вклад был сделан американским математиком Э.Ф.Коддом, который 
является создателем реляционной модели данных.
1980 гг.
В течение этого периода многие исследователи экспериментировали с новым 
подходом в направлениях структуризации баз данных и обеспечения к ним доступа. 
Целью этих поисков было получение реляционных прототипов для более простого 
моделирования данных. В результате, в 1985 году был создан язык, названный SQL. На 
сегодняшний день практически все СУБД обеспечивают данный интерфейс.
1990 гг.
Появились специфичные типы данных «графический образ», «документ», «звук», 
«карта». Типы данных для времени, интервалов времени, символьных строк с 
двухбайтовым представлением символов были добавлены в язык SQL. Появились 
технологии Data Mining, хранилища данных, мультимедийные базы данных и Web- базы 
данных. Возникновение и развитие Data Mining обусловлено различными факторами, 
основные среди них:
- совершенствование аппаратного и программного обеспечения;
- совершенствование технологий хранения и записи данных;
- накопление большого количества ретроспективных данных;
- совершенствование алгоритмов обработки информации. 



Понятие Data
Mining Data Mining – это процесс поддержки принятия решений, основанный на 
поиске в данных скрытых закономерностей (шаблонов информации).
Технологию Data Mining достаточно точно определяет Григорий Пиатецкий-
Шапиро (Gregory Piatetsky-Shapiro) – один из основателей этого направления: Data Mining 
– это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, 
практически полезных и доступных интерпретации знаний, необходимых для принятия 
решений в различных сферах человеческой деятельности.
Суть и цель технологии Data Mining можно охарактеризовать так: это технология, 
которая предназначена для поиска в больших объемах данных неочевидных, объективных 
и полезных на практике закономерностей.
Неочевидных – это значит, что найденные закономерности не обнаруживаются 
стандартными методами обработки информации или экспертным путем.
Объективных – это значит, что обнаруженные закономерности будут полностью 
соответствовать действительности, в отличие от экспертного мнения, которое всегда 
является субъективным.
Практически полезных – это значит, что выводы имеют конкретное значение, 
которому можно найти практическое применение.
Знания – совокупность сведений, которая образует целостное описание, 
соответствующее некоторому уровню осведомленности об описываемом вопросе, 
предмете, проблеме и т.д.
Использование знаний (knowledge deployment) означает действительное 
применение найденных знаний для достижения конкретных преимуществ (например, в 
конкурентной борьбе за рынок).
Приведем еще несколько определений понятия Data Mining. Data Mining – это 
процесс выделения из данных неявной и неструктурированной информации и 
представления ее в виде, пригодном для использования.
Data Mining – это процесс выделения, исследования и моделирования больших 
объемов данных для обнаружения неизвестных до этого структур (patterns) с целью 
достижения преимуществ в бизнесе (определение SAS Institute).
Data Mining – это процесс, цель которого – обнаружить новые значимые 
корреляции, образцы и тенденции в результате просеивания большого объема хранимых 
данных с использованием методик распознавания образцов плюс применение 
статистических и математических методов (определение Gartner Group).
В основу технологии Data Mining положена концепция шаблонов (patterns), 
которые представляют собой закономерности, свойственные подвыборкам данных, кои 
могут быть выражены в форме, понятной человеку.
«Mining» по-английски означает «добыча полезных ископаемых», а поиск 
закономерностей в огромном количестве данных действительно сродни этому процессу.
Цель поиска закономерностей – представление данных в виде, отражающем 
искомые процессы. Построение моделей прогнозирования также является целью поиска 
закономерностей. 
Перспективы технологии Data Mining
Потенциал Data Mining дает «зеленый свет» для расширения границ применения 
этой технологии. Относительно перспектив Data Mining возможны следующие 
направления развития:

выделение типов предметных областей с соответствующими им 
эвристиками, формализация которых облегчит решение соответствующих задач Data 
Mining, относящихся к этим областям;




создание формальных языков и логических средств, с помощью которых 
будет формализованы рассуждения и автоматизация которых станет инструментом 
решения задач Data Mining в конкретных предметных областях;

создание методов Data Mining, способных не только извлекать из данных 
закономерности, но и формировать некие теории, опирающиеся на эмпирические данные;

преодоление существенного отставания возможностей инструментальных 
средств Data Mining от теоретических достижений в этой области.
Если рассматривать будущее Data Mining в краткосрочной перспективе, то 
очевидно, что развитие этой технологии наиболее направлено к областям, связанным с 
бизнесом. В краткосрочной перспективе продукты Data Mining могут стать такими же 
обычными и необходимыми, как электронная почта, и, например, использоваться 
пользователями для поиска самых низких цен на определенный товар или наиболее 
дешевых билетов.
В долгосрочной перспективе будущее Data Mining является действительно 
захватывающим, это может быть как поиск интеллектуальными агентами новых видов 
лечения различных заболеваний, так и нового понимания природы вселенной.
Однако Data Mining таит в себе и потенциальную опасность, ведь все большее 
количество информации становится доступным через всемирную сеть, в том числе и 
сведения частного характера, и все больше знаний возможно добыть из нее…
Например, крупнейший онлайновый магазин «Amazon» оказался в центре скандала 
по поводу полученного получения им патента «Методы и системы помощи пользователям 
при покупке товаров», который представляет собой не что иное, как очередной продукт 
Data Mining, предназначенный для сбора персональных данных о посетителях магазина. 
Новая методика позволяет прогнозировать будущие запросы на основании фактов 
покупок, а также делать выводы об их назначении. Цель данной методики – то о чем 
говорилось выше – получение как можно большего количества информации о клиентах, в 
том числе и частного характера (пол, возраст, предпочтения и т.д.). Таким образом, 
собираются данные о частной жизни покупателей магазина, а также членах их семей, 
включая детей. Последнее запрещено законодательством многих стран, сбор информации 
о несовершеннолетних возможен там только с разрешения родителей.
Исследования отмечают, что существуют как успешные решения, использующие 
Data Mining, так и неудачный опыт применения этой технологии. Области, где 
применения технологии Data Mining, скорее всего, будут успешными, имеют такие 
особенности:
•требуют решений, основанных на знаниях;
•имеют изменяющуюся окружающую среду;
•имеют доступные, достаточные и значимые данные;
•обеспечивают высокие дивиденды от правильных решений. 
Существующие подходы к анализу
Достаточно долго дисциплина Data Mining не признавалась полноценной 
самостоятельной областью анализа данных, иногда ее называют «задворками статистики» 
(Pregibon, 1997).
На сегодняшний день определилось несколько точек зрения на Data Mining. 
Сторонники одного из них считают эту технологию миражом, отвлекающим внимание от 
классического анализа данных. Сторонники другого направления – это те, кто принимает 
Data Mining как альтернативу традиционному подходу к анализу. Есть и середина, где 
рассматривается возможность совместного использования современных достижений в 
области Data Mining и классическом статистическом анализе данных.
Технология Data Mining постоянно развивается, привлекает к себе все больший 
интерес, как со стороны научного мира, так и со стороны применения достижений 
технологии в бизнесе.


10 


Достарыңызбен бөлісу:
1   2   3   4   5   6   7   8   9   ...   65




©emirsaba.org 2024
әкімшілігінің қараңыз

    Басты бет