26
Data Mining
– это
процесс поддержки принятия решений, который
основанна поиске в данных скрытых закономерностей (шаблонов
информации). Это такая технология, предназначенная для поиска в
больших
объемах данных неочевидных, объективных и полезных на практике
закономерностей.
Задачи (tasks) Data Mining
иногда называют закономерностями
(regularity) или техниками (techniques). К основным задачам Data Mining
относятся: классификация, кластеризация, прогнозирование, ассоциация,
визуализация, анализ и обнаружение отклонений, оценивание, анализ связей,
подведение итогов.
Методы и алгоритмы Data Mining:
искусственные нейронные сети;
деревья решений;
символьные правила;
методы ближайшего соседа и k-ближайшего соседа;
метод опорных векторов;
байесовские сети;
линейная регрессия;
корреляционно-регрессионный анализ;
иерархические методы кластерного анализа;
неиерархические
методы кластерного анализа, в том числе алгоритмы
k-средних и k-медианы;
методы поиска ассоциативных правил, в том числе алгоритм Apriori;
метод ограниченного перебора, эволюционное программирование и
генетические алгоритмы, разнообразные
методы визуализации данных и
множество других методов.
Data Mining может состоять из двух или трех стадий:
Стадия 1. Выявление закономерностей (свободный поиск).
Стадия
2.
Использование
выявленных
закономерностей
для
предсказания неизвестных значений (прогностическое моделирование).
Стадия 3. Анализ исключений – это стадия, предназначенная для
выявления и объяснения аномалий, которые найдены в закономерностях.
6.2.1
Визуализация инструментов Data Mining.
Каждый из алгоритмов Data Mining использует определенный подход к
визуализации. В ходе использования каждого из методов Data Mining, а
точнее, его программной реализации, мы являемся визуализаторами, при
помощи которых удаётся интерпретировать результаты, которые получены в
результате работы соответствующих
методов и алгоритмов.
Для деревьев решений таким визуализатором является дерево решений,
список правил, таблица сопряженности.
Для нейронных сетей, в зависимости от инструмента, это может быть
топология сети, график изменения величины ошибки, демонстрирующий
процесс обучения.
27
Для карт Кохонена: карты входов, выходов, другие специфические
карты.
Для линейной регрессии в
качестве визуализатора выступает линия
регрессии.
Для кластеризации: дендрограммы, диаграммы рассеивания.
Диаграммы и графики рассеивания часто используются для оценки
качества работы того или иного метода.
Все эти способы визуального представления или отображения данных
могут выполнять одну из функций:
являются
иллюстрацией
построения
модели
(например,
представление структуры (графа) нейронной сети);
помогают интерпретировать полученный результат;
являются средством оценки качества построенной модели;
сочетают перечисленные выше функции (дерево решений,
дендрограмма).
Прежде чем использовать технологию Data Mining, необходимо
тщательно проанализировать ее проблемы, ограничения и критические
вопросы, с ней связанные, а также понять, чего эта технология не может.
Data Mining не может заменить аналитика!
Технология не может дать ответы на те вопросы, которые не были
заданы. Она не может заменить аналитика, а всего лишь дает ему мощный
инструмент для облегчения и улучшения его работы.
Сложность разработки и эксплуатации приложения Data Mining
Поскольку данная технология является мультидисциплинарной
областью, для разработки приложения, включающего Data Mining,
необходимо задействовать специалистов из разных областей, а также
обеспечить их качественное взаимодействие.
Достарыңызбен бөлісу: