Конспекты лекций для студентов специальности 5В100200 Системы информационной безопасности Алматы 2017 алматинский



Pdf көрінісі
бет20/39
Дата02.09.2023
өлшемі1,02 Mb.
#105901
түріКонспект
1   ...   16   17   18   19   20   21   22   23   ...   39
6.2
 
Основы Data Mining 
Говоря об обработке больших объёмов данных, сталкиваешься с 
использованием термина Data Mining, который подразумевает, что данных 
огромное количество.


26 
Data Mining
– это процесс поддержки принятия решений, который 
основанна поиске в данных скрытых закономерностей (шаблонов 
информации). Это такая технология, предназначенная для поиска в больших 
объемах данных неочевидных, объективных и полезных на практике 
закономерностей. 
Задачи (tasks) Data Mining
иногда называют закономерностями 
(regularity) или техниками (techniques). К основным задачам Data Mining 
относятся: классификация, кластеризация, прогнозирование, ассоциация, 
визуализация, анализ и обнаружение отклонений, оценивание, анализ связей, 
подведение итогов. 
Методы и алгоритмы Data Mining: 

искусственные нейронные сети; 

деревья решений; 

символьные правила; 

методы ближайшего соседа и k-ближайшего соседа; 

метод опорных векторов; 

байесовские сети; 

линейная регрессия; 

корреляционно-регрессионный анализ;

иерархические методы кластерного анализа; 

неиерархические методы кластерного анализа, в том числе алгоритмы 
k-средних и k-медианы;

методы поиска ассоциативных правил, в том числе алгоритм Apriori; 

метод ограниченного перебора, эволюционное программирование и 
генетические алгоритмы, разнообразные методы визуализации данных и 
множество других методов.
Data Mining может состоять из двух или трех стадий:
Стадия 1. Выявление закономерностей (свободный поиск).
Стадия 
2. 
Использование 
выявленных 
закономерностей 
для 
предсказания неизвестных значений (прогностическое моделирование). 
Стадия 3. Анализ исключений – это стадия, предназначенная для 
выявления и объяснения аномалий, которые найдены в закономерностях. 
6.2.1
Визуализация инструментов Data Mining. 
Каждый из алгоритмов Data Mining использует определенный подход к 
визуализации. В ходе использования каждого из методов Data Mining, а 
точнее, его программной реализации, мы являемся визуализаторами, при 
помощи которых удаётся интерпретировать результаты, которые получены в 
результате работы соответствующих методов и алгоритмов. 
Для деревьев решений таким визуализатором является дерево решений, 
список правил, таблица сопряженности.
Для нейронных сетей, в зависимости от инструмента, это может быть 
топология сети, график изменения величины ошибки, демонстрирующий 
процесс обучения. 


27 
Для карт Кохонена: карты входов, выходов, другие специфические 
карты. 
Для линейной регрессии в качестве визуализатора выступает линия 
регрессии. 
Для кластеризации: дендрограммы, диаграммы рассеивания. 
Диаграммы и графики рассеивания часто используются для оценки 
качества работы того или иного метода. 
Все эти способы визуального представления или отображения данных 
могут выполнять одну из функций: 

являются 
иллюстрацией 
построения 
модели 
(например, 
представление структуры (графа) нейронной сети); 

помогают интерпретировать полученный результат; 

являются средством оценки качества построенной модели; 

сочетают перечисленные выше функции (дерево решений, 
дендрограмма). 
Прежде чем использовать технологию Data Mining, необходимо 
тщательно проанализировать ее проблемы, ограничения и критические 
вопросы, с ней связанные, а также понять, чего эта технология не может. 
Data Mining не может заменить аналитика! 
Технология не может дать ответы на те вопросы, которые не были 
заданы. Она не может заменить аналитика, а всего лишь дает ему мощный 
инструмент для облегчения и улучшения его работы. 
Сложность разработки и эксплуатации приложения Data Mining 
Поскольку данная технология является мультидисциплинарной 
областью, для разработки приложения, включающего Data Mining, 
необходимо задействовать специалистов из разных областей, а также 
обеспечить их качественное взаимодействие. 


Достарыңызбен бөлісу:
1   ...   16   17   18   19   20   21   22   23   ...   39




©emirsaba.org 2024
әкімшілігінің қараңыз

    Басты бет