Лекция 3 Data Mining – технология добычи данных Технология Data Mining



бет2/18
Дата28.04.2023
өлшемі0,87 Mb.
#87620
түріЛекция
1   2   3   4   5   6   7   8   9   ...   18

Традиционная математическая статистика, долгое время претендовавшая на роль основного инструмента анализа данных, откровенно спасовала перед лицом возникших проблем. Главная причина — концепция усреднения по выборке, приводящая к операциям над фиктивными величинами (типа средней температуры пациентов по больнице, средней высоты дома на улице, состоящей из дворцов и лачуг и т.п.). Методы математической статистики оказались полезными главным образом для проверки заранее сформулированных гипотез (verification-driven data mining) и для “грубого” разведочного анализа, составляющего основу оперативной аналитической обработки данных (online analytical processing, OLAP).

  • Традиционная математическая статистика, долгое время претендовавшая на роль основного инструмента анализа данных, откровенно спасовала перед лицом возникших проблем. Главная причина — концепция усреднения по выборке, приводящая к операциям над фиктивными величинами (типа средней температуры пациентов по больнице, средней высоты дома на улице, состоящей из дворцов и лачуг и т.п.). Методы математической статистики оказались полезными главным образом для проверки заранее сформулированных гипотез (verification-driven data mining) и для “грубого” разведочного анализа, составляющего основу оперативной аналитической обработки данных (online analytical processing, OLAP).
  • В основу современной технологии Data Mining (discovery-driven data mining) положена концепция шаблонов (паттернов), отражающих фрагменты многоаспектных взаимоотношений в данных. Эти шаблоны представляют собой закономерности, свойственные подвыборкам данных, которые могут быть компактно выражены в понятной человеку форме. Поиск шаблонов производится методами, не ограниченными рамками априорных предположений о структуре выборке и виде распределений значений анализируемых показателей.
  • OLAP
  • Data Mining
  • Каковы средние показатели травматизма для курящих и некурящих?
  • Встречаются ли точные шаблоны в описаниях людей, подверженных повышенному травматизму?
  • Каковы средние размеры телефонных счетов существующих клиентов в сравнении со счетами бывших клиентов (отказавшихся от услуг телефонной компании)?
  • Имеются ли характерные черты клиентов, которые, по всей вероятности, собираются отказаться от услуг телефонной компании?
  • Какова средняя величина ежедневных покупок по украденной и не украденной кредитной карточке?
  • Существуют ли стереотипные схемы покупок для случаев мошенничества с кредитными карточками?
  • Важное положение Data Mining — нетривиальность разыскиваемых шаблонов. Это означает, что найденные шаблоны должны отражать неочевидные, неожиданные (unexpected) регулярности в данных, составляющие так называемые скрытые знания (hidden knowledge). Таким образом пришло понимание, что сырые данные (raw data) содержат глубинный пласт знаний, при грамотной раскопке которого могут быть обнаружены настоящие самородки.


Достарыңызбен бөлісу:
1   2   3   4   5   6   7   8   9   ...   18




©emirsaba.org 2024
әкімшілігінің қараңыз

    Басты бет