13
New York Times
Freebase
Million Song Data Set
2.2 Обзор методик анализа больших данных
Существует множество разнообразных методик анализа массивов данных, в основе
которых лежит инструментарий, заимствованный из статистики и информатики
(например, машинное обучение). Список не претендует на полноту, однако в нем
отражены наиболее востребованные в
различных отраслях подходы. При этом следует
понимать, что исследователи продолжают работать над созданием новых методик и
совершенствованием существующих. Кроме того, некоторые из перечисленных методик
вовсе не обязательно применимы исключительно к большим данным и могут с успехом
использоваться для меньших по объему массивов (например, A/B-тестирование,
регрессионный анализ). Безусловно, чем более объемный и диверсифицируемый массив
подвергается анализу, тем более точные и релевантные данные удается получить на
выходе.
Рассмотрим наиболее часто используемые методики (таблица 3).
Таблица 3 - Методики анализа больших данных
Методика
Описание методики
A/B testing
Методика, ориентированная на поочередное сравнение контрольной
выборки с другими. При этом выявляется наилучшая комбинация
показателей, для достижения, скажем, желаемой ответной реакции
потребителей
на
маркетинговое
предложение.
Статистическая
достоверность результата достигается выполнением многочисленных
итераций.
Association rule
learning
Совокупность методик, направленных на выявление взаимосвязей, или
ассоциативных правил между переменными величинами в больших
массивах данных (применяется в Data Mining).
Classification
Совокупность методик, позволяющих спрогнозировать поведение
потребителей в
определенном сегменте рынка (применяется в Data
Mining).
Cluster analysis
Метод классификации объектов по группам с выявлением заранее
неизвестных общих признаков (применяется в Data Mining).
Crowdsourcing
Методика сбора данных их большого количества источников.
Data fusion and data
integration
Совокупность методик, ориентированных на анализ комментариев
пользователей социальных сетей и на сравнение их с результатами продаж
в режиме реального времени.
Data mining
Совокупность методов обнаружения в данных ранее неизвестных,
нетривиальных, практически полезных и доступных интерпретации
знаний, необходимых для принятия решений в
различных сферах
человеческой деятельности. С помощью этих методов могут определяться
категории потребителей, наиболее восприимчивых для продвигаемого
продукта или услуги, выявляться качества успешных работников,
прогнозироваться поведенческая модель потребителей.
Ensemble learning
Метод располагает широким спектром предикативных моделей, что делает
прогнозирование максимально эффективным.
Genetic algorithms
Для данного метода характерно, что возможные решения выступают в
виде «хромосом», способных комбинироваться и мутировать (по аналогии
14
с
процессом естественной эволюции выживает лишь наиболее
адаптировавшаяся особь).
Machine learning
Направление, ориентированное на создание алгоритмов самообучения на
основе эмпирических данных, - искусственный интеллект.
Natural language
processing
Совокупность методик распознавания естественного языка человека,
заимствованных из информатики и лингвистики.
Network analysis
Совокупность методик для анализа связей между узлами в сетях. В
социальных сетях дает возможность исследовать взаимосвязи между
отдельными пользователями, компаниями, сообществами и др.
Optimization
Совокупность численных методов для редизайна сложных систем и
процессов, направленная на улучшение одного или нескольких
показателей, поддерживающая принятие стратегических решений.
Pattern recognition
Совокупность методик с элементами самообучения для прогнозирования
поведенческой модели потребителей.
Predictive modeling
Совокупность методик, нацеленных на создание математической модели,
предваряющей заданный вероятный сценарий развития событий.
Regression
Совокупность статистических
методов для обнаружения закономерности
между изменением зависимой переменной и одной или несколькими
независимыми. Применяется в прогнозировании и Data Mining.
Sentiment analysis
Методика оценки настроений потребителей, основанная на технологии
распознавания естественного языка человека. Дает возможность выделить
из общего информационного потока сообщения, относящиеся к
интересующим предметам, и оценить полярность суждения.
Signal processing
Совокупность методик, взятая из радиотехники, направленная на
распознавание сигнала на фоне шума и его последующий анализ.
Spatial analysis
Ряд методик (часть которых заимствована из статистики) анализа
пространственных данных – топологии местности, географических
координат, геометрии объектов. В данном случае источником больших
данных являются геоинформационные системы.
Statistics
Наука о сборе,
организации и интерпретации данных. Статистические
методы нередко используются для оценочных суждений о взаимосвязях
между различными событиями.
Supervised learning
Совокупность методик, базирующаяся на технологиях машинного
обучения, для определения функциональных взаимосвязей в исследуемых
массивах данных.
Simulation
Методики моделирования поведения сложных систем, основное
назначение которых – прогнозирование и проработка возможных
сценариев при планировании.
Time series analysis
Совокупность
методов анализа (почерпнутых из статистики и цифровой
обработки сигналов) повторяющихся последовательностей данных. Как
правило, применяется для мониторинга рынка ценных бумаг или
заболеваемости пациентов.
Unsupervised learning
Совокупность методик, базирующаяся на технологиях машинного
обучения, для определения функциональных взаимосвязей в исследуемых
массивах данных (прослеживается некоторая аналогия с Cluster Analysis).
Visualization
Ряд методов графического представления результатов анализа больших
данных (используется для более легкой их интерпретации).
Достарыңызбен бөлісу: