И анализ больших данных



Pdf көрінісі
бет7/65
Дата29.12.2023
өлшемі2,33 Mb.
#145048
түріУчебно-методическое пособие
1   2   3   4   5   6   7   8   9   10   ...   65
 
 
Рекомендуемая литература: 
1.
Введение в Data Mining [Электронный ресурс]/Режим доступа: 
http://files.pilotlz.ru/pdf/cB819-2-ch.pdf  
2.
Введение. Основные задачи анализа данных. [Электронный ресурс] / Режим 
доступа: https://edu.kpfu.ru/pluginfile.php/  
3.
Вопросы безопасности BIG DATA. [Электронный ресурс] / Режим доступа: 
 
http://rtbinsight.ru/articles/big-data-security.html 
 
Тема 2 Методики сбора данных 
 
Цель
: провести обзор источников информации и методик анализа для Big Data
 
План
:
2.1 Обзор источников информации для Big Data
2.2 Обзор методик анализа больших данных 
2.3 Методики анализа больших данных 
 
2.1 Обзор источников информации для Big Dat
20 свободных источников данных 

Data.gov 

US Census Bureau 

European Union Open Data Portal 

Data.gov.uk 

The CIA World Factbook 

Healthdata.gov 

NHS Health and Social Care Information Centre 

Amazon Web Services public datasets 

Facebook Graph 

Gapminder 

Google Trends 

Google Finance 

Google Books Ngrams 

National Climatic Data Center 

DBPedia 

Topsy 

Likebutton 


13 

New York Times 

Freebase 

Million Song Data Set 
2.2 Обзор методик анализа больших данных 
Существует множество разнообразных методик анализа массивов данных, в основе 
которых лежит инструментарий, заимствованный из статистики и информатики 
(например, машинное обучение). Список не претендует на полноту, однако в нем 
отражены наиболее востребованные в различных отраслях подходы. При этом следует 
понимать, что исследователи продолжают работать над созданием новых методик и 
совершенствованием существующих. Кроме того, некоторые из перечисленных методик 
вовсе не обязательно применимы исключительно к большим данным и могут с успехом 
использоваться для меньших по объему массивов (например, A/B-тестирование, 
регрессионный анализ). Безусловно, чем более объемный и диверсифицируемый массив 
подвергается анализу, тем более точные и релевантные данные удается получить на 
выходе. 
Рассмотрим наиболее часто используемые методики (таблица 3). 
Таблица 3 - Методики анализа больших данных 
Методика 
Описание методики 
A/B testing 
Методика, ориентированная на поочередное сравнение контрольной 
выборки с другими. При этом выявляется наилучшая комбинация 
показателей, для достижения, скажем, желаемой ответной реакции 
потребителей 
на 
маркетинговое 
предложение. 
Статистическая 
достоверность результата достигается выполнением многочисленных 
итераций. 
Association rule 
learning 
Совокупность методик, направленных на выявление взаимосвязей, или 
ассоциативных правил между переменными величинами в больших 
массивах данных (применяется в Data Mining). 
Classification 
Совокупность методик, позволяющих спрогнозировать поведение 
потребителей в определенном сегменте рынка (применяется в Data 
Mining). 
Cluster analysis 
Метод классификации объектов по группам с выявлением заранее 
неизвестных общих признаков (применяется в Data Mining). 
Crowdsourcing 
Методика сбора данных их большого количества источников. 
Data fusion and data 
integration 
Совокупность методик, ориентированных на анализ комментариев 
пользователей социальных сетей и на сравнение их с результатами продаж 
в режиме реального времени. 
Data mining 
Совокупность методов обнаружения в данных ранее неизвестных, 
нетривиальных, практически полезных и доступных интерпретации 
знаний, необходимых для принятия решений в различных сферах 
человеческой деятельности. С помощью этих методов могут определяться 
категории потребителей, наиболее восприимчивых для продвигаемого 
продукта или услуги, выявляться качества успешных работников, 
прогнозироваться поведенческая модель потребителей.
Ensemble learning 
Метод располагает широким спектром предикативных моделей, что делает 
прогнозирование максимально эффективным. 
Genetic algorithms 
Для данного метода характерно, что возможные решения выступают в 
виде «хромосом», способных комбинироваться и мутировать (по аналогии 


14 
с процессом естественной эволюции выживает лишь наиболее 
адаптировавшаяся особь). 
Machine learning 
Направление, ориентированное на создание алгоритмов самообучения на 
основе эмпирических данных, - искусственный интеллект. 
Natural language 
processing 
Совокупность методик распознавания естественного языка человека, 
заимствованных из информатики и лингвистики. 
Network analysis 
Совокупность методик для анализа связей между узлами в сетях. В 
социальных сетях дает возможность исследовать взаимосвязи между 
отдельными пользователями, компаниями, сообществами и др.
Optimization 
Совокупность численных методов для редизайна сложных систем и 
процессов, направленная на улучшение одного или нескольких 
показателей, поддерживающая принятие стратегических решений. 
Pattern recognition 
Совокупность методик с элементами самообучения для прогнозирования 
поведенческой модели потребителей. 
Predictive modeling 
Совокупность методик, нацеленных на создание математической модели, 
предваряющей заданный вероятный сценарий развития событий.
Regression 
Совокупность статистических методов для обнаружения закономерности 
между изменением зависимой переменной и одной или несколькими 
независимыми. Применяется в прогнозировании и Data Mining. 
Sentiment analysis 
Методика оценки настроений потребителей, основанная на технологии 
распознавания естественного языка человека. Дает возможность выделить 
из общего информационного потока сообщения, относящиеся к 
интересующим предметам, и оценить полярность суждения. 
Signal processing 
Совокупность методик, взятая из радиотехники, направленная на 
распознавание сигнала на фоне шума и его последующий анализ. 
Spatial analysis 
Ряд методик (часть которых заимствована из статистики) анализа 
пространственных данных – топологии местности, географических 
координат, геометрии объектов. В данном случае источником больших 
данных являются геоинформационные системы.
Statistics 
Наука о сборе, организации и интерпретации данных. Статистические 
методы нередко используются для оценочных суждений о взаимосвязях 
между различными событиями. 
Supervised learning 
Совокупность методик, базирующаяся на технологиях машинного 
обучения, для определения функциональных взаимосвязей в исследуемых 
массивах данных. 
Simulation 
Методики моделирования поведения сложных систем, основное 
назначение которых – прогнозирование и проработка возможных 
сценариев при планировании. 
Time series analysis 
Совокупность методов анализа (почерпнутых из статистики и цифровой 
обработки сигналов) повторяющихся последовательностей данных. Как 
правило, применяется для мониторинга рынка ценных бумаг или 
заболеваемости пациентов. 
Unsupervised learning 
Совокупность методик, базирующаяся на технологиях машинного 
обучения, для определения функциональных взаимосвязей в исследуемых 
массивах данных (прослеживается некоторая аналогия с Cluster Analysis). 
Visualization 
Ряд методов графического представления результатов анализа больших 
данных (используется для более легкой их интерпретации).


Достарыңызбен бөлісу:
1   2   3   4   5   6   7   8   9   10   ...   65




©emirsaba.org 2024
әкімшілігінің қараңыз

    Басты бет