Лабораторная работа №1 «Обнаружение значимых корреляций» Данные по виду можно подразделить на числовые и категориальные. Числовые данные (Numerical Data) – это данные, характеризующие состояние какого-либо параметра изучаемого объекта. Наиболее часто такие данные бывают представлены вещественными числами. Примерами числовых данных являются заработная плата, население страны, артериальное давление, температура воздуха. Категориальные данные (Categorical Data) – это данные, образующие признак принадлежности к какой-либо группе. Примерами категориальных данных являются экзаменационная оценка, цвет автомобиля, уровень образования человека. В фрагменте набора данных по маркетинговой кампании в банке поля Age и Balance являются числовыми, а поля Job, Marital, Education и Housing – категориальными
Источники данных В настоящее время в открытом доступе есть большое количество баз данных, содержащих самые разнообразные сведения. Так, самым большим источником данных по разнообразным показателям стран мира в целом можно считать базу данных Всемирного банка, содержащую годовые значения 331 показателя стран мира за период с 1960 по 2014 годы в форматах HTML, XLS и XML. По состоянию на 23 декабря 2015 года самым большим источником открытых данных по Российской Федерации является «Портал открытых данных Российской Федерации», содержащий более 4,1 тыс. наборов данных. Предполагается, что предоставление свободного доступа к отдельным данным может способствовать повышению качества государственного, регионального и муниципального управления. Принцип открытости получил отдельное название – «открытые данные» (Open Data). В Российской Федерации концепция открытых данных упоминается в Федеральном законе «Об информации, информационных технологиях и о защите информации». Также большой объем открытых статистических данных содержится в банке данных Федеральной службы государственной статистики.
Сбор данных – процесс формирования структурированного набора данных в цифровой форме. В некоторых случаях процесс сбора данных может включать также этап оцифровки. Как правило, оцифрованные данные бывают представлены в виде:
– электронных таблиц в форматах XLS либо ODS;
– текстовых файлов в формате CSV;
– веб-страниц в формате HTML;
– файлов в формате XML;
– базы данных с доступом по технологии JSON либо через специализированный интерфейс (API).
Автоматизированный сбор данных В случаях, когда источники данных структурированы и представлены в сети Интернет, возможна реализация автоматизированного сбора данных. Программное обеспечение Microsoft Excel имеет специальное средство для сбора данных, в том числе из сети Интернет
Подготовка данных Для использования в системах анализа данные должны быть представлены в определенном, как правило, табличном виде. Однако зачастую наборы данных имеют следующие особенности:
– отличную от табличной форму представления;
– пропуски отдельных данных;
– некорректные значения;
– большие числовые значения;
– текстовые данные.
Перечисленные особенности могут либо привести к затруднениям в процессе дальнейшей обработки данных, либо сделать ее невозможной. Для устранения отмеченных несоответствий могут быть применены следующие операции:
– структурирование – приведение данных к табличному (матричному) виду;
– отбор – исключение записей с отсутствующими или некорректными значениями;
– нормализация – приведение числовых значений к определенному диапазону, например к диапазону 0...1;
– кодирование – это представление категориальных данных в числовой форме. Например, при бинарной классификации один из классов можно представить числом «0», а другой класс – числом «1». При множественной классификации система кодирования несколько усложняется: создается несколько числовых полей по количеству классов в выборке данных, каждый класс кодируется проставлением числа «1» в соответствующем поле