Лекция 3 Data Mining – технология добычи данных Технология Data Mining


Двухмерная таблица "объект-атрибут"



бет4/18
Дата28.04.2023
өлшемі0,87 Mb.
#87620
түріЛекция
1   2   3   4   5   6   7   8   9   ...   18

Двухмерная таблица "объект-атрибут"

  • разведенный
  • в браке

Основные понятия

  • Данные - это необработанный материал, предоставляемый поставщиками данных и используемый потребителями для формирования информации на основе данных.
  • Объект описывается как набор атрибутов. Объект также известен как запись, случай, пример, строка таблицы и т.д.
  • Атрибут - свойство, характеризующее объект. Например: цвет глаз человека, температура воды и т.д. Атрибут также называют переменной, полем таблицы, измерением, характеристикой.
  • Генеральная совокупность (population) - вся совокупность изучаемых объектов, интересующая исследователя.
  • Выборка (sample) - часть генеральной совокупности, определенным способом отобранная с целью исследования и получения выводов о свойствах и характеристиках генеральной совокупности.
  • Параметры - числовые характеристики генеральной совокупности.
  • Статистики - числовые характеристики выборки.
  • Гипотеза - частично обоснованная закономерность знаний, служащая либо для связи между различными эмпирическими фактами, либо для объяснения факта или группы фактов.

Измерение - процесс присвоения чисел характеристикам изучаемых объектов согласно определенному правилу.

  • Измерение - процесс присвоения чисел характеристикам изучаемых объектов согласно определенному правилу.
  • В процессе подготовки данных измеряется не сам объект, а его характеристики.
  • Шкала - правило, в соответствии с которым объектам присваиваются числа. Существует пять типов шкал измерений: номинальная, порядковая, интервальная, относительная и дихотомическая.

Атрибуты

  • Многие инструменты Data Mining при импорте данных из других источников предлагают выбрать тип шкалы для каждой переменной и/или выбрать тип данных для входных и выходных переменных (символьные, числовые, дискретные и непрерывные). Пользователю такого инструмента необходимо владеть этими понятиями.
  • Атрибуты (переменные) могут являться числовыми данными либо символьными.
  • Числовые данные, в свою очередь, могут быть дискретными и непрерывными.
  • Дискретные данные являются значениями признака, общее число которых конечно либо бесконечно, но может быть подсчитано при помощи натуральных чисел от одного до бесконечности.
  • Пример дискретных данных. Продолжительность маршрута троллейбуса (количество вариантов продолжительности конечно): 10, 15, 25 мин.
  • Непрерывные данные - данные, значения которых могут принимать какое угодно значение в некотором интервале. Измерение непрерывных данных предполагает большую точность.
  • Пример непрерывных данных: температура, высота, вес, длина и т.д.


Достарыңызбен бөлісу:
1   2   3   4   5   6   7   8   9   ...   18




©emirsaba.org 2024
әкімшілігінің қараңыз

    Басты бет