24
Задача ORM состоит в управлении трансляцией объектных типов в
записи баз данных и обратно. Основная проблема состоит в том, что объекты
имеют иерархическую структуру, а базы данных – реляционную.
Использование ORM в
проекте избавляет разработчика от
необходимости работы с SQL и написания большого количества кода. Весь
генерируемый ORM код предположительно хорошо проверен, и не нужно
задумываться о его тестировании. Минусом же ORM является потеря
производительности за счет того, что система обрабатывает широкий спектр
сценариев использования данных, гораздо большего, чем любое отдельное
приложение когда-либо сможет использовать.
5.4
Контрольные вопросы
1
Что собой представляет БД?
2
Что такое данные?
3
Как классифицируют типы БД?
4
Что такое запрос?
5
Какие модели данных существуют?
6
Что такое ORM?
7
Основы языка SQL?
8
В
чем заключается оптимизация запросов?
9
Что такое нормализация?
10
Какие требования предъявляются к БД?
6
Лекция № 6. Анализ данных. Управление данными
Цель лекции:
изучить основы
анализа данных.
Содержание лекции:
методы сбора, классификации и прогнозирования.
Деревья решений. Обработка больших объёмов данных.
Методы и стадии
Data Mining. Задачи Data Mining. Визуализация данных.
6.1
Анализ данных
Анализ
данных
–
это
процесс
исследования,
фильтрации,
преобразования и моделирования данных с целью извлечения полезной
информации и принятия решений.
Анализ данных имеет множество аспектов
и подходов, охватывает разные методы в различных областях науки и
деятельности.
Для создания плана сбора данных необходимо:
1)
Определить проблемы и сформулировать цели исследования.
2)
Осуществить предварительное изучение интересующей темы.
3)
Разработать концепции исследования.
25
4)
Произвести детальное планирование исследования.
5)
Произвести отбор источников информации и сбор вторичных данных.
6)
Оценить полученные данные и принять решение, насколько
необходимы первичные данные.
7)
Определить
способ сбора первичных данных: опрос, наблюдение,
эксперимент.
8)
Провести непосредственно сбор первичной информации.
9)
Представить результаты исследования (презентация).
Методы прогнозирования данных делятся на: интуитивные, которые
имеют дело с суждениями и оценками экспертов; формализованные, которые
уже описаны в литературе и на основе которых уже строят модели
прогнозирования.
Деревья решений широко используются в области анализа данных.
Деревья решений
– это способ представления правил в иерархической,
последовательной
структуре,
где
каждому
объекту
соответствует
единственный узел, дающий решение.
Все задачи, которые решает способ дерева, могут быть объединены в
следующие три класса:
Описание данных:
Деревья решений позволяют хранить информацию о
данных в компактной форме, вместо них мы можем хранить дерево решений,
которое содержит точное описание объектов.
Классификация:
Деревья решений отлично справляются с задачами
классификации, т.е. отнесения объектов к одному из
заранее известных
классов. Целевая переменная должна иметь дискретные значения.
Регрессия:
Если целевая переменная имеет непрерывные значения,
деревья решений позволяют установить зависимость целевой переменной от
независимых(входных) переменных. Например, к этому классу относятся
задачи численного прогнозирования (предсказания значений целевой
переменной).
Существует много алгоритмов, которые реализуют деревья решений,
среди них такие, как CART, C4.5, NewId, ITrule, CHAID, CN2 и т.д. Но
наиболее распространены следующие:
CART (Classification and Regression Tree)
– алгоритм построения
бинарного дерева решений – дихотомической классификационной модели.
Каждый узел такого дерева при разбиении имеет только двух потомков.
Алгоритм решает задачи классификации и регрессии.
C4.5
– это алгоритм построения дерева решений, в котором количество
потомков у узла не ограничено.
Достарыңызбен бөлісу: