19
3.1 Современные технологии обработки больших данных
С приходом новых технологий, инструментов и средств коммуникаций, таких, как
социальные сети, количество данных, производимых людьми, растет с
каждым годом в
геометрической прогрессии. Соотношение коэффициента полезности при этом
уменьшается. Следовательно, вся генерируемая информация может быть использована
для определенных целей только после предварительной и тщательной обработки.
Термин «Big Data» означает большие работы (коллекции, потоки) данных, которые
не могут быть обработаны традиционными компьютерными техниками. Этот термин
означает не само понятие «большие данные», а предмет исследования, который включает
в себя различные инструменты, техники и платформы.
Большие данные включают в себя информацию, генерируемую различными
системами и приложениями. Некоторые из сфер, которые попадают под определение «Big
Data»:
черный ящик: информационная составляющая часть вертолета, самолета,
морского/космического корабля. Данные подобного рода включают в себя запись голосов
экипажа (микрофоны и наушники), информацию о
характеристиках объекта управления.
социальные медиа: включают данные, распространяемые через социальные
сети;
фондовые биржи: хранение информации о сделках купли-продажи между
копаниями-партнерами;
энергосистемы: подобного рода данные содержат информацию о узлах и
нагрузках энергетической сети;
транспортные системы: модели, характеристики, расстояния - все
информация о транспорте и дорожных сетях;
поисковые системы: инженерный поиск информации различны базах
данных;
Как следствие, термин «Big Data» включает большое объем, высокую скорость
обработки и широкое разнообразие данных и делится на три типа:
структурные данные – реляционные БД;
полуструктурированные данные – XML-файлы;
неструктурированные данные – файлы формата Word, PDF, Text, медиа-
журналы.
Большие данные действительно имеют решающее значение для нашей жизни и
становятся одной из самых важных технологий в современном мире. Например,
использование информации, хранящейся в
социальных сетях, маркетинговые агентства
изучают обратную связь на свои кампании, акции, и другие рекламные носители. В свою
очередь, использую информацию в социальных медиа-системах, таких как предпочтения
и восприятие продукта потребителями, компании и розничные организации планируют
свое производство. Касательно такой сферы, как медицина, применимость данных о
предыдущей истории болезни пациентов способствует обеспечению лучшего и более
быстрого обслуживания.
Большие технологии передачи данных играют важную роль в обеспечении
детального анализа, который
способствует принятию более точных решений, что в свою
очередь приводит к повышению эффективности эксплуатации, снижению затрат и
снижению рисков для бизнеса. Для использования возможностей больших данных
требуется инфраструктура, которая может управлять и обрабатывать огромные объемы
структурированных и неструктурированных данных в реальном времени и может
защитить конфиденциальность и безопасность данных. Существуют различные
технологии на рынке от различных поставщиков, включая такие компании, как Google,
IBM, Microsoft, SAP и др.
20
Структуры хранения
Известно, что эффективные структуры хранения должны иметь иерархическую
организацию. Это позволяет выстроить дерево областей памяти, обладающее
следующими свойствами:
Области нижнего уровня образуют область верхнего уровня.
Области
каждого
уровня
имеют
специфические
особенности,
предназначенные для решения проблем, с которыми не удается справиться на других
уровнях.
На каждом уровне области, как правило, имеют несколько параметров,
позволяющих оптимизировать их работу в
зависимости от назначения.
Заметим, что терминология, применяемая в различных базах данных, различается
существенно. Наша терминосистема ближе всего к применяемой в СУБД Oracle.
В типичном случае (рисунок 3) база данных состоит из
одного или нескольких
табличных пространств. Каждое такое пространство строится на одном или нескольких
файлах данных.
Рисунок 3 -
Структуры базы данных
В одно табличное пространство стараются помещать объекты с одинаковым
поведением. Например, для словаря базы можно выделить отдельное табличное
пространство, обычно называемое системным. Пользовательские данные желательно
помещать отдельно от словаря. Это уменьшит вероятность сбоя. Для индексов следует
иметь свои табличные пространства. В
некоторых СУБД можно отключать отдельные
табличные пространства или делать их доступными только по чтению. Типичный пример
— табличные пространства для хранения больших объемов очень редко меняющейся
справочной информации. Для больших сортировок можно создавать временные
табличные пространства, в которых объем данных может резко увеличиваться в размере и
так же быстро уменьшаться.
Администратор должен выбрать состав, размеры табличных пространств и
определить могут ли они расширяться, и какими порциями им будет предоставляться
свободное пространство дисковой памяти.
21
Табличные пространства состоят из сегментов, содержащих хранимые объекты
базы, например, таблицы, индексы, кольцевые буферы отката. Каждому такому объекту
положено иметь свой сегмент, куда нет доступа данным других хранимых объектов.
Сегменты состоят из экстентов, представляющих наборы блоков данных базы,
расположенных на диске непрерывно. Это ускоряет операции с блоками данных,
входящими в состав экстента. Можно, например, при работе с любым элементом данных,
читать сразу весь экстент, в надежде, что эти данные скоро понадобятся. Нетрудно
догадаться, что сегмент увеличивается или уменьшается на целое число экстентов.
Блок базы, в
другой терминологии — страница, — это минимальная единица
хранения, которой база данных обменивается с диском. Блок базы образуется из
нескольких блоков операционной системы.
Можно задаться вопросом — а почему не использовать блоки операционной
системы в качестве блоков данных базы? Дело в том, что современные операционные
системы стараются оптимизировать под целый ряд программ, для которых достаточно
небольших блоков. Так что добавление больших блоков базы размером до 64 Кбайт,
оптимальных для баз данных, неизбежно.
Можно выделить два режима работы базы данных. В первом режиме OLTP (Online
Transaction Processing) информационная система использует большой поток транзакций,
работающих с небольшими объемами данных.
Обычно это ввод первичных данных, их сохранение и не слишком сложная
обработка информации.
Режим OLAP (Online Analytical Processing) используется аналитиками для
подготовки сложных отчетов, для
анализа информации. Связан с небольшим количеством
транзакций, перерабатывающих большие объемы данных.
Установлено, что для работы в режиме OLTP, когда исполняется много
сравнительно коротких транзакций, предпочтительнее небольшие блоки размером в 4-12
Кбайт. В режиме OLAP, когда исполняется сравнительно небольшое число длящихся
долго транзакций, предпочтительнее блоки больших размеров.
Достарыңызбен бөлісу: