376 Информационные технологии Даже учитывая, то что неструктурированная база данных оп-
тимизирована для крупномасштабного использования, она не
может обеспечивать связь между объектами данных.
4. Фабрика данных
Фабрика данных (Data Fabric) может быть определена как
интегрированный уровень связанных данных, который прини-
мается и нормализуется из источников данных предприятия —
независимо от формата данных, технологии или исходной си-
стемы. Он хранит обработанные данные в своем собственном
хранилище данных, доставляя их в хранилища больших
данных, приложениям-потребителям и механизмам принятия
решений AI/ML/в реальном времени — по запросу. Data Fabric
возникла на фоне активного применения данных крупными
предприятиями в условиях стандартных ограничений, касаю-
щихся управленческих процессов.
Современные Data Fabric позволяют эффективно справ-
ляться с основными задачами в плане хранения и обра-
ботки невзаимосвязанной информации. При помощи Data
Fabric такую информацию стало легче искать, обрабатывать,
структурировать и интегрировать с другими системами IT-
инфраструктуры.
Далее приведены сильные и слабые стороны фабрики
данных по сравнению с озером данных, а также реляционными
и нереляционными базами данных.
1. Озеро данных
Сильные стороны: поддержка сложных запросов данных
для структурированных и неструктурированных данных.
Слабые стороны: нет поддержки запросов с одним объ-
ектом, что приводит к медленному времени отклика; нет под-
держки оперативных данных, поэтому данные, которые необ-
ходимо постоянно обновлять, ненадежны или доставляются
с неприемлемо медленным временем отклика.
2. Реляционная база данных
Сильные стороны: поддержка SQL, широкое внедрение
и простота использования.
Слабые стороны: нелинейная масштабируемость, требу-
ющая дорогостоящего оборудования для выполнения сложных
запросов к терабайтам данных почти в реальном времени; вы-
сокая степень параллелизма, что приводит к неприемлемо мед-
ленному времени отклика.
3. База данных NoSQL
Сильные стороны: распределенная архитектура хранилища
данных с поддержкой линейной масштабируемости.
Слабые стороны: нет поддержки SQL, нужны специальные
навыки; чтобы поддерживать запросы данных, необходимо
предопределить индексы или внедрить сложную логику прило-
жения, что затрудняет гибкость разработки и сокращает время
выхода на рынок.
4. Фабрика данных
Сильные стороны: полная поддержка SQL; распределенная
архитектура хранилища данных с поддержкой линейной мас-
штабируемости; поддержка высокого параллелизма с высокой
производительностью; поддержка сложных запросов для от-
дельных бизнес-объектов.
Слабые стороны: нет встроенной поддержки запросов к не-
скольким микробазам данных, но Elasticsearch (высокомасшта-
бируемая распределенная поисковая система полнотекстового
поиска и анализа данных с веб-интерфейсом) удовлетвори-
тельно решает эту проблему.
Выводы При сравнении фабрики данных и озера данных очевидно,
что предпочтительной архитектурой для оперативных сце-
нариев использования в реальном времени является фабрика
данных. Но решения фабрики данных и озера данных в дей-
ствительности дополняют друг друга в том смысле, что фабрика
данных может подготавливать достоверные данные для озер
данных, а озера данных могут предоставлять оперативную ана-
литику фабрике данных для незамедлительного использования.
Литература:
1. Элис Лаплант. Data Fabric as Modern Data Architecture // O’Reilly Media, 2021, С. 40.
2. Джон Келлехер, Брендан Тирни. Наука о данных: базовый курс. // Издание на русском языке, перевод, оформление.
ООО «Альпина Паблишер», 2020, С. 19.
3. Data Fabric: что это такое и зачем вам это нужно?// https://dzone.com/
4. Благирев А. Big data простым языком //А. Благирев — «Издательство АСТ», 2019 — (Бизнес-бук), С. 38.
5. Алан Р. Саймон. Data Lakes For Dummies // Издательство Wiley, 2021, С. 327.