375 Information Technology 11. Официальный сайт «VS.ru» [Электронный ресурс] URL: https://vc.ru/services/279359-miro-iz-permi-rastet-v-.. (дата обра-
щения 1.03.2022)
12. Официальный сайт «РБК» [Электронный ресурс] URL: https://quote.rbc.ru/news/article/61d5aa119a79473dcf6.. (дата обра-
щения 20.02.2022)
13. Красноруцкая Ю. Н. Выход России на мировые рынки наукоемкой продукции и высоких технологий: монография. — М.:
Юристъ, 2009. — 88 с.
Сравнительный анализ архитектур данных Data Fabric и Data Lake применительно к оперативным сценариям Шихвеледова Татьяна Абдулманафовна, старший преподаватель;
Саидбегова Асият Гусейновна, старший преподаватель;
Сеферова Зарина Агабалаевна, старший преподаватель
Дагестанский государственный университет народного хозяйства (г. Махачкала)
В этой статье основное внимание будет уделено тому, какое хранилище больших данных является наиболее подходящим для крупномасштабных оперативных сценариев использования в режиме реального времени — фабрика данных (Date Fabric) или озеро данных (Date Lake). Также будут рассмотрены хранилища данных, а также реляционные и нереляционные системы управления ба- зами данных. Ключевые слова: хранилища данных, реляционные базы данных, фабрика данных, озеро данных, СУБД. П
редприятия, интенсивно использующие данные, сталки-
ваются с широким спектром сценариев использования
в реальном времени, требующих масштабной и высокоско-
ростной архитектуры данных, способной поддерживать мил-
лионы одновременных транзакций. Например:
— 360-градусный обзор клиента из множества различных
устаревших систем;
— прогноз оттока;
— кредитный скоринг (используемая банками система
оценки клиентов, в основе которой заложены статистические
методы. Как правило, это компьютерная программа, куда вво-
дятся данные потенциального заемщика. В ответ выдается ре-
зультат — стоит ли предоставлять ему кредит);
— предотвращение мошенничества;
— безопасность транзакций по платежным картам и многое
другое.
Для оперативных вариантов использования требуется плат-
форма больших данных, способная выполнять сложные за-
просы данных за миллисекунды при работе с:
— оперативными данными, которые постоянно обновля-
ются из операционных систем (миллионы или миллиарды об-
новлений каждый день);
— терабайтами фрагментированных данных, охваты-
вающих множество разных баз данных или таблиц, обычно
в разных форматах и технологиях;
— конкретными экземплярами бизнес-объекта, например,
отдельный клиент, продукт, местоположение и т. д.;
— высоким параллелизмом, представляющим тысячи за-
просов в секунду.
Сегодня наиболее часто применяемые варианты хранения,
которым доверяют команды обработки данных, это:
1. Озеро данных(Date Lake)
Озеро данных — это набор экземпляров хранилища раз-
личных активов данных. Эти активы хранятся и поддержива-
ются как точная или почти точная копия структурированного
или неструктурированного исходного формата — в дополнение
к исходным хранилищам данных. Озера данных становятся
все более жизнеспособным решением для извлечения нужной,
ценной информации из больших данных на уровне предпри-
ятия. Гибкость, оперативность и безопасность, связанные со
структурированными, неструктурированными и историче-
скими данными, которые в свободном доступе в отдельных ло-
гических зонах, предоставляют компаниям массу возможно-
стей для модификации.
2. Хранилища данных (ХДД)
Хранилище данных имеет отношение к архитектуре храни-
лища, предназначенной для хранения данных, извлеченных из
оперативных хранилищ данных, систем транзакций и внешних
источников. Оно объединяет данные в агрегированную форму,
пригодную для анализа данных и отчетности в масштабах всего
предприятия.
3. Системы управления базами данных (СУБД)
Система управления базами данных хранит и организует
данные в определенных форматах и структурах. СУБД класси-
фицируется по своей базовой структуре и по способу использо-
вания или развертывания.
— Реляционная СУБД, которая обычно включает в себя ин-
терфейс программирования приложений языка структуриро-
ванных запросов (SQL), основана и доступна через отношения
между объектами данных.
— Нереляционная (NoSQL) СУБД часто применяется
в больших данных и веб-приложениях реального времени.