И анализ больших данных



Pdf көрінісі
бет14/65
Дата29.12.2023
өлшемі2,33 Mb.
#145048
түріУчебно-методическое пособие
1   ...   10   11   12   13   14   15   16   17   ...   65
Байланысты:
BIG дата книга


часть выполняется подолгу в связи со сложным анализом крупных срезов данных. Чтобы 
удовлетворить это требование, архитектуру ПО и данных специально оптимизируют с 
расчетом на то, что время обработки запросов будет варьироваться. Один из передовых 
образцов — система выдачи рекомендаций Netflix, которая способна параллельно 
выполнять быстрые запросы и сложный анализ больших коллекций данных, непрерывно 
улучшая качество генерируемых персональных советов. 
Четвертое требование — высокая доступность. В горизонтально масштабируемых 
средах, состоящих из тысяч узлов, аппаратные и сетевые сбои неизбежны, поэтому 
распределенные архитектуры ПО и данных должны быть устойчивыми. Стандартные 
методы повышения доступности — тиражирование данных между географическими 
регионами, реализация сервисов без сохранения состояния и зависимость механизмов от 
конкретных приложений — позволяют при сбоях продолжать обслуживание, но со 
снижением качества. 


26 
Решения, предназначенные для удовлетворения всех перечисленных требований, 
реализуются на уровне архитектур распределения, данных и развертывания. Например, 
для обеспечения эластичности требуются: платформа выполнения, позволяющая 
резервировать дополнительные вычислительные мощности; политики и механизмы 
запуска и остановки сервисов в случаях изменения нагрузки на приложения; архитектура 
СУБД, продолжающая надежно выполнять запросы при возрастании нагрузки. 
Подобная конвергенция архитектур, необходимая для обеспечения требуемого 
качества, типична для приложений, работающих с Большими Данными. Этот подход 
можно описать как архитектурную модель «4+1» с сильносвязанными процессным, 
логическим и физическим представлениями. 
Пример объединения функциональностей 
В Институте программной инженерии при Университете Карнеги — Меллона 
создается система агрегации данных из множества баз медицинских карт, емкостью в 
десятки петабайт каждая. Чтобы обеспечить высокую масштабируемость и доступность с 
малыми затратами, изучается возможность использовать для агрегации базы NoSQL. Для 
повышения доступности и сокращения задержки при обработке запросов от 
пользователей, находящихся в разных странах, применяются географически 
распределенные ЦОД. 
Рассмотрим требования к консистентности для двух категорий данных — 
демографических сведений о пациентах (имя, страховщик и т. д.) и результатов анализов и 
исследований (рентгеновские снимки и др.). Записи, касающиеся демографии, 
обновляются нечасто, но должны немедленно отражаться там, где была произведена 
модификация (должна соблюдаться непротиворечивость чтения собственных записей), 
при этом допустима задержка отражения обновления в других местах (консистентность в 
конечном счете). Результаты исследований обновляются чаще, причем изменения должны 
немедленно отразиться везде (нужна сильная консистентность) — это необходимо для 
телемедицины и дистанционных консультаций. 


Достарыңызбен бөлісу:
1   ...   10   11   12   13   14   15   16   17   ...   65




©emirsaba.org 2024
әкімшілігінің қараңыз

    Басты бет