25
Особенности приложений для работы с большими данными
Приложения работы с Большими Данными проникают во многие области, и одна
из них — аэронавигация. Современные коммерческие авиалайнеры генерируют по 500
Гбайт операционных данных за рейс, необходимых для диагностики неполадок в
реальном времени, оптимизации расходов топлива и прогнозирования потребностей в
ремонтно-техническом обслуживании. Для повышения безопасности и снижения затрат
авиакомпаниям необходимо создавать масштабируемые системы с целью регистрации
данных, их
анализа и управления ими.
Еще одна область — здравоохранение, где, по некоторым оценкам, средства
анализа Больших Данных могли бы принести экономию 450 млрд долл. (данные для
США. — Прим. перев.). Анализ петабайтов данных по пациентам, накапливаемых в
страховых компаниях, медицинских учреждениях и клинических исследованиях, поможет
снизить затраты за счет повышения результативности лечения. Кроме того, аналитические
системы позволят получать новые знания, помогающие в
лечении и предотвращении
заболеваний.
Для всех систем работы с Большими Данными характерны четыре общих
требования, которые нужно учитывать при проектировании и которые в совокупности
вынуждают существенно отклониться от архитектуры традиционных бизнес-систем,
имеющих ограничения на рост объема данных и
функциональности.
Во-первых, системы Больших Данных, от сайтов социальных СМИ до датчиков в
энергосетях, должны справляться с большим объемом операций записи. Поскольку запись
затратнее,
чем
считывание,
можно
пользоваться
сегментированием
данных
(секционированием и распределением), чтобы разделять операции записи между
накопителями, а для обеспечения высокой доступности можно прибегать к
тиражированию. Однако операции сегментирования и тиражирования создают проблемы
с доступностью и консистентностью, которые надо как-то компенсировать.
Второе требование — способность справляться с переменной нагрузкой. Уровень
загрузки в коммерческих и государственных системах может сильно варьироваться:
распродажи, экстренные ситуации, сдача налоговых деклараций и т. п. Чтобы избежать
затрат на резервные ресурсы на случай подобных эпизодических скачков, облачные
платформы делаются эластичными, позволяя приложениям подключать новые ресурсы
для распределения нагрузки и высвобождать их, когда уровень загруженности падает. Для
эффективного использования этого механизма нужны архитектуры, способные
распознавать скачки нагрузки на различные приложения, быстро добавлять новые
ресурсы и высвобождать их по мере необходимости.
Третье требование — возможность выполнения аналитики с
большим объемом
вычислений. Большинство систем Больших Данных должны справляться с
комбинированными рабочими задачами, когда часть запросов требует быстрого ответа, а
Достарыңызбен бөлісу: