Социальные медиа: статистика показывает, что в базы данных Facebook ежедневно загружается 500 терабайт новых данных, которые генерируются в основном благодаря загрузкам фото и видео на серверы данной социальной сети, обмену сообщениями, комментариям под постами и так далее.
Во время полета реактивный двигатель генерирует 10 терабайт данных каждые 30 минут. Так как ежедневно совершаются тысячи перелетов, то объем данных достигает петабайтов.
Вместе со стремительным накоплением информации быстрыми темпами развиваются и технологии анализа данных. Если еще несколько лет назад было возможно, кажем, лишь сегментировать клиентов на группы со схожими предпочтениями, то теперь возможно строить модели для каждого клиента в режиме реального времени, анализируя, например, его перемещения по сети Интернет для поиска конкретного товара.
Интересы потребителя могут быть проанализированы, в соответствии с построенной моделью выведена подходящая реклама или конкретные предложения. Модель также может настраиваться и перестраиваться в режиме реального времени, что было немыслимо еще несколько лет назад.
Большие данные различаются по объему, скорости генерации, разнообразию и изменчивости. Рассмотрим эти характеристики подробнее.
1. Объем. Сам по себе термин Big Data связан с большим размером. Размер данных – важнейший показатель при определении возможной извлекаемой ценности. 6 миллионов людей ежедневно используют цифровые медиа, что, по предварительным оценкам, генерирует 2.5 квинтиллиона байт данных. Поэтому объем – первая характеристика для рассмотрения.
2. Разнообразие. Этот аспект характеризуют гетерогенные источники и природу данных, которые могут быть как структурированными, так и неструктурированными. Раньше электронные таблицы и базы данных были единственными источниками информации, рассматриваемыми в большинстве приложений. Сегодня же данные в форме электронных писем, фото, видео, PDF-файлов и аудио также рассматриваются в аналитических приложениях. Такое разнообразие неструктурированных данных приводит к проблемам при сборе, хранении и анализе: 27% компаний не уверен, что работают с подходящими данными.
Достарыңызбен бөлісу: |