По определению оксфордского словаря, Big Data (дословно – «большие данные»), данные – это величины, знаки или символы, которыми оперирует компьютер и которые могут храниться и передаваться в форме электрических сигналов, записываться на магнитные, оптические или механические носители.
Термин «Big Data» используется для описания большого и растущего экспоненциально со временем набора данных. Для обработки такого количества данных не обойтись без машинного обучения.
До недавнего времени данные были ограничены электронными таблицами или базами данных – и все было очень упорядоченно и аккуратно. Все то, что нельзя было легко организовать в строки и столбцы, расценивалось как слишком сложное для обработки и игнорировалось. Однако прогресс в области хранения аналитической информации означает, что мы можем фиксировать, хранить и обрабатывать большое количество данных различного типа. В результате «данные» на сегодняшний день могут означать что угодно, начиная с баз данных и заканчивая фотографиями, видео, звукозаписями, письменными текстами и данными датчиков. Этот постоянно увеличивающийся поток информации означает, что мы можем использовать данные теми способами, которые невозможно было представить еще несколько лет назад. Сегодня компании могут с невероятной точностью предсказать, какие конкретные категории клиентов захотят сделать покупку и когда. Big Data помогает компаниям выполнять свою деятельность намного эффективнее.
Термин используется в сферах, где актуальна работа с количественно большими объемами данных, где постоянно происходит увеличение скорости потока данных в организационный процесс: в экономике, банковской деятельности, производстве, маркетинге, телекоммуникациях, web-аналитике, медицине и др.
К примеру, Нью-Йоркская Фондовая Биржа ежедневно генерирует 1 терабайт данных о торгах за каждую сессию.