Утепбергенов И.Т. – Алматинский университет энергетики и связи (г. Алматы,
Казахстан)
Ескендирова Д.М. – Казахский национальный технический университет имени
К.Сатпаева (г. Алматы, Казахстан)
АНАЛИЗ И ОБРАБОТКА БОЛЬШИХ ДАННЫХ
Из названия можно предположить, что термин `большие данные` относится просто
к управлению и анализу больших объемов данных. Согласно отчету McKinseyInstitute
«Большие данные: новый рубеж для инноваций, конкуренции и производительности»
(Bigdata:Thenextfrontierforinnovation,
competitionandproductivity),
термин
«большие
данные» относится к наборам данных, размер которых превосходит возможности
МАТЕРИАЛЫ МЕЖДУНАРОДНОЙ НАУЧНО-ПРАКТИЧЕСКОЙ КОНФЕРЕНЦИИ,
ПОСВЯЩЕННОЙ 135-ЛЕТИЮ М. ТЫНЫШПАЕВА
ТРАНСПОРТ В XXI ВЕКЕ: СОСТОЯНИЕ И ПЕРСПЕКТИВЫ
_____________________________________________________________________________
442
типичных баз данных (БД) по занесению, хранению, управлению и анализу информации.
И мировые репозитарии данных, безусловно, продолжают расти. В представленном в
середине 2011 г. отчете аналитической компании IDC `Исследование цифровой
вселенной` (DigitalUniverseStudy), подготовку которого спонсировала компания EMC,
предсказывалось, что общий мировой объем созданных и реплицированных данных в
2011-м может составить около 1,8 зеттабайта (1,8 трлн. гигабайт) — примерно в 9 раз
больше того, что было создано в 2006-м [1].
Принято считать, что современные программные инструменты не в состоянии
оперировать такими объемами в рамках разумных временных промежутков. Очевидно,
диапазон значений таких объемов носит весьма условный характер и имеет тенденцию к
увеличению в большую сторону, поскольку вычислительная техника непрерывно
совершенствуется и становится все более доступной. В частности, Gartner рассматривает
«большие данные» сразу в трех плоскостях – роста объемов, роста скорости обмена
данными и увеличения информационного разнообразия [1].
Основной особенностью используемых в рамках концепции больших данных
подходов является возможность обработки информационного массива целиком для
получения более достоверных результатов анализа. Прежде приходилось полагаться на
так называемую репрезентативную выборку или подмножество информации. Закономерно
погрешности при таком подходе были заметно выше. Кроме того, такой подход требовал
затрат определенного количества ресурсов на подготовку данных для анализа и
приведение их к требуемому формату.
Тем не менее «большие данные» предполагают нечто большее, чем просто анализ
огромных объемов информации. Проблема не в том, что организации создают огромные
объемы данных, а в том, что большая их часть представлена в формате, плохо
соответствующем традиционному структурированному формату баз данных, — это веб-
журналы, видеозаписи, текстовые документы, машинный код или, например,
геопространственные данные. Всѐ это хранится во множестве разнообразных хранилищ,
иногда даже за пределами организации. В результате корпорации могут иметь доступ к
огромному объему своих данных и не иметь необходимых инструментов, чтобы
установить взаимосвязи между этими данными и сделать на их основе значимые выводы.
Добавьте сюда то обстоятельство, что данные сейчас обновляются все чаще и чаще, и вы
получите ситуацию, в которой традиционные методы анализа информации не могут
угнаться за огромными объемами постоянно обновляемых данных, что в итоге и
открывает дорогу технологиям больших данных.
В сущности понятие больших данных подразумевает работу с информацией
огромного объема и разнообразного состава, весьма часто обновляемой и находящейся в
разных источниках в целях увеличения эффективности работы, создания новых продуктов
и повышения конкурентоспособности. Консалтинговая компания Forrester дает краткую
формулировку: `Большие данные объединяют техники и технологии, которые извлекают
смысл из данных на экстремальном пределе практичности`.
Источников больших данных в современном мире великое множество. В их
качестве могут выступать непрерывно поступающие данные с измерительных устройств,
события от радиочастотных идентификаторов, потоки сообщений из социальных сетей,
метеорологические данные, данные дистанционного зондирования земли, потоки данных
о местонахождении абонентов сетей сотовой связи, устройств аудио- и видеорегистрации.
Собственно,
массовое
распространение
перечисленных
выше
технологий и
принципиально новых моделей использования различно рода устройств и интернет-
МАТЕРИАЛЫ МЕЖДУНАРОДНОЙ НАУЧНО-ПРАКТИЧЕСКОЙ КОНФЕРЕНЦИИ,
ПОСВЯЩЕННОЙ 135-ЛЕТИЮ М. ТЫНЫШПАЕВА
ТРАНСПОРТ В XXI ВЕКЕ: СОСТОЯНИЕ И ПЕРСПЕКТИВЫ
_____________________________________________________________________________
443
сервисов послужило отправной точкой для проникновения больших данных едва ли не во
все сферы деятельности человека. В первую очередь, научно-исследовательскую
деятельность, коммерческий сектор и государственное управление.
На рисунке 1 показан рост объемов данных (слева) на фоне вытеснения аналоговых
средств хранения (справа). Источник: Hilbert and López, `The world’s technological capacity
to store, communicate, and compute information,`Science, 2011Global.
Рисунок 1. Рост объемов данных
Несколько занимательных и показательных фактов:
В 2010 году корпорации мира накопили 7 экзабайтов данных, на наших домашних
ПК и ноутбуках хранится 6 экзабайтов информации.
Всю музыку мира можно разместить на диске стоимостью 600 долл.
В 2010 году в сетях операторов мобильной связи обслуживалось 5 млрд телефонов.
Каждый месяц в сети Facebook выкладывается в открытый доступ 30 млрд новых
источников информации.
Ежегодно объемы хранимой информации вырастают на 40%, в то время как
глобальные затраты на ИТ растут всего на 5%.
По состоянию на апрель 2011 года в библиотеке Конгресса США хранилось 235
терабайт данных.
Американские компании в 15 из 17 отраслей экономики располагают большими
объемами данных, чем библиотека Конгресса США.
Мировой рынок решений для обработки больших данных (BigData) вырастет почти
в 7 раз до 20 млрд евро в 2016 году по сравнению с 3 млрд евро в 2010 году, к таким
выводам пришли аналитики PAC в исследовании, опубликованном в конце сентября 2012
года.
Согласно данным агентства, ежегодный рост рынка составит около 38% с 2010 года по
2016 год. Популярность BigData объясняется аналитиками тем, что сегмент позволяет
пользоваться расширенным функционалом, не требуя при этом дополнительных
специализированных навыков, в то время, как подобный ему, сегмент системной
интеграции (SI), уже требует иной уровень подхода к работе.
МАТЕРИАЛЫ МЕЖДУНАРОДНОЙ НАУЧНО-ПРАКТИЧЕСКОЙ КОНФЕРЕНЦИИ,
ПОСВЯЩЕННОЙ 135-ЛЕТИЮ М. ТЫНЫШПАЕВА
ТРАНСПОРТ В XXI ВЕКЕ: СОСТОЯНИЕ И ПЕРСПЕКТИВЫ
_____________________________________________________________________________
444
"Мы видим большой интерес к BigData со стороны многих компаний, работающих
с большим объемом неструктурированной информации, как то, журналы, аналитические
компании", - говорит главный аналитик направления Software PAC Филипп Карнелли.
"При этом есть несколько факторов, которые пока сдерживают рост рынка".
По мнению аналитика, BigData может существенно облегчить и улучшить работу
потребительски-ориентированных компаний в различных областях: телекоммуникации,
банки, розница. Эти компании смогут собирать и обрабатывать данные из социальных
сетей и иных источников, связанных с их бизнесом.
Филипп Карнелли отмечает, что вместе с ростом спроса на BigData, общие затраты
компаний на развитие подобных проектов снижаются за счет того, что компетентных
специалистов становится больше. "Существует нечто вроде компромисса между
дешевыми инструментами, требующими последующей дорогой отладки, и более
надежными и простыми в использовании инструментами, которые стоят больше, но в
целом, затраты на развертывание проектов снижаются", - сказал он.
Ряд компаний практически одновременно объявили о скором выходе коробочного
варианта BigData (Microsoft, IBM, Teradata, Oracle, SAP). Такие инструменты, по
мнению PAC, будут способствовать развитию рынка BigData. "Их деятельность помогает
"одобрить" проекты Big Data даже для более консервативных или менее технически
продвинутых компаний, предоставляя новые варианты", - продолжил Карнелли. "Еще
более важно, что появился новый класс предложений - "данные-как-услуга", от Google и
других. Это делает выход на рынок BigData гораздо более простым".
Сама по себе концепция «больших данных» не нова, она возникла во времена
мэйнфреймов и связанных с ними научных компьютерных вычислений. Как известно,
наукоемкие вычисления всегда отличались сложностью и обычно неразрывно связаны с
необходимостью обработки больших объемов информации.
Вместе с тем, непосредственно термин «большие данные» появился в
употреблении относительно недавно. Он относится к числу немногих названий, имеющих
вполне достоверную дату своего рождения — 3 сентября 2008 года, когда вышел
специальный номер старейшего британского научного журнала Nature, посвященный
поиску ответа на вопрос «Как могут повлиять на будущее науки технологии,
открывающие возможности работы с большими объемами данных?». Специальный номер
подытоживал предшествующие дискуссии о роли данных в науке вообще и в электронной
науке (e-science) в частности [1].
Можно выявить несколько причин, вызвавших новую волну интереса к большим
данным. Объемы информации растут по экспоненциальному закону и ее львиная доля
относится к неструктурированным данным. Другими словами, вопросы корректной
интерпретации информационных потоков становятся все более актуальными и
одновременно сложными. Реакция со стороны ИТ-рынка последовала незамедлительно –
крупные игроки приобрели наиболее успешные узкоспециализированные компании и
начали развивать инструменты для работы с большими данными, количество
соответствующих стартапов и вовсе превосходит все мыслимые ожидания.
Наряду с ростом вычислительной мощности и развитием технологий хранения
возможности анализа больших постепенно становятся доступными малому и среднему
бизнесу и перестают быть исключительно прерогативой крупных компаний и научно-
исследовательских центров. В немалой степени этому способствует развитие облачной
модели вычислений.
МАТЕРИАЛЫ МЕЖДУНАРОДНОЙ НАУЧНО-ПРАКТИЧЕСКОЙ КОНФЕРЕНЦИИ,
ПОСВЯЩЕННОЙ 135-ЛЕТИЮ М. ТЫНЫШПАЕВА
ТРАНСПОРТ В XXI ВЕКЕ: СОСТОЯНИЕ И ПЕРСПЕКТИВЫ
_____________________________________________________________________________
445
Впрочем, с дальнейшим проникновением ИТ в бизнес-среду и повседневную жизнь
каждого из нас подлежащие обработке информационные потоки продолжают непрерывно
расти. И если сегодня большие данные – это петабайты, завтра придется оперировать с
экзабайтами и т.д. Очевидно, что в обозримой перспективе инструменты для работы с
такими гигантскими массивами информации все еще будут оставаться чрезмерно
сложными и дорогими.
Согласно исследованию Accenture (осень 2014 года), 60% компаний уже успешно
завершили как минимум один проект, связанный с большими данными. Подавляющее
большинство (92%) представителей этих компаний оказалось довольно результатом, а
89% заявили, что большие данные стали крайне важной частью преобразования их
бизнеса. Среди остальных опрошенных 36% не задумывались о внедрении данной
технологии, а 4% пока не закончили свои проекты.
В исследовании Accenture приняло участие более 1000 руководителей компаний из
19 стран мира. В основу исследования PwC легли данные опроса EconomistIntelligenceUnit
среди 1135 респондентов по всему миру.
Среди главных преимуществ больших данных опрошенные назвали «поиск новых
источников дохода» (56%), «улучшение опыта клиентов» (51%), «новые продукты и
услуги» (50%) и «приток новых клиентов и сохранение лояльности старых» (47%). При
внедрении новых технологий многие компании столкнулись со схожими проблемами. Для
51% камнем преткновения стала безопасность, для 47% — бюджет, для 41% — нехватка
необходимых кадров, а для 35% — сложности при интеграции с существующей системой.
Практически все опрошенные компании (около 91%) планируют в скором времени решать
проблему с нехваткой кадров и нанимать специалистов по большим данным.
Компании оптимистично оценивают будущее технологий больших данных. 89%
считают, что они изменят бизнес столь же сильно, как и интернет. 79% респондентов
отметили, что компании, которые не занимаются большими данными, потеряют
конкурентное преимущество.
Впрочем, опрошенные разошлись во мнении о том, что именно стоит считать
большими данными. 65% респондентов считают, что это «большие картотеки данных»,
60% уверены, что это «продвинутая аналитика и анализ», а 50% — что это «данные
инструментов визуализации»[2].
Если производительность современных вычислительных систем за несколько
десятилетий выросла на многие порядки и не идет ни в какое сравнение с первыми
персональными ПК образца начала 80-х гг. прошлого столетия, то с системами хранения
данных дела обстоят гораздо хуже. Безусловно, доступные объемы многократно
увеличились (впрочем, они по-прежнему в дефиците), резко снизилась стоимость
хранения информации в пересчете на бит (хотя готовые системы по-прежнему слишком
дорогие), однако скорость извлечения и поиска нужной информации оставляет желать
лучшего.
Если не брать в рассмотрение пока еще слишком дорогие и не вполне надежные и
долговечные флэш-накопители, технологии хранения информации не очень далеко ушли
вперед. По-прежнему приходится иметь дело с жесткими дисками, скорость вращения
пластин которых даже в самых дорогих моделях ограничена на уровне 15 тыс. об./мин.
Коль скоро речь идет о больших данных, очевидно, немалое их количество (если не
подавляющее) размещается на накопителях со скоростью вращения шпинделя 7,2 тыс.
об./мин.
МАТЕРИАЛЫ МЕЖДУНАРОДНОЙ НАУЧНО-ПРАКТИЧЕСКОЙ КОНФЕРЕНЦИИ,
ПОСВЯЩЕННОЙ 135-ЛЕТИЮ М. ТЫНЫШПАЕВА
ТРАНСПОРТ В XXI ВЕКЕ: СОСТОЯНИЕ И ПЕРСПЕКТИВЫ
_____________________________________________________________________________
446
Обозначенная проблема лежит на поверхности и хорошо знакома ИТ-директорам
компаний. Впрочем, она далеко не единственная:
Казахский национальный технический университет имени К.Сатпаева, Казахстан, г. Алматы
Рисунок 2. Рост вычислительной мощности компьютерной техники
На рисунке 2 показаны рост вычислительной мощности компьютерной техники
(слева) на фоне трансформации парадигмы работы с данными (справа). Источник: Hilbert
and López, `The world’s technological capacity to store, communicate, and compute
information,`Science, 2011Global
К примеру, датчики, установленные на авиадвигателе, генерируют около 10 Тб за
полчаса. Примерно такие же потоки характерны для буровых установок и
нефтеперерабатывающих комплексов. Только один сервис коротких сообщений Twitter,
несмотря на ограничение длины сообщения в 140 символов, генерирует поток 8 Тб/сут.
Если все подобные данные накапливать для дальнейшей обработки, то их суммарный
объем будет измеряться десятками и сотнями петабайт. Дополнительные сложности
проистекают из вариативности данных: их состав и структура подвержены постоянным
изменениям при запуске новых сервисов, установке усовершенствованных сенсоров или
развертывании новых маркетинговых кампаний[3].
Выводы. В работе были рассмотрены основные определения больших данных и
возникающие проблемы, которые поставили перед реляционными СУБД большие данные.
Важно отметить, что с дальнейшим проникновением ИТ в бизнес-среду и повседневную
жизнь каждого из нас, подлежащие обработке информационные потоки продолжают
непрерывно расти. И если сегодня большие данные – это петабайты, завтра придется
оперировать с экзабайтами и т.д. С ростом вычислительной мощности и развитием
технологий хранения возможности анализа больших постепенно становятся доступными
малому и среднему бизнесу и перестают быть исключительно прерогативой крупных
компаний и научно-исследовательских центров. В немалой степени этому способствует
развитие облачной модели вычислений.
МАТЕРИАЛЫ МЕЖДУНАРОДНОЙ НАУЧНО-ПРАКТИЧЕСКОЙ КОНФЕРЕНЦИИ,
ПОСВЯЩЕННОЙ 135-ЛЕТИЮ М. ТЫНЫШПАЕВА
ТРАНСПОРТ В XXI ВЕКЕ: СОСТОЯНИЕ И ПЕРСПЕКТИВЫ
_____________________________________________________________________________
447
Литература
http://www.tadviser.ru/index.php/ Статья: Большие данные_(Big_Data)
Tom White. Hadoop: The Definitive Guide, 3rd Edition. O'ReillyMedia, 2012, 688 p.
Jeffrey Dean, Sanjay Ghemawat. MapReduce: simplified data processing on large
clusters. Proceedings of the 6th conference on Symposium on Opearting Systems Design &
Implementation, vol. 6, p. 10-10, USENIX Association Berkeley, CA, USA, 2004.
Кунгратбаев Н.К. – магистрант - Казахский национальный технический
университет имени К.Сатпаева (г. Алматы, Казахстан)
Исмагулова Ж.С. – доцент - Казахский национальный технический университет
имени К.Сатпаева (г. Алматы, Казахстан)
АНАЛИЗ ПОКАЗАТЕЛЕЙ РАБОТЫ АО «ДОСЖАН ТЕМІР ЖОЛЫ»
НА КОНЦЕССИОННОМ УЧАСТКЕ «ШАР-УСТЬ-КАМЕНОГОРСК»
Данная дорога имеет государственное значение, являясь одним из приоритетов
развития национальной железнодорожной инфраструктуры, которая должна соединить
мощный железнодорожный узел Восточного Казахстана с транзитной магистралью
«Турксиб», обеспечив тем самым не только прежний выход региона в другие области, но
и государства.
Цель проекта. В связи с тем, что проект имеет общегосударственное значение,
было заключено Концессионное соглашение. Правительством Республики Казахстан был
принят ряд постановлений о мерах по строительству и эксплуатации Железнодорожной
линии.
В соответствии с постановлением Правительства Республики Казахстан "О
заключении Концессионного соглашения по строительству и эксплуатации новой
железнодорожной линии "станция Шар – Усть-Каменогорск"" от 01 июля 2005 года № 668
ответственным за Проект является Министерство транспорта и коммуникаций Республики
Казахстан.
По условиям Концессионного соглашения по окончании реализации Проекта
Железнодорожная линия передается в собственность государства.
В настоящее время железнодорожная связь восточного Казахстана (в том числе гг.
Усть-Каменогорск, Риддер и Зыряновск) с другими регионами Республики Казахстан
осуществляется через станцию Локоть с проездом по территории России на протяжении
82 км. Для казахстанских предприятий – грузоотправителей это сопровождается
дополнительными транспортными расходами, оплатой таможенных сборов и потерей
времени.
Железнодорожная линия примет на себя перевозки грузов. При этом расстояние
перевозок сократится в южном направлении (от г. Усть-Каменогорск до станции Шар) на
328 км, в северном и западном направлениях (от г. Усть-Каменогорск до г.
Семипалатинск) – на 92 км.
Реализации проекта. В соответствии с условиями Концессионного соглашения
Железнодорожная линия включает в себя: железнодорожные пути; системы
электроснабжения, сигнализации, связи; здания, сооружения и иное технологически
необходимое для функционирования указанной Железнодорожной линии имущество;
МАТЕРИАЛЫ МЕЖДУНАРОДНОЙ НАУЧНО-ПРАКТИЧЕСКОЙ КОНФЕРЕНЦИИ,
ПОСВЯЩЕННОЙ 135-ЛЕТИЮ М. ТЫНЫШПАЕВА
ТРАНСПОРТ В XXI ВЕКЕ: СОСТОЯНИЕ И ПЕРСПЕКТИВЫ
_____________________________________________________________________________
448
другие объекты производственной и социальной инфраструктуры, являющиеся
неотъемлемой частью Железнодорожной линии и предусмотренные ее проектно-сметной
документацией (далее – объекты инфраструктуры).
Период реализации Проекта – с июля 2005 года по декабрь 2028 года. В
соответствии с Концессионным соглашением указанный период включает в себя 2 этапа:
1) строительство Железнодорожной линии – с августа 2005 года по декабрь 2008
года;
2) эксплуатация Железнодорожной линии – с января 2009 года по декабрь 2028
года.
Ввод Железнодорожной линии в эксплуатацию в соответствии с условиями
Концессионного соглашения планируется в начале 2009 года.
Строительство Железнодорожной линии было начато Компанией в июле 2005 года.
По прогнозам Компании строительство Железнодорожной линии предполагается
завершить в 2008 году, начать ее эксплуатацию – в начале 2009 года, выйти на полную
проектную мощность – в 2017 году.
По окончании Проекта в соответствии с Концессионным соглашением Компания
передает Железнодорожную линию и все объекты инфраструктуры в государственную
собственность. Указанная передача должна быть осуществлена Компанией в срок не
позднее 31 декабря 2028 года.
Данная схема реализации проекта основана на BOT (строительство - эксплуатация -
передача), что является наиболее распространенным в мировой практике методом
строительства и эксплуатаций новых инфраструктурных объектов.
2005-2008 гг.2009-2028 гг.2028-2029 гг.
Рисунок 1. Схема - ВОТ
Финансирование Проекта. Финансирование Проекта в период подготовки
проектно-сметной документации осуществляется за счет выпуска и размещения акций
Компании. В качестве основного источника финансирования Проекта в период
строительства (кроме размещения акций) будут использоваться средства, привлеченные
посредством размещения облигаций. Объемы финансирования, необходимые для
строительства, устанавливаются проектно-сметной документацией по Проекту.
Таблица 1. Основные источники финансирования Проекта (до начала периода
эксплуатации)
Источник
тыс. тенге
Акционерный капитал
1 300 000
Облигационный заем
30 000 000
Итого
31 300 000
Стоимость строительства Железнодорожной линии по данным Компании оценена в
29,3 млрд тенге согласно строительным нормам, утвержденным в 2001 году Комитетом по
делам строительства Министерства индустрии и торговли Республики Казахстан.
Достарыңызбен бөлісу: |