Ключевые слова: автоматизированнаябанковская система(АБС), SWIFT-сообщенийсистема управления
базами данных(СУБД),клиент, организационное обеспечение, информация, программное обеспечение.
232
Результатом развития программно-аппаратных средств стало создание автоматизированных
банковских систем (АБС).
Целями использования АБС являются:
-сокращение времени на проведение операций и оформление документов, увеличение
пропускной способности банка;
-сокращение численности персонала, занятой малоквалифицированной рутинной работой;
-улучшение качества обслуживания клиентов;
-повышение квалификации банковского персонала;
-интегрирование в единые банковские системы.
На отечественном рынке сформировались классы АБС, каждый из которых имеет
определенных потребителей от начинающих банков, осуществляющих лишь ограниченный спектр
рублевых операций, до ведущих банков, вышедших на зарубежный уровень объемов и разнообразия
услуг. АБС содержит необходимый потребителю набор функций.
Активно процессы автоматизации банковских технологий стали вычислительные центры, на
которых осуществлялась обработка банковской информации, уже не могли предоставить банкам весь
спектр услуг, необходимых для уменьшения рутинной работы и для анализа и прогнозирования
финансового состояния банков.
Развитие компьютерной техники и информационных технологий позволили создать
большинству банков собственные вычислительные комплексы, на базе которых были
автоматизированы основные направления банковской деятельности.
Современные
информационные
технологии
позволяют
координировать
деятельность
подразделений банков, расширить межбанковские связи, комплексно решать проблемы анализа
банковской деятельности. Автоматизация информационных и других технологий банка содействуют
улучшению качества обслуживания путем создания автоматизированных рабочих мест (АРМ) для
специалистов всех уровней. В автоматизации банковских технологий находят место как простые
программные продукты, позволяющие заполнять только несколько выходных форм для отчетности,
так и достаточно интеллектуальные комплексы, решающие задачи управления банком. В первом
случае это традиционные системы управления базами данных (СУБД), во втором – адаптируемые
западные комплексы, являющиеся последним достижением мировой банковской мысли.
Следует отметить и ускоренное развитие средств межбанковской телекоммуникации. Большое
распространение
получило
мировое
сообщество
SWIFT.
Распространяются
различные
телекоммуникационные системы типа системы «Клиент-банк». Для повышения производительности
банковских, финансовых и других структур увеличились поставки операционных UNIX – систем,
имеющих более широкие возможности по сравнению с MS DOS.
АБС должна обеспечивать возможность безналичныхрасчетов между клиентами,
имеющими счета в одном банке, минуякорреспондентский счет банка. Расчет должен
производиться путемписания и зачисления средств по соответствующим счетам, открытым набалансе
банка. Произведенные расчеты должны отражаться по субкорреспондентским счетам филиала
банка, открытым на балансефилиала и банка, если расчеты осуществляются между разными
филиаламибанка.
Порядок проведения расчетов в филиалах либо между разнымифилиалами
устанавливается внутренними правилами банка поосуществлению безналичных расчетов.
Формирование и обработка SWIFT-сообщений.
АБС рекомендуетсяобеспечивать выполнение функций по формированию и
обработкеSWIFT-сообщений исходя из следующих возможностей:
-
формирование SWIFT-сообщений;
-
корректировка SWIFT-сообщений;
-
удаление SWIFT-сообщений;
-
авторизация SWIFT-сообщений;
-
формирование SWIFT-сообщений в электронном виде;
-
обработка SWIFT-сообщений;
Составляющие АБС
Составляющие АБС: аппаратные средства, программное обеспечение, математическое
обеспечение, информационное обеспечение, функциональное обеспечение, технологическое
обеспечение. Все компоненты АБС взаимосвязаны между собой, и невозможно точно определить
чёткую границу между ними.
233
Информационное обеспечение делится на внутримашинное и внемашинное. Совокупность
информации в банке, включая системы показателей, методы классификации и кодирования
элементов информации, документов, документооборота информационных
потоков, представляет внемашинное обеспечение. Внутримашинное обеспечение это
представление данных на машинных носителях в виде специально организованных массивов, файлов,
баз данных, банков данных и их информационных связей.
Функциональное обеспечение определяет предметную, содержательную направленность АБС и
выражается в виде набора операций, функций и задач. Базовым элементом функционального
обеспечения является операция
Технологическое обеспечение представляет собой совокупность проектных решений,
определяющих технологию обработки, создание технологических условий для ведения банковских
операций в автоматическом режиме.
Математическое
обеспечение
делится
на
предметное
и
прикладное.
Предметное
математическое
обеспечение
представляет
собой
совокупность
алгоритмов,
экономико–
математических методов преобразования информации, моделей, отражающих в информационном
плане финансово–кредитные процессы и методы решения банковских задач. Прикладное
обеспечение включает в себя алгоритмы, методы и модели автоматизированной системы.
Программное обеспечение состоит из двух частей: системная составляющая (операционные системы,
СУБД, сервисные программы) и прикладная составляющая (непосредственно используемые в банке
программные модули, АРМы, офисные системы).
Аппаратные средства. В состав аппаратных средств входят:
-средства вычислительной техники (сервера, рабочие станции);
-оборудование локальных вычислительных сетей;
-средства телекоммуникации и связи;
-оборудование, автоматизирующее различные банковские услуги: автоматы–кассиры,
терминалы торговой системы, оборудование платёжных систем пластиковых карт. Системная
составляющая программного обеспечения и аппаратные средства образуют системно–техническую
среду банка.
Информационное обеспечение АБС
Проектирование и функционирование АБС основывается на системотехнических принципах,
отражающих важнейшие положения методов общей теории систем, системного проектирования,
теории информации и других наук, позволяющих обеспечить необходимую надежность
эксплуатации, совместимость и взаимодействие информационных систем различных экономических
объектов, экономить труд, время, денежные средства на проектирование и внедрение АБС в
практику.
Информационное обеспечение (ИО) АБС представляет собой информационную модель банка.
Различают внемашинное и внутримашинное ИО:
-внемашинное – это вся совокупность информации в банке, включая системы показателей,
методы классификации и кодирования элементов информации, документов, документооборота
информационных потоков;
-внутримашинное – это представление данных на машинных носителях в виде разнообразных
по содержанию, по назначению и специальным образом организованных массивов (файлов), БД и их
информационных связей.
Современные системы банковских связей складываются и показателей видов банковских услуг
и банковской деятельности, которые отражают расчетно-кассовый, кредитный, депозитный,
бухгалтерский, нормативный, законодательный, фондовый, инвестиционный и другие аспекты
функционирования банка.
С помощью аналитических и сводных показателей анализируются структура активов и
пассивов, доходов и расходов, денежных потоков по активным и пассивным операциям, ликвидность
и финансовая устойчивость банка. Показатели банковской деятельности характеризуют соотношения
депозитов, кредитов, собственных и привлеченных средств, долю межбанковских операций в общем
объеме ресурсов и вложений, определяют удельный вес и значимость тех или иных операций, что
позволяет выявлять возможность повышения прибыльности и конкурентоспособности банка.
Значительную долю внемашинного ИО составляет документация. При разработке
внемашинного ИО к документам, как наиболее распространенным носителям исходной и
результативной информации, предъявляется ряд требований по их форме, содержанию, порядку
заполнения. Унифицированные типовые документы в банковской системы повышают эффективность
234
автоматизации. К таким документам относятся платежные поручения, чеки, кассовые ордера,
банковские выписки и другие
Современные АБС предоставляют получения информации в различных формах: в виде
печатных документов, экранных форм, на машинных носителях; она может быть представлена в
текстовом, табличном и графическом виде.
Внутримашинное ИО формирует информационную среду для удовлетворения разнообразных
профессиональных потребностей банковской системы.
Оно включает все виды специально организованной на машинных носителях информации для
восприятия, передачи, обработки техническими средствами. Поэтому информация представляется в
виде файлов, БД, банков данных (БнД)
Современные банковские технологии работают только с БД. Существуют различные
инструментальные программные средства как для проектирования, так и для управления и
поддержания БД – это, прежде всего, СУБД. В зависимости от выполняемых функций их спектр
может включать как простые, так и сложные разработки.
К внутримашинному ИО банковских систем предъявляется ряд требований. Система должна
предоставлять возможность экспорта (импорта) данных в текстовом и DBF – форматах, что позволяет
обмениваться информацией со специальными программами, электронными таблицами и т.д., а
экспортируемый из системы документ может быть послан по электронной почте.
Внутримашинное ИО банковских систем должно реализовываться в режиме реального
масштаба времени, при котором изменение в данных.произведенные одним пользователем, сразу
должны становиться доступными остальным пользователям системы. Следует отметить, что
действительный режим реального времени обеспечивают только системы, использующие сетевую
СУБД, основанную на архитектуре сервера БД («Clarion», «Oracle»), а при использовании СУБД,
основанной на модели ’файл – сервер ’ (Clipper, dBase) режим реального времени эмитируется.
В качестве основы для построения банковских систем используется СУБД «Oracle».В ней
обеспечиваются надежные методы хранения и обработки данных, защита от сбоев и
несанкционированного доступа, эффективная работа в многопользовательской среде и во всех
популярных сетях, высокая производительность. Прикладные системы, созданные на базе СУБД
«Oracle», одинаково эффективно функционируют на всех типах ЭВМ: персональных, мини- и
больших ЭВМ и лишены недостатков, присущих многим другим СУБД на ПЭВМ. Ввиду полной
переносимости прикладных систем сохраняются все вложения в их разработку. Не требуется
персонала, а закупка нового оборудования не приводит к полному отказу от старого, ибо последнее
может использоваться параллельно с новым. Недостатком СУБД «Oracle» является достаточно
высокая стоимость, поэтому система доступна, как правило, крупным и средним банкам.
Ведение клиентов и счетов.
АБС должна обеспечиватьвыполнение всех функций, предусмотренных проектной
документацией наАБС по ведению клиентов и счетов, исходя из следующих возможностей:
-
ввод нового клиента;
-
корректировка реквизитов клиента;
-
закрытие клиента при соблюдении определенных условий;
-
формирование запроса по реквизитам клиента;
-
открытие счета клиента;
-
корректировка реквизитов счета клиента;
-
формирование запроса по счету клиента;
-
формирование запроса по балансу счета;
-
закрытие счета при соблюдении определенных условий.
Техническое оснащение современных АБС
Современные банковские системы имеют состав аппаратных средств, в которой входят:
-средства вычислительной техники (ВТ);
-оборудование локальных вычислительных сетей (ЛВС);
-средства телекоммуникации и связи;
-оборудование, автоматизирующее различные банковские услуги:автоматы-кассиры.
-средства, автоматизирующие работу с денежной наличностью (для подсчета и подтверждения
подлинности купюр и другие).
Автоматизация банковских операций при работе с наличностью предполагает использование
детекторов валют и ценных бумаг, счетчиков купюр и монет, упаковщиков банкнот, машины для
уничтожения бумаг и документов. Это оборудование при больших объемах операций значительно
235
сокращает трудоемкость работы, экономит время кассиров, операционистов. С целью повышения
производительности и надежности автономных банковских технологий компьютеры объединяются в
сети с помощью определенных дополнительных технических и программных средств.
Наиболее распространенные режимы обслуживания пользователей в сети организуются как
файл – сервер и клиент – сервер. Обе модели, имея общую схему обслуживания пользователей,
различаются сложностью, объемами работ, разнообразием функций, программно-технической
оснащенностью, а так же производительностью. Модель клиент – сервер имеет больше ресурсных
возможностей, дает ответы на запросы, тогда как первая – передает файлы по сети.
Программное обеспечение АБС
Программным обеспечением (ПО) вычислительной машины называют совокупность программ
и сопровождающей их документации, позволяющую использовать вычислительную машину для
решения задач. Общая структура программного обеспечения любой системы, включая АБС.
Структура ПО
Отличительной чертой функционирования АБС является необходимость обработки больших
объемов данных в сжатые сроки. При этом основная тяжесть падает на операции ввода, чтения,
записи, передачи данных. Это предъявляет весьма жесткие требования к производительности ОС,
СУБД и средств передачи данных.
Базовые средства используются для обеспечения эксплуатации АБС, для разработки
прикладной части программных средств. Базовыми являются ОС, СУБД и другие программные
средства системного назначения. В их окружение, под их действием функционируют прикладные
программы.
Наличие в спектре базовых средств сетевых функций является непременным атрибутом
современных АБС. Сетевые функции придают системе свойства многоуровневости и
многозвенности, а также обеспечивают возможность объединения различных программных
платформ (MS DOS, NetWare, Windows NT, Unix и другие) и, как следствие, возможность гибкого
расширения и наращивания системы – дополнения ее новыми рабочими системами, новыми
серверами различных классов.
Системы защиты АБС
Безопасность АБС - защищенность банковской системы от случайного или преднамеренного
вмешательства в нормальный процесс ее функционирования, а также от попыток хищения,
модификации или разрушение ее компонентов. Безопасность АБС это: безопасность сотрудников,
безопасность помещений, ценностей, информационная безопасность. Различают внешнюю и
внутреннюю.безопасность АБС. Внешняя - защита от стихийных бедствий и проникновения
злоумышленника извне в целях хищения, получения доступа к носителям информации или вывода
системы из строя. Внутренняя - обеспечение надежной и правильной работы системы, целостности ее
программ и данных. Безопасность информации - состояние информации, информационных ресурсов
и информационных систем, при которой с требуемой вероятностью обеспечивается защита
информации от утечки, хищения, утраты и т.д.
ЛИТЕРАТУРА
1. «Автоматизированные информационные технологии в банковской деятельности» под ред. Титоренко
Г.А., М.: Финстатинформ, 1997г.
2. «Автоматизированные системы обработки экономической информации» под ред. проф. Рожнова В.С.,
М.: Финансы и статистика, 1986г.
3. Першин А.Ю. «Банковские системы: анализ компьютерных платформ»/ Технология электронных
коммуникаций: сборник, вып.3, т.38, М., 1993г.
4. Зверев В.С. «Автоматизированные информационные технологии в экономике:» Учеб./АГТУ.-
Астрахань: Изд-во АГТУ, 2000.-260 с.
Бейсембекова Р.Н., Амангелдиев А.С.
Автоматтандырылған банктік жүйе
Аңдатпа. Автоматтандырылған банктік жүйе қарастырылды, қазіргі уақыттағы ақпараттық
технологиялар банктің қызметін үйлестіру мен банкаралық байланыстарды кеңейтуде. Қазіргі уақытта Oracle,
SQL автоматтандырылған ақпараттық жүйесін пайдаланылады. Автоматтандыру ғылыми техникалық
прогрестің бір маңызды бағыты. Банктің автоматтандырылған функциясының құрылымы банктік операцияның
технологиясына қоса беріледі.
Түйін сөздер: автоматталған банктік жүйе (АБЖ), SWIFT-хабарламасы, клиент, ұйымдық
қамсыздандыру, ақпарат, мәліметтер базасын басқару жүйесі (МББЖ), бағдарламалық қамтамасыз ету.
236
Beisembekova R.N.
Bank CAS
Abstract. Bank CAS is a set ofintergrable applications, allowing to automatize an account, analysis, control,
planning of all basic business-operations of bank.
Automation in jars is conducted in different forms, the systems of treatment of administrative information are
first of all created. A higher level are АБС (bank CASS), including not only treatment of information but also systems
of forming of administrative decisions, all wrap-round parties of activity of bank. Automated decision of management
tasks the administrative tool of activity of bank improves finances, exposing the picture of his state, unsealing backlogs
and directions of improvement of financial position, making healthy of finances.
The banking system is not only jars but also credit establishments(i.e. all economic organizations that execute
bank transactions), and also the specialized organizations not carrying out bank transactions, but.
Key words: bank CAS, SWIFT- of reports, client, orgware, information, сontrol system by databases, software.
УДК 004.65
Бейсембекова Р.Н., Хасенова А.М магистрант
Казахский национальный технический университет имени К.И. Сатпаева,
г.Алматы, Республика Казахстан, kh.a91@bk.ru
АНАЛИТИКА БОЛЬШИХ ДАННЫХ
Аннотация. В данной статье мы проведем аналитику больших данных, возникший в последнее
десятилетие, непосредственно связаные с появлением проблемы стремительного увеличения объемов данных,
возникающих, прежде всего, в бизнес-структурах вследствие полнофункциональной информатизации бизнес-
процессов; в научных организациях - вследствие появления новых возможностей для измерений; в
государственных организациях - при увеличении объема и функционала сервисов, а также в общественных
коммуникационных сетях.
Ключевые слова: большие данные; источники данных; технологий Hadoop; модель MapReduce.
В последнее время технологии больших данных развиваются высокими темпами. Возникает
множество высокотехнологичных компаний, предоставляющих новые инструменты по анализу
данных. В то же время растёт мировой спрос на специалистов, способных работать с большими
объёмами данных, ставить задачи в этой области, понимать сложность и потенциальную стоимость
таких работ. Предполагая нарастающий интерес к этой сфере, сотрудники образовательных и бизнес
- организаций научных центров решили систематизировать опыт работы с технологиями и задачами
анализа больших данных.
Рисунок 1. Рост объемов информации в аналоговом (справа) и цифровом (слева) виде
На этом графике мы видим рост объёмов информации, представленной в аналоговом и
цифровом виде. Объём экспоненциально увеличивается. При этом мы видим, что где-то с 2000х
годов происходит переломный момент – цифровые носители получают широкое распространение тем
самым давая всё большему количеству информации сохраняться и быть доступной уже в цифровом
виде. Конечно же здесь мы не учитываем тот факт, что в 1986 году считалась информация,
237
специально отобранная (библиотеки, фильмотеки и т.п.), а в 2002 году уже имеется просто вся
информация, в том числе бесчисленные копии фильмов, фотографий и текстов. Отметим, что особый
вклад в развитие цифровой эпохи внесли жёсткие диски. Удешевление их производства – основной
фактор формирования тренда больших данных.
Есть и другие причины и факторы возникновения Big Data. Можно ли было говорить об этом
десять лет назад? Вряд ли. Собираемые данные были не так заметны. Не во всех машинах стояли
датчики для контроля состояния двигателей, не так были распространены средства для мониторинга
здоровья, шагомеры и прочие сенсоры. Не так были распространены мобильные устройства. Все эти
вещи генерируют данные, которые нужно где-то хранить и обрабатывать.
Кто и когда будет анализировать эти данные и синтезировать новые решения?
Даже когда происходит развитие технологий, накопление данных осознание новых
возможностей не происходит одномоментно. Появление термина большие данные связывают с
публикацией в журнале Nature, но также известно и то, что ранее этот термин уже употреблялся. Тем
не менее, правильнее говорить именно о 2008 году, т.к. статья констатировала некий общественный
статус технологий и запустила массовый процесс осознания её возможностей. Однако только в 2011
году появляется отчёт компании МакКинзи, который очень сильно повлиял на популяризацию
тренда. Таким образом, с публикацией данного отчёта общество перешло в фазу создания новых
технологий для обработки Big Data (большие инвестиции в рынок технологий BigData) и
одновременной подготовки кадров для этой новой отрасли: Data Engineer, Data Scientists, BD-analyst
(нехватка 140 тыс. специалистов).
Что такое аналитика больших данных?
Вы уже наверняка знаете основные характеристики больших данных: объём, скорость и
разнообразие. Кто-то приводит ещё: ценность, виртуализацию, верификацию и пр. Всё это также
относится к большим данным. К ним в ближайшее время будет относиться практически всё. И это не
шутка. Технологии позволяют хранить огромные объёмы (Петабайты) на всё меньшем кусочке
пространства. Это и развитие сенсоров приводит к тому, что падают затраты на сбор данных.
Однако возникают затраты на хранение. При условии высоких скоростей генерирования
данных, например, сообщений в Контакте или других соц.сетях, проблема сохранения и обработки на
лету тоже становится заметной. С годами компании понимают, что данных уже столько много, что
осмысленно поставить вопрос: зачем нам испытывать издержки на их хранение? Появляется мысль о
рациональном использовании сохранённых данных: давайте не будем их выбрасывать, а постараемся
извлечь из них пользу. Так мы наблюдаем бум разных технологий хранения и обработки данных. Всё
это положительно сказывается на рынке систем хранения данных. И чем они надёжнее, быстрее и
эффективнее, тем больше их покупают, тем больше данных собирают, тем больше растёт
потребность в сборе ещё каких-нибудь данных.
Однако, большой объём данных отнюдь не означать и большую их ценность. Эта зависимость
не линейная. Даже если обратиться к собственному опыту – давно ли Вы просматривали свои тысячи
фотографий, отснятых за последний год? С ростом объёмов видимая ценность на байт данных падает.
Возникает очень много дублей, записей и перезаписей. Всё это приводит к падению качества
исходного материала. И это при росте технических качественных характеристик записывающих
устройств. Здесь мы сталкиваемся не только с возможностями, которые нам открывают большие
данные, но и с проблемой качества исходных данных.
Вот мы и приходим к основным драйверам этого рынка:
• увеличение потоков информации;
• удешевление систем хранения на единицу информации;
• усовершенствование технологий обработки информации.
Компании, разрабатывающие системы хранения как раз и заинтересованы в популяризации
больших данных, чтобы обеспечить себе рынок сбыта. Вторыми игроками на этом рынке
оказываются компании, которые предлагают решения и услуги по извлечению из собранных данных
новых знаний, сегментаций клиентов, новых решений старых и подступающих проблем. Возникают
угрозы безопасности и вопросы законности сбора данных – это сдерживает развитие рынка, но с
другой стороны придаёт ему устойчивость.
Определение «Большие данные»
· серия
подходов,
инструментов
и
методов
обработки
структурированных
и
неструктурированных данных огромных объёмов и значительного многообразия для получения
воспринимаемых человеком результатов, эффективных в условиях непрерывного прироста,
распределения по многочисленным узлам вычислительной сети, сформировавшихся в конце 2000-х
238
годов, альтернативных традиционным системам управления базами данных и решениям класса
Business Intelligence (Википедия RUS)
· Big Data is the term for a collection of data sets so large and complex that it becomes difficult to
process using on-hand database management tools or traditional data processing applications (Wikipedia
ENG)
Большие данные – это такие данные, которыми дорого управлять или из которых сложно
извлечь ценность. (Майкл Франклин)
Необходимо ещё раз остановиться на понятии Большие данные. Если понимать это как
проблему, которая не решается на существующем уровне технологий, что такое понятие очень
расплывчато по определению. Если завтра изобретут технологию, решающую проблему, что это уже
не большие данные – так выходит? Выходит, что так. Но это и характерно для проблемы. Сделали
технологию – проблема ушла.
Мы видим, что приведённые определения существенно разнятся. И это нормально для
молодого направления деятельности. Мы будем считать «большими данными» только первую часть
определения русской википедии, т.е. подходы, инструменты и методы обработки данных больших
объёмов и многообразия для получения результатов, в условиях непрерывного прироста информации
и её значительной распределённости. Также будем понимать и сами данные, обрабатываемые этими
методами.
Необходимо ещё раз остановиться на понятии Большие данные. Если понимать это как
проблему, которая не решается на существующем уровне технологий, что такое понятие очень
расплывчато по определению. Если завтра изобретут технологию, решающую проблему, что это уже
не большие данные – так выходит? Выходит, что так. Но это и характерно для проблемы. Сделали
технологию – проблема ушла.
· Данные – совокупность зафиксированных фактов
· Информация – сведения, уменьшающие неопределённость
· Знания – сведения, позволяющие действовать с прогнозируемым результатом
· Мы располагаем данными, они хранятся в цифровом виде, мы не знаем, что в них.
Проблема в том, что имея видеозапись мы не можем сказать, о каком она объекте, пока не
просмотрим.
А можем ли мы автоматически это определить? Распознать фрагменты и присвоить метки –
структурировать эти данные.
Источники данных
Итак, мы утвердились в понимании основных характеристик больших данных. Рассмотрим
более подробно источники (генераторы) данных. На заре цифровой эпохи это были научные
установки, эксперименты, заказы крупных корпораций. Теперь же мы имеем устройства в кармане,
генерирующие непрерывный поток каких-то данных (интернет-трафик, акселерометр, GPS, и др.).
Все устройства будто бы просят подключить их к глобальной сети. Есть уже умные утюги, розетки,
сообщающие о своём состоянии в головной центр управления домом. Некоторые даже утверждают,
что китайские чайники следят за нами и прослушивают.
Большие данные генерируются в коммуникациях устройство-устройство и устройство-человек.
Например, сервера накапливают в себе информацию о своей работе, логируют всевозможные
действия. Данные из этих логов позволяют прогнозировать отказ системы или атаку извне. Люди
ежедневно загружают на YouTube терабайты видеопотока. Эти видео-ролики могут многое сказать,
например, о факте падения метеорита или проведении массовых митингов, в том числе в качестве
дезинформации. Ещё одним источником больших данных является установка БАК в CERN. Она
генерирует порядка 300Тб в секунду. Конечно, не все эти данные записываются на носители.
Записывается от силы 1%, а анализируется и того меньше. Есть и другие источники больших данных.
Можно провести небольшую их классификацию.
Проблема перемещения данных
Вот установка, которая сохраняет в себе 80Тб информации в день. Есть канал связи, который
обеспечивает пропускную способность: 1Гб/сек. К концу дня информация сохранена. Допустим мы
хотим её всю извлечь, и не за один день, а за год. Для этого нам нужен новый канал, т.к. этот уже
занят записью информации следующего дня. Но что более невероятно, ширина этого канала должна
быть в 365 раз больше существующего, чтобы извлечь всю информацию. Из-за этих ограничений
очевидно, что нужно обрабатывать информацию прямо там и мощностью тех серверов, где она была
сохранена. Такая идея лежит в основе технологий Hadoop и модели MapReduce.
239
Вычислительная модель MapReduce была впервые предложена инженерами из Google
Джеффри Дином и Сенджейем Гемаватом в 2004 году. Основная идея заключается в следующем:
В реализации для GFS, как и в Hadoop, данное решение обладает свойством локальности. Т.е.
используются те вычислительные ресурсы, на которых сохранена информация.
Hadoop это ещё одно решение реализующее модель Map Reduce. Файловая система HDFS.
Hadoop – это целостное решение для хранения и обработки данных. Сама библиотека – открытая, но
есть ряд компаний, которые зарабатывают на обслуживании решений на базе этой библиотеки.
Cloudera, например, предоставляет хостинг с Hadoop, а также поставляет шкафы – уже
укомплектованные кластеры.
Процесс аналитики
Теперь, когда мы познакомились с самыми распространёнными технологиями больших
данных, можно перейти к вопросам собственно аналитики. В чём состоит анализ больших данных?
Следует отметить, что для больших данных пока нет стандартного процесса аналитики. В то время
как для «небольших» он есть. Рассмотрим процесс аналитики на примере стандарта CRISP-DM. Здесь
есть как процессы загрузки, анализа так и представления результатов.
Чем же он принципиально отличается от больших данных? Вы уже знаете, что, во-первых: мы
не можем просто так взять и извлечь нужные нам данные, перекачать из одного места в другое. Т.е. у
нас наложены ограничения на процесс ETL. Нам надо рассмотреть, где именно хранятся эти данные,
реализован ли там интерфейс MapReduce? Если нет, какие средства отбора и обработки информации
есть в этой системе хранения? Итак, в больших данных нам требуются (1) средства предварительной
обработки информации на местах её хранения; (2) возможность запуска алгоритмов анализа прямо на
этих данных. Причём, заметим, что для этих алгоритмов должно выполняться свойство локальности:
мы не можем внутри них пользоваться данными из разных кластеров, иначе это повлечёт массовую
загрузку пропускной способности.
После предварительной обработки данные могут попасть на аналитический сервер, у которого
и вычислительные возможности помощнее и есть средства визуализации.
Мы уже поняли, что для извлечения данных необходимо использовать массово-параллельные
вычисления, например MapReduce. Т.е. в любом проекте с большими данными нам следует помнить
о времени исполнения процесса. Чтобы он не затягивался на месяцы . Когда мы говорим об анализе
данных, то мы имеем дело не только с процессом извлечения данных, но и их многократной
переработке. Такую переработку можно осуществлять правильно написав функции MapReduce или
использовав надстройки над системами кластерных вычислений. Существует ряд решений СУБД,
также реализующих парадигму MapReduce, такие как Cassandra, MongoDB. Они позволяют
оперировать данными не слишком задумываясь, как они расположены в кластере. Также есть
библиотека Mahout от Apache для интеллектуального анализа данных на кластере Hadoop.
Давайте рассмотрим цикл работы аналитика больших данных. Мы уже знаем, что на таких
объёмах не все запросы дают мгновенный результат. Поэтому, чтобы не тратить время впустую,
каждое ресурсоёмкое действие должно быть или тщательно спланировано или апробировано на
данных меньшего объёма.
Принципы аналитики
· Формулирование и проверка гипотез
· Численные критерии качества решений
· Эффективность время/качество
Большие данные позволяют нам отойти от некоторых традиционных схем принятия решений и
больше положиться на статистические методы. Если Вы видите, что предложенная Вами схема не
работает в нескольких случаях, это ещё не повод её отклонять. Может быть количество случает
неработоспособности схемы составляет менее 2%. Тогда эта схема очень даже работоспособна.
Это значит, что нам не надо обращать внимание на детали. И конечно же необходима культура,
чтобы все гипотезы проверять на объёме данных. Ни одна гипотеза не может быть принята или
отклонена на основе лишь её кажущейся правдоподобности. Что это значит на практике? Значит, что
в процессе предварительного и глубинного анализа данных необходимо все гипотезы фиксировать и
проверять. Выводы могут быть сделаны только на основе проверенных гипотез. Как это выглядит в
работе аналитика: вот я обозреваю таблицу с данными. Я строю диаграмму и вижу, что часть данных
обладает закономерностью. Но это я только вижу. Чтобы сделать заключение об этой
закономерности, я сначала явно её формулирую, записываю. Затем перевожу в математический
критерий, и запускаю алгоритм, выполняющий этот критерий, подчитываю количество объектов,
240
которые подтверждают мою гипотезу и тех, кто опровергает. Вот это соотношение и является
доказательством верности гипотезы.
Big Data проекты
сбор данных (CAPEX)
• Сервера
• Облака
• Инфраструктура
• очень много инвестиций в эту область извлечение пользы (value) (OPEX)
• команда
• Data Scientist
• Data Engineer
• Manager
• процесс
• сбор данных
• инвентаризация источников
• доступ к данным
• физический
• юридический
• мощности по обработке данных
• Hadoop - обрабатываем прямо там, где хранятся в облаках на локальных машинах
аналитические инструменты
• Splunk
• PreCog
• BigML
жүктеу/скачать Достарыңызбен бөлісу: |