Iv халықаралық Ғылыми-практикалық конференция еңбектері



Pdf көрінісі
бет4/40
Дата03.03.2017
өлшемі19,29 Mb.
#7046
1   2   3   4   5   6   7   8   9   ...   40

«ҚОҒАМДЫ АҚПАРАТТАНДЫРУ»  IV ХАЛЫҚАРАЛЫҚ ҒЫЛЫМИ-ПРАКТИКАЛЫҚ КОНФЕРЕНЦИЯ 
 
 
19
 
 
средств  связи  и  многим  другим  потребителям.  «Центр  Речевых  Технологий»  успешно 
демонстрирует свои интеллектуальные разработки на мировых выставках, имеет лицензии на 
разработку  и  производство  специальной  и  военной  техники,  более  трети  продукции 
реализует за пределами России в 62 странах мира. 
Помимо  коммерческих  разработок,  ориентированных  на  растущий  рынок  сбыта, 
исследования в области речевых технологий ведутся и в научных центрах и высших учебных 
заведениях стран СНГ, наиболее крупными из которых являются: 
- Сектор  цифровой  обработки  и  распознавания  речевых  сигналов  ВЦ  РАН,  Россия 
(разработка математических моделей, методов, алгоритмов, программ и систем для решения 
задач анализа, синтеза, распознавания и цифровой обработки речевых сигналов); 
- Сектор  психофизиологии  речи  Института  физиологии  им.  И.П.Павлова  РАН,  Россия 
(экспериментальное  исследование  психофизиологических  механизмов  слухоречевого 
восприятия человека); 
- Лаборатория  «Проблем  теоретической  кибернетики»  механико-математического 
факультета МГУ им. М.В. Ломоносова, Россия (разработка теории интеллектуальных систем, 
включая распознавание речи); 
- Объединённый  институт  проблем  информатики  НАН  Беларуси  (Проведение 
исследований  в  области  информатики,  в  том  числе  обработка  и  распознавание  сигналов, 
изображений, речи); 
- Украинская  ассоциация  обработки  информации  и  распознавания  образов,  Украина 
(распознавание и синтез речи, регулярное проведение конференции «УкрОбраз»); 
- Государственный  университет  информатики  и  искусственного  интеллекта,  Украина 
(исследования  в  области  искусственного  интеллекта  и  интеллектуально-механических 
роботов  целевого  назначения).  Этот  специализированный  ВУЗ  занимается  проблемами 
искусственного интеллекта с 1993 года.  
Благодаря  результатам  этих  работ,  многие  естественные  (английский,  французский, 
русский,  японский    и  другие)    языки  становятся  средством  общения  в  человеко-машинных 
системах.  Появилась  возможность  управлять  компьютером  не  только  письменными 
указаниями,  но  и  с  помощью  голоса.  Некоторые  системы  позволяют  диктовать  текст, 
слушать,  а  не  читать  книги  и  общаться  с  компьютером  на  интеллектуальном  уровне. 
Разработки в этой области принципиально зависят от естественного языка распознавания. В 
нашем случае таким языком является казахский язык. 
В  рамках  ИИ  сильно  развивается  эволюционные  вычисления  (ЭВ).  ЭВ  затрагивают 
практические  проблемы  самосборки,  самоконфигурирования  и  самовосстановления  систем, 
состоящих  из  множества  одновременно  функционирующих  цифровых  узлов.  При  этом 
удается  применять  научные  достижения  из  области  цифровых  автоматов  и  теории 
алгоритмов.  
Основные  направления  развития  -  выработка  стандартов,  открытых  архитектур, 
интеллектуальных  оболочек,  языков  сценариев/запросов,  методологий  эффективного 
взаимодействия программ и людей. Модели конечно-автоматного поведения предполагается 
активно  внедрять  во  всевозможные  бытовые  устройства,  способные  убирать  помещения, 
заказывать и готовить пищу, водить автомобили и т. п. 
В дальнейшем для решения сложных задач (быстрого исследования содержимого Сети, 
больших  массивов  данных  наподобие  геномных)  будут  использоваться  коллективы 
автономных  агентов.  Для  этого  придется  заняться  изучением  возможных  направлений 
эволюции  подобных  коллективов,  планирования  совместной  работы,  способов  связи, 
группового  самообучения,  кооперативного  поведения  в  нечетких  средах  с  неполной 
информацией,  коалиционного  поведения  агентов,  объединяющихся  "по  интересам", 
научиться разрешать конфликты взаимодействия и т. п. 
Особо  следует  выделить  такое  новое  направление  последних  лет  в  ИИ  как  мягкие 
вычислениями  (soft  computing)  или  вычислительным интеллектом  (computation  intelligence). 

«ҚОҒАМДЫ АҚПАРАТТАНДЫРУ»  IV ХАЛЫҚАРАЛЫҚ ҒЫЛЫМИ-ПРАКТИКАЛЫҚ КОНФЕРЕНЦИЯ 
 
 
20
 
 
Компоненты, входящие в комплекс мягких вычислений, используют подходы, свойственные 
человеку в его оценках окружающего мира, а также технологии, заимствованные у природы.  
В  1994  г.  Л.  Заде  ввел  термин  «мягкие  вычисления»  в  следующем  виде:  «мягкие 
вычисления  =  нечеткие  системы  +  нейронные  сети  +  генетические  алгоритмы».  Такое 
взаимное  использование  ряда  технологий  позволяет  усиливать  их  достоинства  и  ослаблять 
недостатки  их  отдельных  составляющих.  Эти  события  нашли  естественное  отражение  и  в 
технологии экспертных систем. Появились нечеткие системы, нечеткие экспертные системы, 
использующие  представление  знаний  в  форме  нечетких  продукций  и  лингвистических 
переменных.  Основу  представления  лингвистической  переменной  составляет  терм  с 
функцией  принадлежности.  Способ  обработки  знаний  в  нечетких  экспертных  системах  — 
это логический вывод по нечетким продукциям. Особенность нечеткой экспертной системы 
—  способ  извлечения  функций  принадлежности,  который  сводится  либо  к  методам 
математической статистики, либо к методу экспертных оценок
Продолжается  разработка  способов  представления  и  анализа  изображений  на  основе 
теории мягких вычислений  (сжатие, кодирование при передаче с использованием различных 
протоколов,  обработка  биометрических  образов,  снимков  со  спутников),  независимых  от 
устройств  воспроизведения, оптимизации  цветового  представления на  экране  и  при  выводе 
на печать, распределенных методов получения изображений. Дальнейшие развитие получили 
средства поиска, индексирования и анализа смысла изображений, согласования содержимого 
справочных  каталогов  при  автоматической  каталогизации,  организации  защиты  от 
копирования, а также машинное зрение, алгоритмы распознавания и классификации образов. 
Распространение компьютерных сетей и  создание высокопроизводительных кластеров 
вызвали  интерес  к  вопросам  распределенных  вычислений  -  балансировке  ресурсов, 
оптимальной  загрузке  процессоров,  самоконфигурированию  устройств  на  максимальную 
эффективность, 
отслеживанию 
элементов, 
требующих 
обновления, 
выявлению 
несоответствий  между  объектами  сети,  диагностированию  корректной  работы  программ, 
моделированию  подобных  систем.  Самоорганизующиеся  системы  управления  базами 
данных  будут  способны  гибко  подстраиваться  под  профиль  конкретной  задачи  и  не 
потребуют администрирования. 
Ключевым фактором, определяющим сегодня развитие технологий ИИ, считается темп 
роста  вычислительной  мощности  компьютеров,  так  как  принципы  работы  человеческой 
психики  по-прежнему  остаются  неясными  (на  доступном  для  моделирования  уровне 
детализации).  Но  рост  производительности  современных  компьютеров  в  сочетании  с 
повышением  качества  алгоритмов  периодически  делает  возможным  применение  различных 
научных  методов  на  практике.  Так  случилось  с  интеллектуальными  игрушками,  так 
происходит с домашними роботами. 
Уверенно  действовать  автономным  устройствам  в  сложном  мире  помогут  достаточно 
простые,  но  ресурсоемкие  алгоритмы  адаптивного  поведения.  При  этом  ставится  цель 
разрабатывать системы, не внешне похожие на человека, а действующие, как человек. 
Ученые  всего  мира  пытаются  заглянуть  и  в  более  отдаленное  будущее.  Можно  ли 
создать  автономные  устройства,  способные  при  необходимости  самостоятельно  собирать 
себе  подобные  копии  (размножаться)?  Способна  ли  наука  создать  соответствующие 
алгоритмы?  Сможем  ли  мы  контролировать  такие  машины?  Ответов  на  эти  вопросы  пока 
нет.  Но  полученные  результаты  в  области  клонирования  и  генной  инженерии  поражают 
воображение  и  это  несмотря  на  запрет  на  исследования  в  отдельных  странах.  К  слову, 
Казахстан не вошел в данное соглашение. 
 Сфера ИИ, ставшая зрелой наукой, развивалась постепенно и медленно, но неуклонно 
продвигаясь  вперед,  но  сейчас  период  стагнации  закончился.  Поэтому  результаты 
достаточно хорошо прогнозируемы, хотя на этом пути не исключены и внезапные прорывы, 
связанные  со  стратегическими  инициативами.  Например,  в  80-х  годах  национальная 
компьютерная  инициатива  США  вывела  немало направлений  ИИ  из  лабораторий и оказала 

«ҚОҒАМДЫ АҚПАРАТТАНДЫРУ»  IV ХАЛЫҚАРАЛЫҚ ҒЫЛЫМИ-ПРАКТИКАЛЫҚ КОНФЕРЕНЦИЯ 
 
 
21
 
 
существенное  влияние  на  развитие  теории  высокопроизводительных  вычислений  и  ее 
применение  во  множестве  прикладных  проектов.  Такие  инициативы  будут  появляться, 
скорее всего, на стыках разных математических дисциплин - теории вероятности, нейронных 
сетей,  нечеткой  логики.  Опыт  становления  таких  развитых  стран  как  Япония.  Малазия, 
Сингапур,  Южная  Корея  показывает,  что  определяющим  в  будущем  страны  является  не 
сырьевые ресурсы (Иран, Ирак, ОАЭ, страна  ОАПЕК так и сидят  десятилетия на нефтяной 
игле),  необходимо  делать  ставку  на  ИТ-технологий  и  особенно  на  новые  направления  как 
системы ИИ.  
В  тюркоязычных  странах  такие  работы  проводятся  с  большим  отставанием  от 
современных требований. Нет комплексности подхода к решению задач. Работы в основном 
проводятся  отдельными  энтузиастами.  Сведений  о  целенаправленных  и  систематических 
исследованиях в области обработки естественных языков в тюркоязычных республиках СНГ 
мы  не  обнаружили.  Поэтому  о  достижении  каких-то  результатов  по  созданию  речевой 
технологии в этих странах говорить не приходиться.   
В  нашей  стране,  к  сожалению,    имеют  место  лишь  разрозненные  работы  отдельных 
ученых,  хотя  данное  направление  могло  бы  быть  одним  из  прорывных  проектов  развития 
экономики страны. Имеющиеся специалисты вынуждены заниматься научной деятельностью 
в смежных областях из-за отсутствия финансирования данного направления, не признанной 
как фундаментальной во всех существующих программах как  МОН РК, так и целом страны. 
Тем не менее, существующий научный потенциал позволяет надеяться, что наша страна при 
достаточном  финансировании  и  поддержки  Правительства  сможет  выйти  в  лидирующие 
позиции в этой области. Предпосылки этому в стране есть:  сильная математическая школа, 
активное  развитие  ИТ-технологий,  и  главное  –  утечки  мозгов  в  РК  не  приняла  такие 
угрожающие масштабы, как в других странах СНГ.  
3. Заключение 
Исходя  из  изложенного  выше,  с  целью  повышения  конкурентноспособности  научных 
организаций  выбрать    в  качестве  нового  приоритета  науки  в  Республике  Казахстан 
направление «Искусственный интеллект».   
 
 
УДК 004 
ЕНСЕБАЕВ Р.С., КАЗИЕВ Г.З. 
 
ПРОБЛЕМЫ АНАЛИЗА И ОБРАБОТКИ БОЛЬШИХ ДАННЫХ ДЛЯ 
ПРИМЕНЕНИЯ В ГОСУДАРСТВЕННЫХ ОРГАНАХ КАЗАХСТАНА 
 
1. 
Введение 
Будущее  любой  страны  видится  в  построении  умного  информационного    общества  с 
помощью  интеллектуальных  информационных  систем,  созданных  на  основе    технологии 
NLP  анализа  и  обработки  больших  данных  и  облачных  вычислений.  Такие  системы 
позволяют  осуществить  семантический  поиск  в  базе  данных,    базе  знаний  и 
неструктурированных  массивах  информации  в  любое  время  и  из  любого  места  и  имеют 
пользовательские  интерфейсы  с  возможностью  введения  диалога  на  естественном  языке  в 
реальном масштабе времени.   
Огромные массивы неструктурированных данных на естественном языке и резкий рост 
объемов  базы  данных  и  базы  знаний  требуют  разработки  принципиально  новых  подходов, 
методов  и  инструментов  для  их  анализа  и  обработки,  что  является  не  тривиальной 
проблемой, которая оформилась в виде парадигмы больших данных  (Big Data).  
Парадигма  больших  данных  является  мировым  трендом  в  области  информационных 
технологий и к настоящему времени мало изучена. С ней начали заниматься ведущие ученые 
и  специалисты  в  области  Информатики  (Computer  Science)  в  крупных  университетах, 

«ҚОҒАМДЫ АҚПАРАТТАНДЫРУ»  IV ХАЛЫҚАРАЛЫҚ ҒЫЛЫМИ-ПРАКТИКАЛЫҚ КОНФЕРЕНЦИЯ 
 
 
22
 
 
научных центрах и  ИТ-компаниях мира. Анализ мирового опыта и существующих подходов 
технологий  анализа  и обработки  больших  данных  и  их  интеграции  в облачные  вычисления 
показали  необходимость  комплексного  и  масштабного  решения  этой  проблемы  для 
успешного применения в государственных органах. 
Результаты исследований в области анализа и обработки больших данных будут весьма 
востребованы как для мировой экономики, так и реальных секторов экономики Казахстана.  
Проблемами  Big  Data  являются:  создание  научных  и  методологических  основ 
исследования  больших  данных  и  интеллектуальных  (умных)  информационных  систем; 
разработка  методов  хранения  больших  данных  и  извлечения  из  них  полезной  информации; 
разработка 
и 
интеграция 
в 
облачные 
вычисления 
интеллектуальных 
(умных) 
информационных  технологий  и  инструментальных  средств.    Эти  проблемы  соответствуют 
Государственным  программам,  где  определены  приоритетные  задачи  социально-
экономического развития странынацелены на создание умной среды и умной экономики и 
предназначены для эффективного применения в государственных органах. 
Поэтому  исследование  и  разработка  методов  анализа  и  обработки  Big  Data  с  целью 
применения в государственных органах в процессе принятия решений и управления весьма 
актуальная проблема.  
2. 
Состояние проблемы Big Data. 
Прежде  всего  определим  понятие  Big  Data.  Сегодня  существует  большое  число 
определений  относительно  понятия  большие  данные.  Наиболее  содержательно  это  понятие 
определим  по  forrester:  большие  данные  объединяют  техники  и  технологии,  которые 
извлекают смысл из данных на экстремальном пределе практичности.  
В  качестве  определяющих  характеристик  для  больших  данных  отмечают:  объем 
данных, скорость обработки и прироста информации, многообразие данных. К этому можно 
добавить такие характеристики, как ценность и изменчивость.  
В настоящее время, многие известные вендоры (IBM, HP, EMC и другие) активно ведут 
исследования  и  разработки  по  проблемам  анализа  и  обработки  больших  данных  для 
применения в различных областях государственного сектора, науки и бизнеса.  
Одним из вариантов решения проблемы анализа и обработки больших данных является 
привлечение продукта Apache Hadoop. 
В  2010  году  Apache  Hadoop    Map  Reduce  и  ассоциированные  с  ними  технологии 
привели  к  распространению  нового  явления  в  сфере  информационных  технологий, 
названного  "большими  данными"    или    "Big  Data".  Apache  Hadoop    стал  одной  из  самых 
актуальных  платформ  для  распределенных  вычислений  и  платформой  для  хранения 
неструктурированной  и  слабоструктурированной  информации.  Используя  Apache  Hadoop  
как Open Source продукт некоторые фирмы создали свои продукты и технологии. 
Так,  компания  Gloudera  в  2009  году  анонсировала  продукт    Gloudera*  s  Distribution 
ingluding Apache Hadoop (CDH), представляющую собой дистрибутив Apache Hadoop (HDFS, 
Map  Reduce,  Hadoop  Common),  включающий  ряд  смежных  программ  и  библиотек  (Apache 
Flume,  Apache  Hive,  Hue,  Apache  Mahout,  Apache  Oozie,  Apache  Dig,  Apache  Sgoop,  Apache 
Whirz u Apache Zookeepez).  
В  дальнейшем  компания  Gloudera    выпустила  на  рынок  пакет  услуг  под  названием 
Gloudera  Enterprise,  состоящий  из  трех  продуктов:  CDH  -  это  дистрибутив  Apache  Hadoop 
(HDFS, MapReduce u MapReduce 2, Hadoop Common,  включающий ряд смежных программ и 
библиотек;  Claudera  Managez-  инструмент  для  развертывания,  мониторинга  и  управления 
кластером Apache Hadoop. Этот инструмент автоматизирует процесс развертывания кластера 
Apache  Hadoop,  представляет  возможности  для  мониторинга  в  режиме  реального  времени 
текущих  активностей  и  состояния  отдельных  узлов,  составляет  heatmaps,  может 
генерировать  сообщения  на  определенные  события,  управляет  доступом  пользователей, 
хранит историческую информацию об использовании кластера, собирает логи с узлов и дает 
возможность  их  просматривать;  Gloudera  Support  -  профессиональная  поддержка, 

«ҚОҒАМДЫ АҚПАРАТТАНДЫРУ»  IV ХАЛЫҚАРАЛЫҚ ҒЫЛЫМИ-ПРАКТИКАЛЫҚ КОНФЕРЕНЦИЯ 
 
 
23
 
 
предоставляемая  специалистами  Gloudera  по  проблемам,  относящимся  к  CDH  u  Gloudera 
Manager. 
В  настоящее  время  компанией  предложен  продукт  CDH-4    на  основе    Apache  Hadoop 
2.0,  первой  в  мире.  Таким  образом  Gloudera  заявила  о  своем  лидерстве  в  сфере 
предоставления платформы для распределенных вычислений. 
Компания  Hortonworks  12  июня  2012  года  анонсировала  свою  платформу  для 
распределенных вычислений на основе Apache Hadoop 1.0-Hortonworks Data  (HDP). 
Сейчас, Apache Hadoop и сопутствующее программное обеспечение (ПО), из opensource 
проекта превращается в законченное решение, развиваемое силами  нескольких компаний в 
мире.  Данный  продукт  готов  на  практике  подтвердить  свою  применимость,  как  enterpries 
решение для анализа и хранения сверхбольших объемов данных.       
Таким  образом,  в  случае  с  CDH  u  HDP  -это  работа  с  решениями,  уже  доказавшими 
свою работоспособность и предоставлением поддержки, когда это необходимо. 
Проблема разработки технологий анализа и обработки больших данных весьма сложна, 
многоэтапна  и  масштабна,  требующая  усилий  различие  разработчиков,  основные 
направления в сфере больших данных  в соответствии со своими целями и задачами увязки 
их  в  единую  цель.  При  таких  обстоятельствах  реализации  целевой  программы  необходим  
программно-целевой метод. 
Основные  риски,  связанные  с  программно-целевым  методом  решения  проблемы, 
заключаются в сложности ее решения, доступности и цене имеющихся проектов по Big Data, 
подготовки специалистов по работе с большими данными.  
Однако,  при  соответствующем  подборе  специалистов  различных  категорий, 
планировании  этапов  и  задач  каждую  из  направлений  предлагаемая программа  может  быть 
успешно реализована   
3. 
Цели и задачи программы реализации технологии Big Data 
Новизна  проблемы,  ее  сложность  и  масштабы  реализации  в  различных  отраслях 
национальной  экономики  Республики  Казахстан  обуславливают  необходимость  решения 
проблемы программно-целевым методом. Целевая программа состоит из трех направлений: 
анализ  и  обработка  больших  данных  и  знаний;  хранение,  анализ    и  обработка 
распределенных  баз  данных  и  знаний;  анализ  и  обработка  неструктурированных  больших 
данных на естественном языке. Эти направления согласованы и увязаны между собой.  При 
этом каждое направление представляет собой научно-технический проект. 
Основой  реализации  целевой  программы  является  исследование  и  разработка  новых 
подходов, моделей и методов представления, анализа и обработки больших данных и на этой 
базе  разработка  интеллектуальных  технологий  и  инструментальных  средств  для 
эффективного  применения  в  государственных  органах  с  целью  принятия  решений  и 
управления. 
В  рамках  целевой  программы  предполагается  разработать  теоретические  и 
методологические  основы  больших  данных  и  интеллектуальных  информационных  систем,  
включающие:  модели  и  методы  представления,  анализа  и  обработки  больших  данных  на 
основе  матричного исчисления  и  исследования  операций;  модели  и  методы, основанные  на 
нечетких множествах и нечетной логики для поиска и извлечения полезных данных и правил 
по  нечетким  и  квантифицированным  запросам  из  больших  распределенных  баз  данных; 
онтологические модели и аппарат логики для построения интеллектуальных систем, методы 
обработки многообразных неструктурированных данных. 
На базе теоретических разработок необходимо создать технологии и инструментальные 
средства и системы анализа и обработки  больших данных с использованием фреймворка и 
известных систем с открытым кодом (Open Source). 
Целью  программы  является  создание  научных,  методологических  и  технологических 
основ  анализа  и  обработки  больших  данных  (Big  Data)  и  интеграция  их  в  облачные 
вычисления (Cloud Computing) для применения в государственных органах. 

«ҚОҒАМДЫ АҚПАРАТТАНДЫРУ»  IV ХАЛЫҚАРАЛЫҚ ҒЫЛЫМИ-ПРАКТИКАЛЫҚ КОНФЕРЕНЦИЯ 
 
 
24
 
 
Общая цель программы может быть разбита на следующие 4 подцели: 
Создание  научных  основ  анализа  и  обработки  больших  данных,  подготовка  научных 
кадров.  Будут  исследованы  существующие  и  построены  новые    математические  модели 
анализа  и  обработки  больших  данных:  на  основе  матричного  исчисления  и  исследования 
операций; нечетких вычислений; эволюционных вычислений; компьютерной лингвистики. 
1)  Создание  методологических  основ  анализа  и  обработки  больших  данных, 
подготовка  научных  кадров.  Будут  исследованы  существующие  и  разработаны  новые  
методы  извлечения  полезной  информации  из  больших  данных:  по  нечетким  запросам, 
квантифицированным запросам, семантическим признакам, из естественного языка 
2)  Создание технологических основ анализа и обработки больших данных, подготовка 
научных  кадров,  2015  -2017  гг.  Будут  разработаны  фреймворк  для  создания 
инструментальных 
средств 
и 
новые 
информационные 
технологии: 
фреймворка; 
интеллектуальная  система  анализа  и  синтеза  устных  и  письменных  предложений 
естественного 
языка; 
интеллектуальная 
система 
обучения 
и 
контроля 
знаний; 
интеллектуальная вопросно-ответной система 
3)  Интеграция  разработанных    инструментальных  средств  и  информационных 
технологий в облачные вычисления для применения в государственных органах, подготовка 
научных  кадров,  2015  -2017  гг.  Будут  произведены  интеграция  в  облачные  вычисления   
программные приложения фреймворка; интеллектуальной системы анализа и синтеза устных 
и  письменных  предложений  естественного  языка;  интеллектуальной  системы  обучения  и 
контроля знаний; интеллектуальной вопросно-ответной системы. 
Для достижения заданной цели необходимо решение следующих задач: 
I.  Построение математических моделей анализа и обработки больших данных.  
І.1.  Построение  математических  моделей  задач  анализа  и  обработки  больших  данных 
на основе матричного исчисления и исследования операций; 
І.2.  Построение  математических  моделей  задач  анализа  и  обработки  больших  данных 
на основе нечетких вычислений;  
І.3.  Построение  математических  моделей  задач  анализа  и  обработки  больших  данных 
на основе  эволюционных вычислений.  
І.4.  Построение  математических  моделей  задач  анализа  и  обработки  больших  данных 
на основе  компьютерной лингвистики; 
II.  Разработка методов извлечения полезной информации из больших данных; 
IІ.1. Разработка методов извлечения полезной информации из распределенных больших 
данных по нечетким запросам;  
IІ.2. Разработка методов извлечения полезной информации из распределенных больших 
данных по квантифицированным запросам;  
IІ.3. Разработка  методов  извлечения  полезной  информации  из  больших  данных  по 
семантическим признакам;  
IІ.4. Разработка  методов  извлечения  полезной  информации  из  естественно  языковых 
неструктурированных больших данных; 
III. Разработка  и  интеграция  в  облачные  вычисления  интеллектуальных 
информационных технологий и инструментальных средств; 
III.1. Разработка  фреймворка  (
Framework 
)  для  создания  инструментальных  средств 
анализа и обработки больших данных; 
III.2. Разработка  и  интеграция  в  облачные  вычисления  интеллектуальной  системы 
анализа и синтеза устных и письменных предложений естественного языка; 
III.3. Разработка  и  интеграция  в  облачные  вычисления  интеллектуальной  системы 
обучения и контроля знаний; 
III.4. Разработка  и  интеграция  в  облачные  вычисления  интеллектуальной  вопросно-
ответной системы;  
В  рамках  программы  решается  комплексная  и  масштабная  проблема  анализа  и 

«ҚОҒАМДЫ АҚПАРАТТАНДЫРУ»  IV ХАЛЫҚАРАЛЫҚ ҒЫЛЫМИ-ПРАКТИКАЛЫҚ КОНФЕРЕНЦИЯ 
 
 
25
 
 
обработки  больших  данных  для  эффективного  принятия  решений  и  управления  в 
государственных органах и других отраслях национальной экономики 
Решаемыми  в  целевой  программе  проблемами  являются:  создание  научных  и 
методологических  основ  исследования  больших  данных  и  умных  информационных  систем; 
разработка  методов  хранения  больших  данных  и  извлечения  из  них  полезной  информации; 
разработка  и  интеграция  в  облачные  вычисления  умных  информационных  технологий  и 
инструментальных  средств.    Эти  проблемы  соответствуют  приоритетным  задачам 
социально-экономического развития страны, определенных  в: 
  Государственной  программе  Информационно-коммуникационные  технология»  в 
Казахстане  до  2030  года  ”Информационный  Казахстан  –  2020”,  утвержденной  Указом 
Президента РК от 8 января 2013 года, № 464; 
  Государственной  программа  по  форсированному  индустриально-инновационному 
развитию Республики Казахстан на 2015-2019 годы утверждена Указом Президента РК от 1 
августа 2014 года, № 874; 
 
Послании  Президента  РК  народу  Казахстана  «Стратегия  «Казахстан-2050»  от 
14.12.2012.
 
В  результате  реализации  программы  создаются  методы  и  инструменты  анализа  и 
обработки  больших  данных,  которые  объединены  в  единую  платформу  для  успешного  их 
применения и дальнейшего развития в различных отраслях экономики Казахстана. 
Будут  созданы  информационные  технологии,  методы  и  средства  с  использованием 
аппарата  нечетких  множеств  и  нечеткой  логики  по  нечетким  запросам  к  базам  данных. 
Данный  инструмент  дает    возможность  формулировать  запросы  естественном  языке,  что 
невозможно при использовании стандартного механизма запросов, а также извлекать из баз 
данных  закономерность,  которые  формулируются  в  виде  лингвистических  высказываний. 
Предлагаемые  информационные  технологии,  методы  и  средства  отличаются  новизной  и 
широким  практическим  применением  в  различных  сферах  экономики  и  базируются  на 
современных математических методах. 
Результаты  исследований  в  предлагаемой  целевой  программе  в  области  анализа  и 
обработки  больших  данных  будут  весьма  востребованы  как  для  мировой  экономики,  так  и 
реальных секторов экономики Казахстана. Они внесут существенный вклад в развитие науки 
и  технологий  в  области  анализа  и  обработки  больших  данных,  а  улучшение  качества  и 
эффективность  принятия  решений  и  управления  на  основе  технологий  больших  данных 
позволяет получить значительный социальный и экономический эффект.  
Создаваемые  интеллектуальные  системы на  государственном  языке, ориентированные 
на  большие  данные,  могут  быть  использованы  широкими  слоями  населения,  владеющих 
казахским языком. 
Таким  образом,  результаты  реализации  целевой  программы  в  сфере  применения 
технологии    анализа  и  обработки  больших  данных    позволят  внести  значительный  вклад  в 
науку  больших  данных  наряду  с  мировым  сообществом  и  оказать  влияние  на  социально-
экономическое развитие Республики Казахстан. 
4.  Заключение  
Применение  прорывных  информационных  технологий  больших  данных  и  облачных 
вычислений сегодня востребованы и в Казахстане. 
В  АО  «Национальные  информационные  технологии»  проводится  активная  работа  по 
разработке  и  применению  технологий  Big  Data  для  использования  в  государственных 
органах и других секторах национальной экономики. Создана рабочая группа по проблемам 
Big  Data,  разрабатывается  пилотный  проект  на  основе  отраслевых  баз  данных  с  целью 
принятий  эффективных  решений  и  управления.  Сформированы  заявки  на  выполнение 
научно-технических  проектов.  Решение  указанных  проблем  требует  объединения  усилий 
ученых и IT-специалистов Казахстана. 
 

«ҚОҒАМДЫ АҚПАРАТТАНДЫРУ»  IV ХАЛЫҚАРАЛЫҚ ҒЫЛЫМИ-ПРАКТИКАЛЫҚ КОНФЕРЕНЦИЯ 
 
 
26
 
 
УДК 004 
АТАНОВ С.К.  
 
Д.т.н. профессор, Евразийский национальный университет  им.Л.Н. Гумилева 
 
ПЕРСПЕКТИВЫ И ПРОБЛЕМЫ И ОБЛАЧНЫХ ТЕХНОЛОГИИ   
 
Повышение  качества  образования невозможно  без  использования  самых  современных 
информационных  технологий,  к  которым,  безусловно,  относятся  облачные  вычисления. 
Cloud computing, они же - облачные вычисления. Что это - модная штучка или реально что-то 
полезное? И какие новые проблемы оно готовит нам? 
Национальный  исследовательский  Южно-Уральский  государственный  университет 
(ЮУрГУ)  и  корпорация  Intel  30  сентября  2011  г  объявили  о  реализации  в  средней 
образовательной  школе  №67  г.  Челябинска      проекта  внедрения  инновационной 
образовательной  платформы  «Персональный  виртуальный  компьютер»  (ПВК)  на  базе 
облачных  вычислений.    Это  первый  в  России  и  СНГ  пример  начала  полномасштабного 
внедрения  платформы  на  базе  облачных  вычислений  в  систему  среднего  общего 
образования. 
Реализация 
данного 
проекта 
на 
практике 
демонстрирует 
переход 
образовательных  учреждений    на  новые  принципы  преподавания  и  организацию 
инновационного  процесса  обучения.  Не  менее  важна  и  экономическая  составляющая. 
Внедрение в образовательный процесс платформы «Персональный виртуальный компьютер» 
на  базе  технологии  облачных  вычислений  позволит  сократить  затраты  на  лицензионное 
программное  обеспечение  путем  создания  функционально  эквивалентных  образовательных 
сервисов на базе программ с открытым кодом. 
Применение инновационной образовательной платформы «Персональный виртуальный 
компьютер»,  созданной  на  базе  облачных  вычислений,  позволяет  уйти  от  традиционного 
понятия  «компьютерный  класс».  Теперь  в  любой  аудитории  можно  организовать 
современный  и  максимально  эффективный  учебный  процесс,  используя  ноутбуки  и 
беспроводную  сеть.  Технология  облачных  вычислений  и  реализованная  на  ее  основе 
образовательная платформа позволяют максимально эффективно использовать имеющиеся у 
учебного  заведения  программно-аппаратные  ресурсы,  а  студенты  и  школьники  получают 
возможность  применять  на  практике  самые  современные  компьютерные  технологии  на 
каждом занятии [1]. 
Две  модные  тенденции  последнего  времени,  связанные  с  облачными  вычислениями  и 
виртуализацией, поставили  неожиданные новые проблемы. Основной проблемой облачных 
вычислений эксперты считают информационную безопасность. 
Облачные технологии приводят к дополнительным рискам, связанным с возможностью 
несанкционированного  доступа  к  конфиденциальной  информации.  Появляются  риски, 
во первых,  связанные  с  атаками  на  сами  системы  виртуализации,  а  во вторых,  вызванные 
возможностью  краж  корпоративных  виртуальных  систем  в  полном  составе,  что  раньше 
невозможно было себе представить.   
Главные  из  них  вызваны  одновременным  присутствием  нескольких  виртуальных 
систем  разных  компаний  на  одном  и  том  же  аппаратном  обеспечении,  в  частности  —  на 
одних и тех же жестких дисках. Если вопросы доступности и целостности информации в той 
или  иной  мере  решаются,  то  несовершенство  существующих  механизмов  обмена 
информацией,  использование  незащищенных  каналов,  делегирование  процессов  обработки 
данных  третьим  лицам  и  другие  подобные  проблемы  вызывают  закономерное  неприятие 
заказчика, который хочет обеспечить сохранность своей критичной информации. 
И  это  беспокоит  не  специалистов  и  аналитиков  из  СНГ.  Но  и  зарубежных 
специалистов,  так  и  спецслужба  Австралии  предупреждают  об  опасности  облачных 

«ҚОҒАМДЫ АҚПАРАТТАНДЫРУ»  IV ХАЛЫҚАРАЛЫҚ ҒЫЛЫМИ-ПРАКТИКАЛЫҚ КОНФЕРЕНЦИЯ 
 
 
27
 
 
сервисов. Австралийская спецслужба, ответственная за безопасность в сфере коммуникаций, 
Defence Signals Directorate (DSD), выпустила документ, предупреждающий государственные 
учреждения о возможных рисках, возникающих при использовании облачных технологий.   
  Мнения  экспертов.  Технологии  облачных  вычислений  распространяются  по  миру 
так  же  неотвратимо,  как  и  облачная  погода  при  циклоне.  Вопрос,  по  мнению  Виктора 
Иванникова,  в  том,  как  мы  будем  себя  позиционировать  в  этом  «облачном  мире»  –  только 
как  пользователи  или  как  разработчики?  Тем  более  что  в  облачных  технологиях 
используется  не  только  проприетарное  (лицензионное)  программное  обеспечение,  но  и 
свободное  ПО,  с  открытым  кодом.  И  в  этом  для  нашей  страны  –  огромный  шанс,  убеждён 
директор ИСП РАН.  
Однако  при  имеющемся  предложении  со  стороны  крупнейших  международных 
корпораций  Microsoft,  IBM,  Intel,  NEC,  а  также  российского  системного  интегратора  – 
компании  КРОК  и  других  отечественных  ИТ-поставщиков  спрос  на  облачные  сервисы  в 
России  пока  невелик.  Во  всяком  случае,  государственные  органы  свой  взор  на  облачные 
технологии не обращают. Об этом можно судить, хотя бы зайдя на сайт Министерства связи 
и  массовых  коммуникаций  РФ.  Запросив  в  поиске  сайта  «облачные  вычисления»  или 
«облачные технологии», ответа вы не получите.   
Но  то,  что  семинар  в  ИНСОРе  был  организован  при  содействии  экспертно-
консультативной  группы  Совета  при  Президенте  РФ  по  развитию  информационного 
общества,  которая,  видимо,  подготовит  свои  рекомендации  по  внедрению  облачных 
вычислений в сферу государственного и муниципального управления, вселяет надежду.   
  Более  того,  эта  модель  заработает  и  у  нас,  В  Казахстане.  В  минувший  вторник  в 
Алматы  состоялось  открытие  научно-исследовательской  лаборатории  открытых  систем  и 
облачных вычислений. Это первый и единственный проект подобного уровня в Казахстане. 
Он  воплотился  в  результате  совместной  деятельности  китайской  компании  Huawei-Almaty, 
инфокоммуникационного 
холдинга 
«Зерде» 
и 
Международного 
университета 
информационных технологий. 
   Есть  еще  неожиданная  проблема,  связанная  не  только  с  облачными 
вычислениями,  но  и  самим  «облаком»,    точнее  с  их  пользователями.  Это  военные 
операции  против  кибератак.  Если  ранее  США  могло  начать  военные  операции  по 
неподтвержденым  данным  о  ядерных  исследованиях  или  по  подозрения  в  поддержке 
террористов,  то  теперь  они  оставляют  за  собой  право  использовать  любые  средства,  в  том 
числе и военные, для отражения кибератак. Об этом заявил в минувший вторник   18 октября 
10.2011  координатор  госдепартамента  по  вопросам,  относящимся  к  киберпространству, 
Кристофер  Пейнтер.  "Мы  оставляем  за  собой  право  использовать  любые  средства, 
имеющиеся  в  нашем  арсенале,  чтобы  реагировать  на  достаточно  серьезные  кибер-
инциденты", - сказал Пейнтер в беседе  с иностранными журналистами. При этом дипломат 
оговорился,  что  к  военной  силе  США  прибегнут  лишь  в  качестве  крайней  меры.  Одна  из 
проблем, по его словам, заключается в том, что очень трудно определить, кто именно стоит 
за той или иной кибератакой[2]. 
Ранее  США  уже  обнародовали  новую  стратегию  по  обеспечению  безопасности 
киберпространства, которая предусматривает использование военных средств для отражения 
компьютерных атак иностранных государств. В соответствии с этой стратегией, нападение в 
киберпространстве  может  расцениваться  как  составляющая  военной  акции  со  стороны 
другого  государства,  что  открывает  для  США  возможность  принятия  ответных  мер  с 
применением традиционных вооруженных сил. 
Предлагаемые методы защиты. Действительно новыми являются риски, связанные с 
управлением облаком, поскольку злоумышленники могут использовать автоматизированную 
систему  управления облаком для достижения своих целей — именно в этой части и нужно 
создавать  новые  защитные  механизмы,  которые  должны  решать  указанные  экспертами 
проблемы. Однако задачи управления облаком тесно связаны с самой технологией облака, а 

«ҚОҒАМДЫ АҚПАРАТТАНДЫРУ»  IV ХАЛЫҚАРАЛЫҚ ҒЫЛЫМИ-ПРАКТИКАЛЫҚ КОНФЕРЕНЦИЯ 
 
 
28
 
 
поэтому  и  сами  эти  защитные  инструменты  должны  разрабатывать  создатели  облачных 
технологий.? Пока реально эффективных  подобных инструментов не предложил ни один из 
облачных вендоров, но они должны появиться уже в самой близкой перспективе. 
Так,  упомянутая  ранее  австралийская  спецслужба,  ответственная  за  безопасность  в 
сфере  коммуникаций  (DSD),  выпустила  документ,  предупреждающий  государственные 
учреждения.  Данный  18-страничный  документ  рекомендован  к  ознакомлению  всем 
государственным  учреждениям,  которые  собираются  внедрять  облачные  технологии  у  себя 
или использовать услуги облачных провайдеров [3].  
Основное  внимание  в  документе  уделено  вопросам  определения  уровня  надежности 
потенциального  поставщика  облачных  услуг.  При  этом,  в  целом,  не  рекомендуется 
передавать в облако критически важные или конфиденциальные данные, недоступность или 
утечка  которых  могут  нанести  серьезный  урон  бизнес-процессам  и  государственным 
интересам.  
Также  DSD  рекомендует  выяснять,  на  территории  какой  страны  будут  храниться  и 
обрабатываться  данные,  в  том  числе,  в  случае  выхода  из  строя  дата-центров  и  возможного 
переноса 
данных 
на 
резервные 
мощности. 
Для 
обеспечения 
«информационной 
независимости» 
рекомендуется 
оказывать 
предпочтение 
местным 
поставщикам 
информационных  услуг  либо  тем  зарубежным  поставщикам,  которые  обладают 
соответствующими мощностями внутри страны.  
Для  повышения  уровня  надежности  облачных  услуг  следует  принимать  во  внимание 
такие  как  аспекты  как  наличие  у  провайдера  плана  действий  на  случай  чрезвычайных 
ситуаций, надежность интернет-соединения, регулярное резервное копирование данных и, по 
возможности, дублирование ключевой функциональности услугами второго провайдера.  
Следует отметить, что и СНГ уже появляются продукты, которые позволяют сохранить 
наиболее  ценные  сведения  даже  в  облаках.  Компания  "Аладдин  РД»  представила 
инструментарий,  позволяющий  шифровать  самые  ценные  данные  на  специальном  сервере, 
через который и устанавливается соединение с арендованной базой данных. Сейчас продукт 
интегрирован  с  облачным  сервисом  Oracle  CRM  On  Demand  и  является  продолжением 
системы  шифрования  избранных  полей  баз  данных,  которые  уже  несколько  лет  компаниям 
предлагает  на  рынке  (см.  также  "Криптобаза»,  Computerworld  Россия,  №  40,  2010). 
Перенесение  этой  технологии  в облака  позволит  пользователям  сервисов  держать  наиболее 
ценные данные под контролем.  
Для безопасной работы кампания Касперского, известной в СНГ антивирусной среды, 
разрабатывает  сервис  «Облако»  (Kaspersky®  Security  Network)  —  это  инфраструктура 
онлайн-служб  и  сервисов,  которая  непрерывно  собирает  и  анализирует  информацию  о 
киберкриминальной активности по всему миру.  
Заключение.  Сегодня  мировые  эксперты  говорят  о  готовности  облачных  вычислений 
для  корпоративной  ИТ-среды  для  облачных  технологии  в  образовательном  пространстве. 
Ясно одно: электронные образовательные технологий, как то электронные on-line учебники, 
виртуальные  лаборатории  и  компьютерные  классы  и  даже,  виртуальные  университеты,  это 
реальность.  которую  невозможно  игнорировать.  Нравится нам  это  или нет,  но  идея  аренды 
приложений, платформ разработки, вычислительных мощностей, хранилищ и любых других 
облачных  сервисов  повторяет  путь  Интернета  от  экспериментальной  системы  к  серьезному 
бизнес-инструменту.  И  если  область  персональных  компьютеров  еще  можно  локализовать, 
то  сейчас  их  незаметно  заменяют  новые  технологические  гаджеты,  которые  будут  уже 
концептуально жить в облаке – это плантешники и Айпады, приходящие на смену сотовым 
телефонам.  Технология  облачных  вычислений  способна  в  корне  изменить  правила 
игры,  а  в  ближайшее  десятилетие  облик  информационных  технологий  в  целом  и 
образовательных технологий в частности.  
Использованная литература 
1. 
http://rscgroup.ru/news/12/
 

«ҚОҒАМДЫ АҚПАРАТТАНДЫРУ»  IV ХАЛЫҚАРАЛЫҚ ҒЫЛЫМИ-ПРАКТИКАЛЫҚ КОНФЕРЕНЦИЯ 
 
 
29
 
 
2. 
http://www.itar-tass.com/c11/250711.html
 
3. 
http://komputernij-mir.ru/tag/specsluzhby
 
 
УДК 004 
СИРАЗИТДИНОВ З.А., СИРАЗИТДИНОВ  Б.З. 
 
О СОЗДАНИИ ТЕРМИНОЛОГИЧЕСКОЙ БАЗЫ ДАННЫХ  
БАШКИРСКОГО ЯЗЫКА 
 
(Институт истории, языка и литературы Уфимского научного центра РАН, г.Уфа, 
Республики Башкортостан) 
 
В  практической  лексикографии  значительную  долю  работы  составляет  создание 
специализированных  (терминологических)  словарей.  Большую  помощь  лексикографам  в 
этой  работе  оказывают  специализированные  терминологические  базы  данных,  которые 
позволяют  не  только  автоматизировать  подготовку  различных  видов  терминологических 
словарей  и  указателей,  но  и  берут  на  себя  такие  трудоемкие  и  рутинные  процессы,  как 
создание  и  ведение  терминологических  справочных  картотек  и  распространение  самой 
терминологической  информации  в  отраслях.  В  этом  плане  по  многим  языкам  уже 
разработаны  отраслевые  терминологические  базы  данных  [1;  2;  3,  4].  В  башкирском 
языкознании  разработано  достаточное  количество  терминологических  словарей,  только  за 
последние  13  лет  издано  более  20  словарей  такого  типа.  Но  отсутствие  баз  данных  по 
башкирской терминологии все же тормозит работу в этом направлении. Составление такого 
банка данных было начато в 2012 г. при поддержке фонда РГНФ. 
За  время  работы  сотрудниками  лаборатории  были  созданы  двуязычные  (русско-
башкирский  и  башкирско-русский)  банки  данных  терминологии  по  гуманитарным  и 
естественным наукам и отраслям деятельности. 
Для  систематизации  национальной  терминологии  нами  использован  рубрикатор 
ГРНТИ 
(Государственный 
рубрикатор 
научно-технической 
информации, 
прежнее 
наименование 
– 
Рубрикатор 
ГАСНТИ), 
представляющий 
собой 
универсальную 
иерархическую классификацию областей знания, принятую для систематизации всего потока 
научно-технической  информации.  Выделенные  по  данному  рубрикатору  тематические 
группы  представлены  в  Таблице  1.  Эти  тематические  группы  образуют  отдельные  базы 
общего терминологического банка данных башкирского языка. 
Терминологический банк данных строится по общепринятым нормам в отечественной 
практике создания таких систем. Элементами терминологической базы являются простые и 
составные  слова  (архитектоника,  архитектоника  коры  головного  мозга),  краткие  и  полные 
варианты  терминов  (водозаборное  сооружение  —  водозабор,  высшее  учебное  заведение  — 
вуз, лечебно-трудовой профилакторий — ЛТП, электрокардиограмма — ЭКГ). 
Структура  данных  терминологической  базы  башкирского  языка  представлена  на 
рисунке 1. 
термин 


Достарыңызбен бөлісу:
1   2   3   4   5   6   7   8   9   ...   40




©emirsaba.org 2024
әкімшілігінің қараңыз

    Басты бет