Iv халықаралық Ғылыми-практикалық конференция еңбектері



Pdf көрінісі
бет7/40
Дата03.03.2017
өлшемі19,29 Mb.
#7046
1   2   3   4   5   6   7   8   9   10   ...   40
частью рынка программирования микроконтроллеров. Вывод продукта в Open Source должен 
увеличить  популярность  фреймворка.  Необходимо  понимать,  что  .NET  Micro  Framework 
можно  применять  только  в  специфичных  случаях.  Большие  для  микроконтроллеров 
аппаратные 
требования, 
которым 
удовлетворяют 
только 
немногие 
«мощные» 
микроконтроллеры  основанные  на  таких  архитектурах  как,  например,  ARM7  или  ARM9, 
резко 
сокращают 
возможности 
применения 
[3]. 
Абстрагирование 
от 
работы 
низкоуровневыми  процессами  является  неоднозначным  решением.  С  одной  стороны, 
упрощается  процесс  разработки  и  упрощается  погружение  новичков  в  программирование 
микроконтроллера,  с  другой  стороны,  не  учитываются  характерные  особенности  каждого 
микроконтроллера  и  новички  не  получат  фундаментальных  знаний  об  устройстве 
микроконтроллера.  В  любом  случае,  .NET  Micro  Framework  решает  свой  круг  задач 
достаточно хорошо и имеет право на жизнь. 
Литература 
1. Kuhner J. Expert .NET Micro Framework, 2nd Edition - Apress, 2009, 504 с. 
2. Thompson  D.,  Miles  R.  Embedded  Programming  with  the  Microsoft  .NET  Micro  Framework.  — 
Microsoft Press, 2010, 288 с. 
3. Атанов С.К. Алгоритмы  программирования контроллеров в системах управления с нечетной 
логикой // Международная научно-практическая конференция – «Достижения высшего образования», 
г. Болгария, 2008 год. стр.58-62 
 
 
 

«ҚОҒАМДЫ АҚПАРАТТАНДЫРУ»  IV ХАЛЫҚАРАЛЫҚ ҒЫЛЫМИ-ПРАКТИКАЛЫҚ КОНФЕРЕНЦИЯ 
 
 
58
 
 
УДК 004.822 
 
БАПАНОВ А.А. 
 
К ВОПРОСУ ПРИМЕНЕНИЯ ОНТОЛОГИИ КАК СИСТЕМЫ ХРАНЕНИЯ 
ЗНАНИЙ 
 
(Евразийский национальный университет им. Л.Н. Гумилева, Астана, Казахстан) 
 
В данное время с значительным ростом потока информации, появилась необходимость 
поиска  новых  способов  ее  хранения,  представления,  формализации  и  систематизации,  а 
также автоматической обработки данных. Таким образом, растет интерес к всеобъемлющим 
базам  знаний,  которые  возможно  использовать  для  различных  практических  целей. 
Огромный интерес вызывают системы, способные без участия человека извлечь какие-либо 
сведения из текста.  
Наряду  с  World  Wide  Web  появляется  его  расширение,  Semantic  Web,  в  котором 
гипертекстовые  страницы  снабжаются  дополнительной  разметкой,  несущей  сведения  о 
семантике  включаемых  в  страницы  элементов.  Неотъемлемым  компонентом  Semantic  Web 
является понятие онтологии, описывающее смысл семантической разметки. 
Под онтологией понимается  система  понятий некоторой предметной области,  которая 
представляется  как  набор  сущностей,  соединенных  различными  отношениями.  Онтологии 
используются для формальной спецификации понятий и отношений, которые характеризуют 
определенную область знаний. Преимуществом онтологий в качестве способа представления 
знаний является их формальная структура, которая упрощает их компьютерную обработку. 
Онтологии  используются  как  источники  данных  для  многих  компьютерных 
приложений (для информационного поиска, анализа текстов, извлечения знаний и в других 
информационных  технологиях),  позволяя  более  эффективно  обрабатывать  сложную  и 
разнообразную  информацию.  Этот  способ  представления  знаний  позволяет  приложениям 
распознавать  семантические  отличия,  которые  являются  само  собой  разумеющимися  для 
людей, но не известны компьютеру [1]. 
Понятие  онтологии  известно  давно,  но  стало  применяться  в  компьютерных 
технологиях  лишь  недавно.  Полноценная  разработка  онтологий  в  новом  смысле  этого 
термина  началось  лишь  в  конце  90-х.  Это  достаточно  новая  и  мало  разработанная  отрасль 
прикладной  лингвистики.  Большинство  работ  по  созданию  и  использованию  онтологий 
проводится за рубежом. 
В  общем  виде  структура  онтологии  представляет  собой  набор  элементов  четырех 
категорий:  
- понятия;  
- отношения;  
- аксиомы;  
- отдельные экземпляры. 
Понятия  рассматриваются  как  концептуализации  класса  всех  представителей  некой 
сущности или явления. Классы (или понятия) являются общими категориями, которые могут 
быть  упорядочены  иерархически.  Каждый  класс  описывает  группу  индивидуальных 
сущностей, которые объединены на основании наличия общих свойств.  
Понятия  могут  быть  связаны  различного  рода  отношениями,  которые  связывают 
воедино  классы  и  описывают  их.  Самым  распространенным  типом  отношений, 
использующимся во всех онтологиях, является отношение категоризации, то есть отнесение 
к определенной категории. Этот тип отношений имеет ряд других названий, встречающийся 
в различных исследованиях:  
- таксономическое отношение;  

«ҚОҒАМДЫ АҚПАРАТТАНДЫРУ»  IV ХАЛЫҚАРАЛЫҚ ҒЫЛЫМИ-ПРАКТИКАЛЫҚ КОНФЕРЕНЦИЯ 
 
 
59
 
 
- отношение IS-A;  
- класс – подкласс;  
- лингвистика: гипоним – гипероним;  
- родовидовое отношение;  
- отношение a-kind-of [2].  
Аксиомы  задают  условия  соотнесения  категорий  и  отношений,  они  выражают 
очевидные  утверждения,  связывающие  понятия  и  отношения.  Под  аксиомой  можно 
понимать  утверждение,  вводимое  в  онтологию  в  готовом  виде,  из  которого  могут  быть 
выведены другие утверждения. Они позволяют выразить ту информацию, которая не может 
быть  отражена  в  онтологии  посредством  построения  иерархии  понятий  и  установки 
различных отношений между понятиями.  
Наряду  с  указанными  элементами  онтологии  в  нее  также  входят  так  называемые 
«экземпляры». В литературе они могут выступать также под названиями:  
- конкретные экземпляры;  
- инстанции;  
- индивидуальные экземпляры.  
Экземпляры  –  это  отдельные  представители  класса  сущностей  или  явлений,  то  есть 
конкретные элементы какой-либо категории.  
Составляющие  онтологии  подчиняются  своеобразной  иерархии.  На  нижнем  уровне 
этой  иерархической  лестницы  находятся  экземпляры,  конкретные  индивиды,  выше  идут 
понятия,  то  есть  категории.  На  уровень  выше  располагаются  отношения  между  этими 
понятиями, а обобщающей и связующей является ступень правил или аксиом. 
К  онтологиям  можно  отнести  ряд  структур,  отличающихся  разной  степенью 
формализованности:  
- глоссарий;  
- простая таксономия;  
- тезаурус (таксономия с терминами);  
- понятийная структура с произвольным набором отношений;  
- полностью аксиоматизированная теория.  
Онтологии  сильно  различаются  по  ряду  параметров,  и  исследователи  выделяют 
различные  основания  для  их  классификации.  Так  Э.  Хови    говорит,  что  онтологии 
различаются  в  зависимости  от  набора  элементов,  содержащихся  в  них,  а  также  типов 
вводимых  отношений.  Он  выделяет  так  называемые  «терминологические  онтологии»  и 
«настоящие онтологии». Под первыми Э.Хови  понимает онтологии, включающие сущности, 
явления,  свойства,  связи  предметной области и  объединяющие  их  структурные  отношения. 
«Настоящие» же онтологии включают в себя также дефиниционные отношения и отношения 
дополнительной информации [3].  
Зачем  же  строят  онтологии  и  где  они  применяются.  Н.  Ной  упоминает  ряд  способов 
использования онтологий:  
- для  совместного  использования  людьми  или  программными  агентами  общего 
понимания структуры информации;  
- для возможности повторного использования знаний в предметной области;  
- для того чтобы сделать допущения в предметной области явными;  
- для отделения знаний в предметной области от оперативных знаний;  
- для анализа знаний в предметной области [4].  
Построение  онтологии  часто  не  является  само  по  себе  конечной  целью,  обычно 
онтологии далее используются другими программами для решения практических целей. На 
данном  этапе  развития  науки  существует  ряд  задач,  где  применение  онтологий  может  дать 
хорошие  результаты.  Однако  сейчас  лишь  малое  количество  приложений  на  естественном 
языке  включают  в  себя  онтологические  базы,  откуда  черпаются  знания  об  окружающей 

«ҚОҒАМДЫ АҚПАРАТТАНДЫРУ»  IV ХАЛЫҚАРАЛЫҚ ҒЫЛЫМИ-ПРАКТИКАЛЫҚ КОНФЕРЕНЦИЯ 
 
 
60
 
 
действительности.  С.  Ниренбург  и  В.  Раскин  говорят  о  возможности  использования 
онтологий в:  
- машинном переводе;  
вопросно-ответных системах;  
- информационном поиске;  
- системах извлечения знаний;  
- общих системах ведения диалога между компьютером и человеком;  
- системах понимания языка. 
Можно упомянуть также системы расширенного консультирования, которые включают 
в себя несколько уровней работы с информацией и строятся на базе другие приложений [5].  
В  искусственном  интеллекте  онтологии  используются  для  формальной  спецификации 
понятий  и  отношений,  которые  характеризуют  определенную  область  знаний.  Поскольку 
компьютер  не  может  понимать,  как  человек,  положение  вещей  в  мире,  ему  необходимо 
представление  всей  информации  в  формальном  виде.  Таким  образом,  онтологии  служат 
своеобразной  моделью  окружающего  мира,  а  их  структура  такова,  что  легко  поддаются 
машинной  обработке  и  анализу.  Онтологии  снабжают  систему  сведениями  о  хорошо 
описанной  семантике  заданных  слов  и  указывают  иерархическое  строение  области, 
взаимосвязь  элементов.  Все  это  позволяет  компьютерным  программам  при  помощи 
онтологий делать умозаключения из представленной информации и манипулировать ими.  
Онтологии  используются  также  при  построении  корпуса  определений,  служащего 
справочным  материалом.  В  дальнейшем  результаты  работы  могут  использоваться  для 
сложных процедур обработки естественного языка, например, в снятии омонимии на основе 
контекста.  Онтологии  могут  использоваться  для  вывода  умозаключений,  необходимых  для 
понимания 
текстов 
на 
глубинно-семантическом 
уровне, 
что 
требуется 
для 
высококачественного  машинного  перевода  и  может  служить  базой  для  расширения  и 
уточнения  информационного  поиска.  Глубокий  анализ  текста  необходим  и  для  систем 
автоматического  реферирования.  Стоит  упомянуть,  что  также  онтологии  могут 
способствовать  систематизации  понятий.  На  базе  онтологий  может  осуществляться 
автоматическое  аннотирование  и  разбор  текстов,  которое  в  дальнейшем  может 
использоваться в первую очередь в информационном поиске, а также при различных видах 
анализа информации
Создание 
онтологий 
является 
перспективным 
направлением 
современных 
исследований по обработке  информации,  представляемой  на  естественном  языке.  Наиболее 
перспективной является автоматизация создания онтологий, однако на данном этапе еще не 
разработаны  эффективные  процедуры,  применение  которых  позволит  сократить  долю 
ошибок. Поэтому процесс создания онтологий является столь трудоемким. В рамках работы 
освещено  понятие  онтологии,  рассмотрена  общая  структура  и  различные  области 
применения онтологий.  
Список использованных источников 
1.  Константинова  Н.С.,  Митрофанова  О.А.  Онтологии  как  системы  хранения  знаний.    СПб.:  
Санкт-Петербургский государственный университет, 2008 г. - 54с.  
2.  Добров  Б.В.,  Иванов  В.В.,  Лукашевич  Н.В.,  Соловьев  В.Д.  Курс  из  16  презентаций: 
«Онтологии и тезаурусы». //URL: http://download.yandex.ru /class/solovyev/plan.pdf 
3. Hovy E. A Standard for Large Ontologies // URL: http://www.isi.edu/nsf/papers/hovy2.htm 
4. Noy N., McGuinness D. L. Ontology Development 101: A Guide to Creating Your First Ontology. 
// Stanford Knowledge Systems Laboratory Technical Report KSL-01-05 and Stanford Medical Informatics 
Technical  Report  SMI-2001-0880,  March  2001.  //URL:http://  protege.stanford.edu  /publications 
/ontology_development /ontology101.html  
5. Nirenburg S., Raskin V.. Ontological Semantics. Cambridge, MA, 2004.  
 
 

«ҚОҒАМДЫ АҚПАРАТТАНДЫРУ»  IV ХАЛЫҚАРАЛЫҚ ҒЫЛЫМИ-ПРАКТИКАЛЫҚ КОНФЕРЕНЦИЯ 
 
 
61
 
 
УДК 004 
БЕГІМТАЙ Ұ.Х. 
 
ОБЩАЯ ХАРАКТЕРИСТИКА ЗАДАЧ ИНТЕЛЛЕКТУАЛЬНОЙ ОБРАБОТКИ 
ТЕКСТА 
 
(Евразийский Национальный Университет имени Л.Н.Гумилева, Астана) 
 
В  статье  описываются  модели  представления  естественно-языкового  текста  и 
алгоритмы  для  его  формализованного  структурирования.  Основной  целью  данной  работы 
является  разработка  модели  представления,  методов  и  алгоритмов  интеллектуальной 
обработки текста с целью его формализации в информационных системах. 
Трудноформализуемые  задачи  интеллектуальной  обработки  естественно  -  языкового 
текста представляют собой предмет непрекращающихся попыток их решения на протяжении 
последних  50  лет.  Среди  множества  трудноформализуемых  задач  большое  внимание 
уделялось  и  уделяется  решению  задач  человеко  -  машинного  общения  на  естественном 
языке.  Анализ  естественно  -  языковых  текстов  представляет  собой  очень  актуальную 
проблему,  особенно  в  последнее  время,  в  виду  большого  роста  объёмов  текстовой 
информации  и  сложной  структурированности  естественно  -  языковых  текстов.  Проблема 
сверхбольших  объёмов  текстовой  информации  возникла  в  середине  90-х  годов  XX  века  по 
мере  развития  сети  Internet  и  с  каждым  годом  становилась  всё  более  актуальной.  Области 
применения  систем  анализа  естественно-языковых  текстов  достаточно  разнообразны.  К 
наиболее  распространённым  из  них  относятся  поисковые  системы,  вопросно  -  ответные 
системы,  системы  автоматизированного  машинного  перевода.  Задача  поиска  текстовой 
информации  заключается  в  нахождении  минимальных  смысловых  единиц  текста,  которые 
релевантны  запросу.  Найденные  единицы  должны  отвечать  требованиям  полноты  и 
точности.  Интеллектуальная  обработка  текста  (Text  Mining)  -  это  та  технология,  которая 
применяется для решении вышеупомянутых задач. 
Технология  разработки  интеллектуальных  учебных  изданий  также  использует 
интеллектуальную  обработку  текста.  Интеллектуализация  учебных  изданий  заключается  в 
статистическом  и  лингвистическом  анализе,  а  также  методах  искусственного  интеллекта,  и 
предназначены  для  проведения  смыслового  анализа,  обеспечения  навигации  и  поиска  в 
неструктурированных  текстах.  Одной  из  главных  задач  является  -  извлечение  из текста  его 
характерных элементов или свойств, которые могут использоваться в качестве метаданных, 
ключевых слов, аннотаций. Другая важная задача состоит в отнесении какого-либо текста к 
некоторым  категориям  из  заданной  схемы  их  систематизации.  Вообщем  можно  разделить 
весь процесс на четыре основные задачи: 
- классификация  текста,  в  которой  используются  статистические  корреляции  для 
построения правил размещения какого-либо текста в предопределенные категории; 
- кластеризация, базирующаяся на признаках текста, использующая лингвистические и 
математические методы без использования предопределенных категорий; 
- семантические сети или анализ связей, которые определяют появление дескрипторов 
(ключевых фраз) в тексте для обеспечения навигации; 
- извлечение  фактов,  предназначенное  для  получения  некоторых  фактов  из  текста  с 
целью улучшения классификации, поиска и кластеризации. 
В  работе  предполагается  выделить  среди  некоторого  количества  вводимых  в  систему 
неструктурированных  текстов  их  семантическую  структуру  и  выделить  структурные 
элементы,  на  основании  которых  полученный  структурированный,  т.  е.  формализованный 
текст  может  быть  введён  в  информационную  систему.  Для  этой  цели  предлагается 
выполнять следующую последовательность действий: 
- принимать от пользователя на вход некоторый набор неструктурированных текстов; 

«ҚОҒАМДЫ АҚПАРАТТАНДЫРУ»  IV ХАЛЫҚАРАЛЫҚ ҒЫЛЫМИ-ПРАКТИКАЛЫҚ КОНФЕРЕНЦИЯ 
 
 
62
 
 
- выполнять  обработку  введённого  текста  и  выводить  полученное  иерархическое 
оглавление с возможностью последующей его правки вручную; 
- расставлять  исходный  текст  в  разделах  полученного  оглавления  и  выводить 
пользователю с возможностью удаления ненужных фрагментов; 
- завершать  на  основе  внесённых  правок  формирование  текста  с  формализованной 
структурой  в  некотором  формате,  который  может  быть  воспринят  информационной 
системой. 
Весь текст будет описан в виде графа, в котором содержатся множество вершин и связь 
между ними, а также веса для каждого из них: 
- V - вершина графа; 
- Е - связь между вершинами. 
- Каждая 
вершина 
(Vj) 
будет 
иметь 
вес 
соответствующего понятия (Wvj) и связи с остальными 
вершинами с заданными для них весами 
- Wv - множество соответствующих понятий; 
- WЕ - множество связей между вершинами. 
 
   
Вершина  графа  -  это  слова  в  тексте.  У  каждой 
вершины  имеется  свой  порядковый  номер,  который 
определяется по формуле: Djj+1 = N(Vj+1 ) - N(Vv ). 
Из  текста  удаляются  все  стоп-слова.  Минимальной 
длиной  считается  буква  или  цифра  в  тексте.  У 
каждой  вершины  имеется  начальная  формула  слова 
входящая в состав лексемы и множество граммем. 
- Lvі - множество начальных форм; 
- Gvі  - множество граммем. 
 
Поскольку  речь  идёт  о  машинном  представлении  характеристик  единиц  текста, 
используемый  в  машинном  представлении  тип  данных  будет  иметь  какую-либо 
агрегирующую  информацию  в  тескте.  Одними  из  возможных  методов  решения  задачи 
формирования  агрегирующих  характеристик  для  единиц  текста  являются  методы, 
применяемые  в  задаче  снижения  размерности  при  классификации.  К  этим  методам 
относятся: 
- взвешивание понятий; 
- метод главных компонент; 
- использование статистических критериев; 
- использование теории информации. 
В  рассматриваемой  подзадаче  присутствует  агрегирующая  информация,  являющаяся, 
как  было  определено  ранее,  множеством  фиксированного  размера  числовых  агрегирующих 
характеристик.  Задача  состоит  в  распределении  на  основе  этой  информации  единиц  текста 
по разделам. При этом заранее неизвестны ни сами разделы, ни их количество. Но известно, 
что разделы имеют иерархическую структуру. В то же время количество уровней иерархии 
имеет  минимальное  значение,  но  сверху  не  ограничено.  Задача  распределения  некоторых 
объектов,  в  данном  случае  единиц  текста,  имеющих  заданное  количество  признаков,  в 
данном случае агрегирующих характеристик, по некоторым заранее неизвестным группам с 
неизвестным  заранее  их  количеством  и  их  иерархической  структурой  является  задачей 
иерархической  кластеризации.  Таким  образом,  для  выявления  сходств  между  единицами 
текста  на  основе  агрегирующей  информации  и  распределения  их  по  разделам  требуется 
использовать один из методов иерархической кластеризации. 
корень 
множество 
прави
л 
множество 
окончаний 
словарь
 

«ҚОҒАМДЫ АҚПАРАТТАНДЫРУ»  IV ХАЛЫҚАРАЛЫҚ ҒЫЛЫМИ-ПРАКТИКАЛЫҚ КОНФЕРЕНЦИЯ 
 
 
63
 
 
Для  получения  в  дальнейшем  агрегирующих  характеристик,  по  которым  можно 
распределить  по  разделам  единицы  текста,  предлагается  по  некоторым  выбрать  из  текста 
основные понятия, позволяющие затем вычислить по ним агрегирующие характеристики. По 
этим основным понятиям предлагается выделить кластеры, определяющие состав каждой из 
агрегирующих  характеристик,  что  позволит  по  вхождению  соответствующих  понятий  в 
единицы  текста  определить  для  них  значения  этих  агрегирующих  характеристик.  Одной  из 
основ  для  выбора  этих  понятий  может  послужить  информация,  приписанная  им  по 
результатам  первоначальной  обработки  текста.  Эта  информация  включает  как  типы  связей 
понятий, так и набор граммем, приписанный каждому из понятий. В этом отношении одним 
из  существенных  факторов  представляется  часть  речи.  Действительно,  информация, 
содержащаяся в тексте, сконцентрирована большей частью в определённых частях речи, при 
этом  даже  некоторые  основные  части  речи  несут  лишь  функцию  отдельных  уточнений,  а 
служебные  части  речи  и  вовсе  указывают  лишь  на  грамматические  связи.  При  этом  также 
следует  отметить,  что  иногда  информация  может  концентрироваться  в  наборе  частей  речи, 
что бывает в случае несвободных словосочетаний и фразеологизмов, представляющих собой 
лексемы,  состоящие  из  нескольких  слов.  Тем  не  менее,  все  эти  особенности  не  вызывают 
затруднения, поскольку по итогам первоначальной обработки текста в узлах семантической 
сети располагаются именно лексемы, а служебные части речи и вовсе преимущественно не 
входят в семантическую сеть. Тем не менее, среди основных частей речи, либо несвободных 
словосочетаний  нужно  выделить  наиболее  существенные.  Поскольку  основой  предложения 
являются  подлежащее  и  сказуемое,  а  также  значительную  роль  выполняют  прямое  и 
косвенное  дополнение,  а  они  бывают  выражены  чаще  всего  существительным  и  глаголом 
соответственно,  то  можно  сделать  вывод,  что  основную  семантику  составляют 
существительные  и  глаголы.  К  тому  ж  в  процессе  синтаксического  анализа  центральное 
место  занимает  глагол,  остальные  части  речи  оформляются  как  его  актанты  со  своими 
зависимыми словами. Важная роль существительного также очевидна по его семантике, т. е. 
обозначения предметов и понятий, о которых идёт речь. Если же встречаются несвободные 
словосочетания, фразеологизмы или конверсивы, т. е. случаи, когда части речи самих слов не 
соответствуют  их  синтаксической  роли  в  предложении,  то  при  первоначальной  обработке 
текста им будут приписаны граммемы именно тех частей речи, роль которых они выполняют 
в предложении, поэтому и в этом случае будут учтены понятия, несущие основной смысл. 
 
 
УДК 00485 
 
БЕКБУЛАТОВ Е.Н., КАРТБАЕВ А.Ж. 
 
ВЗВЕШЕННЫЕ МОДЕЛИ СТАТИСТИЧЕСКОГО МАШИННОГО ПЕРЕВОДА 
ДЛЯ КАЗАХСКОГО ЯЗЫКА 
 
(Казахский Национальный Университет им. аль-Фараби, г. Алматы, Республика 
Казахстан) 
 
ВВЕДЕНИЕ 
Статистический  машинный  перевод  (СМП)  –  вариация  МП,  которая  использует 
статистические  инструменты  для  определения  наиболее  вероятный  перевод  предложения. 
Более  того,  СМП  рассматривает  процесс  перевода  как  «канал  с  помехами».  Предложение  e 
транслируется  через  «канал  с  помехами»  и  преобразовывается  в    f.  Цель  –  найти  такой  e 
чтобы  вероятность  e,  который  является  переводом  наблюдаемого  результата    f  ,  была 
максимизирована.  
 


Достарыңызбен бөлісу:
1   2   3   4   5   6   7   8   9   10   ...   40




©emirsaba.org 2024
әкімшілігінің қараңыз

    Басты бет