Атты І халықаралық конференция ЕҢбектері


Г.Т. БЕКМАНОВА, А. МАХИМОВ



Pdf көрінісі
бет203/326
Дата07.01.2022
өлшемі8,57 Mb.
#19269
1   ...   199   200   201   202   203   204   205   206   ...   326
Г.Т. БЕКМАНОВА, А. МАХИМОВ 
 
 
Евразийский национальный университет им. Л.Н. Гумилева 
Институт искусственного интеллекта 
 
 
ГРАФЕМАТИЧЕСКИЙ И МОРФОЛОГИЧЕСКИЙ АНАЛИЗАТОР  
КАЗАХСКОГО ЯЗЫКА 
 
Автоматическая  обработка  текстов  естественного  языка  является  одним  из  актуальных 
направлений  развития  искусственного  интеллекта  и  информатики  в  целом,  так  как 
результаты в этом направлении позволит решить проблему создания средств эффективного 
речевого взаимодействия человека с компьютером. Исследованием этой проблемы уже более 
50  лет  занимаются  специалисты  нескольких  научных  областей.  С  развитием    современных 
естественно-языковых  технологий  появилась  принципиальная  возможность  понимания 
естественно-языкового  текста,  то  есть  смысла  текста  компьютером.  Сегодня  можно  с 
уверенностью говорить о том, что в Казахстане развивается компьютерная лингвистика, что 
позволяет  надеяться  на  то,  что  в  скором  времени  будут  существовать  лингвистические 


197 
 
процессоры  –  компоненты,  составляющие  структуру  систем  анализа  текстов,  которые 
последовательно  обрабатывают  входной  текст.  Вход  одного  процессора  является  выходом 
другого[1]. 
Выделяются следующие компоненты: 
• графематический анализ — выделение слов, цифровых комплексов, формул и т.д.; 
• морфологический анализ — построение морфологической интерпретации слов входного 
текста; 
• синтаксический анализ — построение дерева зависимостей всего предложения
• семантический анализ — построение семантического графа текста. 
 
По  результатам  работы  графематического  анализатора  при  анализе  повести  «Көксерек» 
М. Ауезова были получены следующие результаты: 
 
Количество абзацев: 231 
Количество предложений: 871 
Количество слов: 7396 
Предложений длины 1: 4 
Предложений длины 2: 32 
Предложений длины 3: 58 
Предложений длины 4: 75 
Предложений длины 5: 92 
Предложений длины 6: 80 
Предложений длины 7: 85 
 
Предложений длины 8: 76 
Предложений длины 9: 72 
Предложений длины 10: 50 
Предложений длины 11: 55 
Предложений длины 12: 45 
Предложений длины 13: 27 
Предложений длины 14: 26 
Предложений длины 15: 22 
Предложений длины 16: 11 
Предложений длины 17: 14 
Предложений длины 18: 11 
 
Предложений длины 19: 10 
Предложений длины 20: 11  
Предложений длины 21: 6 
Предложений длины 22: 2 
Предложений длины 23: 1 
Предложений длины 24: 1 
Предложений длины 25: 1 
Предложений длины 26: 1 
Предложений длины 27: 2 
Предложений длины 29:1 
Данная статистика необходима для построения семантической модели текста. Поскольку 
можно  предположить,  что  предложения  длиной  (под  длиной  предложения  понимается 
количество слов в нем) меньше 4 слов является простым. А предложение длиной больше или 
равное 4 может не являться простым. Это простейшая проверка позволит не анализировать 
синтаксическим  анализатором  короткие    предложения,  что  экономит  время  работы 
алгоритма. 
Морфологический  анализ  казахских  текстов  –  это  задача  обратная  генерации  (синтезу) 
словоформ  и  новых  слов.  Под  словоформами  понимаются  измененные  с  помощью 
окончаний  по  падежам,  числам,  лицам  и  т.д.  слова  (флексии),  под  новыми  словами 
понимаются слова, несущие новую смысловую нагрузку, образованные путем прибавления в 
суффиксов  и  т.д.  Таким  образом,  при  разработке  морфологического  анализатора  был 
разработан  морфологический  синтезатор  казахских  слов,  основанный  на  формальных 
правилах.  
Морфологический  синтез  слов  осуществляется  с  помощью  эмулятора  нейронной  сети, 
который генерирует все словоформы на основе формальных правил (рисунок 1). 
 
 
Рисунок 1. Процесс словоизменения 
База знаний 
Анализ 
Начальная 
форма слова 
 
Семантические признаки 
Словоизменение 
 
Словообразован
ие 
Словарь 
словоформ 


198 
 
Процесс  словоизменения  и  словообразования  основывается  на  детальном  анализе 
начальной  формы  слова  с  целью  выделения  его  морфологических  признаков  и  считывания 
его  семантических    признаков  из    базы  знаний.  Далее  определяется  траектория 
словоизменения,  происходит  сам  процесс  словоизменения  на  основе  семантической 
нейронной  сети  и  запись  словоформы  и  его  морфологической  информации  в  словарь 
словоформ.  В  таблице  1  приведен  пример  словоизменения  существительного  «iзбасар». 
Фрагмент  формальных  правил  словоизменения  на  примере  существительного  с  учетом 
закона сингармонизма, который обуславливает добавления мягких или твердых окончаний в 
зависимости  от  мягкости  или  твердости  основы.  Данные  формальные  правила  содержат  и 
семантические категории. 
Приведенный  пример  показывает  фрагмент  правил,    где  «зе»  –  зат  есім  (имя 
существительное), «жа» - жанды (одушевленность), «01» заканчивается на твердые гласные 
а, о, ұ, «))»  между закрывающими скобками помещены окончания существительных, после 
«!» морфологическая информация[2]. 
 
Таблица 1. Словоизменение одушевленного существительного «iзбасар»  
Словоформа 
МИ 
Словоформа 
МИ 
iзбасар 
зежа 
iзбасарымыздың 
зежа#тә11іл 
iзбасармын 
зежа#жі11 
iзбасарымызға 
зежа#тә11ба 
iзбасармыз 
зежа#жі11 
iзбасарымызды 
зежа#тә11та 
iзбасарсың 
зежа#жі22 
iзбасарымызда 
зежа#тә11жс 
iзбасарсыңдар 
зежа#жі22 
iзбасарымыздан 
зежа#тә11шы 
iзбасар 
зежа#жі33 
iзбасарымызбен 
зежа#тә11кө 
iзбасарым 
зежа#тә11 
iзбасарымызбенен 
зежа#тә11кө 
iзбасарымыз 
зежа#тә11 
iзбасарыңның 
зежа#тә22іл 
iзбасарың 
зежа#тә22 
iзбасарыңа 
зежа#тә22ба 
iзбасарыңыз 
зежа#тә22 
iзбасарыңды 
зежа#тә22та 
iзбасары 
зежа#тә33 
iзбасарыңда 
зежа#тә22жс 
iзбасарлар 
зежа#кт 
iзбасарыңнан 
зежа#тә22шы 
iзбасарлармыз 
зежа#ктжі11 
iзбасарыңмен 
зежа#тә22кө 
iзбасарларсыңдар 
зежа#ктжі22 
iзбасарыңменен 
зежа#тә22кө 
iзбасарлар 
зежа#ктжі33 
iзбасарыңыздың 
зежа#тә22іл 
iзбасарларым 
зежа#кттә11 
iзбасарыңызға 
зежа#тә22ба 
iзбасарларымыз 
зежа#кттә11 
iзбасарыңызды 
зежа#тә22та 
iзбасарларың 
зежа#кттә22 
iзбасарыңызда 
зежа#тә22жс 
iзбасарларыңыз 
зежа#кттә22 
iзбасарыңыздан 
зежа#тә22шы 
iзбасарлары 
зежа#кттә33 
iзбасарыңызбен 
зежа#тә22кө 
iзбасар 
зежа#ат0 
iзбасарыңызбенен 
зежа#тә22кө 
iзбасардың 
зежа#іл 
iзбасарлардың 
зежа#ктіл 
iзбасарға 
зежа#ба 
iзбасарларға 
зежа#ктба 
iзбасарды 
зежа#та 
iзбасарларды 
зежа#ктта 
iзбасарда 
зежа#жс 
iзбасарларда 
зежа#ктжс 
iзбасардан 
зежа#шы 
iзбасарлардан 
зежа#ктшы 
iзбасармен 
зежа#кө 
iзбасарлармен 
зежа#кткө 
iзбасарменен 
зежа#кө 
iзбасарларменен 
зежа#кткө 
iзбасарымның 
зежа#тә11іл 
iзбасарларымның 
зежа#кттә11іл 
iзбасарыма 
зежа#тә11ба 
iзбасарларыма 
зежа#кттә11ба 
iзбасарымды 
зежа#тә11та 
iзбасарларымды 
зежа#кттә11та 
iзбасарымда 
зежа#тә11жс 
iзбасарларымда 
зежа#кттә11жс 
iзбасарымнан 
зежа#тә11шы 
iзбасарларымнан 
зежа#кттә11шы 
iзбасарыммен 
зежа#тә11кө 
iзбасарларыммен 
зежа#кттә11кө 


199 
 
iзбасарымменен 
зежа#тә11кө 
iзбасарларымменен 
зежа#кттә11кө 
iзбасарларыңның 
зежа#кттә22іл 
iзбасарларымыздың 
зежа#кттә11іл 
iзбасарларыңа 
зежа#кттә22ба 
iзбасарларымызға 
зежа#кттә11ба 
iзбасарларыңды 
зежа#кттә22та 
iзбасарларымызды 
зежа#кттә11та 
iзбасарларыңда 
зежа#кттә22жс 
iзбасарларымызда 
зежа#кттә11жс 
iзбасарларыңнан 
зежа#кттә22шы 
iзбасарларымыздан 
зежа#кттә11шы 
iзбасарларыңмен 
зежа#кттә22кө 
iзбасарларымызбен 
зежа#кттә11кө 
iзбасарларыңменен 
зежа#кттә22кө 
iзбасарларымызбенен  зежа#кттә11кө 
iзбасарларыңыздың  зежа#кттә22іл 
iзбасарларыңыздан 
зежа#кттә22шы 
iзбасарларыңызға 
зежа#кттә22ба 
iзбасарларыңызбен 
зежа#кттә22кө 
iзбасарларыңызды 
зежа#кттә22та 
iзбасарларыңызбенен  зежа#кттә22кө 
iзбасарларыңызда 
зежа#кттә22жс 
iзбасарларымсыңдар  зежа#кттә11жі22 
iзбасарларысыңдар 
зежа#кттә33жі22  iзбасарларыңбыз 
зежа#кттә22жі11 
 
Казахский  язык,  относящийся  к  группе  тюркских  языков,  очень  хорошо  поддается 
формализации.    Далее  существует  три  алгоритма  работы  морфологического  анализатора: 
декларативный, процедурный, комбинированный.  


Достарыңызбен бөлісу:
1   ...   199   200   201   202   203   204   205   206   ...   326




©emirsaba.org 2024
әкімшілігінің қараңыз

    Басты бет