Г.Т. БЕКМАНОВА, А. МАХИМОВ
Евразийский национальный университет им. Л.Н. Гумилева
Институт искусственного интеллекта
ГРАФЕМАТИЧЕСКИЙ И МОРФОЛОГИЧЕСКИЙ АНАЛИЗАТОР
КАЗАХСКОГО ЯЗЫКА
Автоматическая обработка текстов естественного языка является одним из актуальных
направлений развития искусственного интеллекта и информатики в целом, так как
результаты в этом направлении позволит решить проблему создания средств эффективного
речевого взаимодействия человека с компьютером. Исследованием этой проблемы уже более
50 лет занимаются специалисты нескольких научных областей. С развитием современных
естественно-языковых технологий появилась принципиальная возможность понимания
естественно-языкового текста, то есть смысла текста компьютером. Сегодня можно с
уверенностью говорить о том, что в Казахстане развивается компьютерная лингвистика, что
позволяет надеяться на то, что в скором времени будут существовать лингвистические
197
процессоры – компоненты, составляющие структуру систем анализа текстов, которые
последовательно обрабатывают входной текст. Вход одного процессора является выходом
другого[1].
Выделяются следующие компоненты:
• графематический анализ — выделение слов, цифровых комплексов, формул и т.д.;
• морфологический анализ — построение морфологической интерпретации слов входного
текста;
• синтаксический анализ — построение дерева зависимостей всего предложения;
• семантический анализ — построение семантического графа текста.
По результатам работы графематического анализатора при анализе повести «Көксерек»
М. Ауезова были получены следующие результаты:
Количество абзацев: 231
Количество предложений: 871
Количество слов: 7396
Предложений длины 1: 4
Предложений длины 2: 32
Предложений длины 3: 58
Предложений длины 4: 75
Предложений длины 5: 92
Предложений длины 6: 80
Предложений длины 7: 85
Предложений длины 8: 76
Предложений длины 9: 72
Предложений длины 10: 50
Предложений длины 11: 55
Предложений длины 12: 45
Предложений длины 13: 27
Предложений длины 14: 26
Предложений длины 15: 22
Предложений длины 16: 11
Предложений длины 17: 14
Предложений длины 18: 11
Предложений длины 19: 10
Предложений длины 20: 11
Предложений длины 21: 6
Предложений длины 22: 2
Предложений длины 23: 1
Предложений длины 24: 1
Предложений длины 25: 1
Предложений длины 26: 1
Предложений длины 27: 2
Предложений длины 29:1
Данная статистика необходима для построения семантической модели текста. Поскольку
можно предположить, что предложения длиной (под длиной предложения понимается
количество слов в нем) меньше 4 слов является простым. А предложение длиной больше или
равное 4 может не являться простым. Это простейшая проверка позволит не анализировать
синтаксическим анализатором короткие предложения, что экономит время работы
алгоритма.
Морфологический анализ казахских текстов – это задача обратная генерации (синтезу)
словоформ и новых слов. Под словоформами понимаются измененные с помощью
окончаний по падежам, числам, лицам и т.д. слова (флексии), под новыми словами
понимаются слова, несущие новую смысловую нагрузку, образованные путем прибавления в
суффиксов и т.д. Таким образом, при разработке морфологического анализатора был
разработан морфологический синтезатор казахских слов, основанный на формальных
правилах.
Морфологический синтез слов осуществляется с помощью эмулятора нейронной сети,
который генерирует все словоформы на основе формальных правил (рисунок 1).
Рисунок 1. Процесс словоизменения
База знаний
Анализ
Начальная
форма слова
Семантические признаки
Словоизменение
Словообразован
ие
Словарь
словоформ
198
Процесс словоизменения и словообразования основывается на детальном анализе
начальной формы слова с целью выделения его морфологических признаков и считывания
его семантических признаков из базы знаний. Далее определяется траектория
словоизменения, происходит сам процесс словоизменения на основе семантической
нейронной сети и запись словоформы и его морфологической информации в словарь
словоформ. В таблице 1 приведен пример словоизменения существительного «iзбасар».
Фрагмент формальных правил словоизменения на примере существительного с учетом
закона сингармонизма, который обуславливает добавления мягких или твердых окончаний в
зависимости от мягкости или твердости основы. Данные формальные правила содержат и
семантические категории.
Приведенный пример показывает фрагмент правил, где «зе» – зат есім (имя
существительное), «жа» - жанды (одушевленность), «01» заканчивается на твердые гласные
а, о, ұ, «))» между закрывающими скобками помещены окончания существительных, после
«!» морфологическая информация[2].
Таблица 1. Словоизменение одушевленного существительного «iзбасар»
Словоформа
МИ
Словоформа
МИ
iзбасар
зежа
iзбасарымыздың
зежа#тә11іл
iзбасармын
зежа#жі11
iзбасарымызға
зежа#тә11ба
iзбасармыз
зежа#жі11
iзбасарымызды
зежа#тә11та
iзбасарсың
зежа#жі22
iзбасарымызда
зежа#тә11жс
iзбасарсыңдар
зежа#жі22
iзбасарымыздан
зежа#тә11шы
iзбасар
зежа#жі33
iзбасарымызбен
зежа#тә11кө
iзбасарым
зежа#тә11
iзбасарымызбенен
зежа#тә11кө
iзбасарымыз
зежа#тә11
iзбасарыңның
зежа#тә22іл
iзбасарың
зежа#тә22
iзбасарыңа
зежа#тә22ба
iзбасарыңыз
зежа#тә22
iзбасарыңды
зежа#тә22та
iзбасары
зежа#тә33
iзбасарыңда
зежа#тә22жс
iзбасарлар
зежа#кт
iзбасарыңнан
зежа#тә22шы
iзбасарлармыз
зежа#ктжі11
iзбасарыңмен
зежа#тә22кө
iзбасарларсыңдар
зежа#ктжі22
iзбасарыңменен
зежа#тә22кө
iзбасарлар
зежа#ктжі33
iзбасарыңыздың
зежа#тә22іл
iзбасарларым
зежа#кттә11
iзбасарыңызға
зежа#тә22ба
iзбасарларымыз
зежа#кттә11
iзбасарыңызды
зежа#тә22та
iзбасарларың
зежа#кттә22
iзбасарыңызда
зежа#тә22жс
iзбасарларыңыз
зежа#кттә22
iзбасарыңыздан
зежа#тә22шы
iзбасарлары
зежа#кттә33
iзбасарыңызбен
зежа#тә22кө
iзбасар
зежа#ат0
iзбасарыңызбенен
зежа#тә22кө
iзбасардың
зежа#іл
iзбасарлардың
зежа#ктіл
iзбасарға
зежа#ба
iзбасарларға
зежа#ктба
iзбасарды
зежа#та
iзбасарларды
зежа#ктта
iзбасарда
зежа#жс
iзбасарларда
зежа#ктжс
iзбасардан
зежа#шы
iзбасарлардан
зежа#ктшы
iзбасармен
зежа#кө
iзбасарлармен
зежа#кткө
iзбасарменен
зежа#кө
iзбасарларменен
зежа#кткө
iзбасарымның
зежа#тә11іл
iзбасарларымның
зежа#кттә11іл
iзбасарыма
зежа#тә11ба
iзбасарларыма
зежа#кттә11ба
iзбасарымды
зежа#тә11та
iзбасарларымды
зежа#кттә11та
iзбасарымда
зежа#тә11жс
iзбасарларымда
зежа#кттә11жс
iзбасарымнан
зежа#тә11шы
iзбасарларымнан
зежа#кттә11шы
iзбасарыммен
зежа#тә11кө
iзбасарларыммен
зежа#кттә11кө
199
iзбасарымменен
зежа#тә11кө
iзбасарларымменен
зежа#кттә11кө
iзбасарларыңның
зежа#кттә22іл
iзбасарларымыздың
зежа#кттә11іл
iзбасарларыңа
зежа#кттә22ба
iзбасарларымызға
зежа#кттә11ба
iзбасарларыңды
зежа#кттә22та
iзбасарларымызды
зежа#кттә11та
iзбасарларыңда
зежа#кттә22жс
iзбасарларымызда
зежа#кттә11жс
iзбасарларыңнан
зежа#кттә22шы
iзбасарларымыздан
зежа#кттә11шы
iзбасарларыңмен
зежа#кттә22кө
iзбасарларымызбен
зежа#кттә11кө
iзбасарларыңменен
зежа#кттә22кө
iзбасарларымызбенен зежа#кттә11кө
iзбасарларыңыздың зежа#кттә22іл
iзбасарларыңыздан
зежа#кттә22шы
iзбасарларыңызға
зежа#кттә22ба
iзбасарларыңызбен
зежа#кттә22кө
iзбасарларыңызды
зежа#кттә22та
iзбасарларыңызбенен зежа#кттә22кө
iзбасарларыңызда
зежа#кттә22жс
iзбасарларымсыңдар зежа#кттә11жі22
iзбасарларысыңдар
зежа#кттә33жі22 iзбасарларыңбыз
зежа#кттә22жі11
Казахский язык, относящийся к группе тюркских языков, очень хорошо поддается
формализации. Далее существует три алгоритма работы морфологического анализатора:
декларативный, процедурный, комбинированный.
Достарыңызбен бөлісу: |