197
процессоры – компоненты, составляющие структуру систем
анализа текстов, которые
последовательно обрабатывают входной текст. Вход одного процессора является выходом
другого[1].
Выделяются следующие компоненты:
• графематический анализ — выделение слов, цифровых комплексов, формул и т.д.;
• морфологический анализ — построение морфологической интерпретации слов входного
текста;
• синтаксический анализ — построение дерева зависимостей всего
предложения;
• семантический анализ — построение семантического графа текста.
По результатам работы
графематического анализатора при анализе повести «Көксерек»
М. Ауезова были получены следующие результаты:
Количество абзацев: 231
Количество предложений: 871
Количество слов: 7396
Предложений длины 1: 4
Предложений длины 2: 32
Предложений длины 3: 58
Предложений длины 4: 75
Предложений длины 5: 92
Предложений длины 6: 80
Предложений длины 7: 85
Предложений длины 8: 76
Предложений длины 9: 72
Предложений длины 10: 50
Предложений длины 11: 55
Предложений длины 12: 45
Предложений длины 13: 27
Предложений длины 14: 26
Предложений длины 15: 22
Предложений длины 16: 11
Предложений длины 17: 14
Предложений длины 18: 11
Предложений длины 19: 10
Предложений длины 20: 11
Предложений длины 21: 6
Предложений длины 22: 2
Предложений длины 23: 1
Предложений длины 24: 1
Предложений длины 25: 1
Предложений длины 26: 1
Предложений длины 27: 2
Предложений длины 29:1
Данная статистика необходима для построения семантической модели текста. Поскольку
можно предположить, что предложения длиной (под длиной предложения понимается
количество слов в нем) меньше 4 слов является простым. А предложение длиной больше или
равное 4 может не являться простым. Это простейшая проверка позволит не
анализировать
синтаксическим анализатором короткие предложения, что экономит время работы
алгоритма.
Морфологический
анализ казахских текстов – это задача обратная генерации (синтезу)
словоформ и новых слов. Под словоформами понимаются измененные с помощью
окончаний по падежам, числам, лицам и т.д. слова (флексии), под новыми словами
понимаются слова, несущие новую смысловую нагрузку, образованные путем прибавления в
суффиксов и т.д. Таким образом, при разработке морфологического анализатора был
разработан морфологический синтезатор казахских слов, основанный на формальных
правилах.
Морфологический синтез слов осуществляется с помощью эмулятора нейронной сети,
который генерирует все словоформы на основе формальных правил (рисунок 1).
Рисунок 1. Процесс словоизменения
База знаний
Анализ
Начальная
форма слова
Семантические признаки
Словоизменение
Словообразован
ие
Словарь
словоформ
199
iзбасарымменен
зежа#тә11кө
iзбасарларымменен
зежа#кттә11кө
iзбасарларыңның
зежа#кттә22іл
iзбасарларымыздың
зежа#кттә11іл
iзбасарларыңа
зежа#кттә22ба
iзбасарларымызға
зежа#кттә11ба
iзбасарларыңды
зежа#кттә22та
iзбасарларымызды
зежа#кттә11та
iзбасарларыңда
зежа#кттә22жс
iзбасарларымызда
зежа#кттә11жс
iзбасарларыңнан
зежа#кттә22шы
iзбасарларымыздан
зежа#кттә11шы
iзбасарларыңмен
зежа#кттә22кө
iзбасарларымызбен
зежа#кттә11кө
iзбасарларыңменен
зежа#кттә22кө
iзбасарларымызбенен зежа#кттә11кө
iзбасарларыңыздың зежа#кттә22іл
iзбасарларыңыздан
зежа#кттә22шы
iзбасарларыңызға
зежа#кттә22ба
iзбасарларыңызбен
зежа#кттә22кө
iзбасарларыңызды
зежа#кттә22та
iзбасарларыңызбенен зежа#кттә22кө
iзбасарларыңызда
зежа#кттә22жс
iзбасарларымсыңдар зежа#кттә11жі22
iзбасарларысыңдар
зежа#кттә33жі22 iзбасарларыңбыз
зежа#кттә22жі11
Казахский язык, относящийся к группе тюркских языков, очень хорошо поддается
формализации. Далее существует три алгоритма работы морфологического анализатора:
декларативный, процедурный, комбинированный.
Достарыңызбен бөлісу: