Научно-технический вестник информационных технологий, механики и оптики,
2020, том 20, № 4
545
НАУЧНО-ТЕХНИЧЕСКИЙ ВЕСТНИК ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ, МЕХАНИКИ И ОПТИКИ
июль–август 2020
Том 20 № 4
ISSN 2226-1494
http://ntv.itmo.ru/
SCIENTIFIC AND TECHNICAL JOURNAL OF INFORMATION TECHNOLOGIES, MECHANICS AND OPTICS
July–August 2020
Vol. 20 No 4
ISSN 2226-1494
http://ntv.itmo.ru/en/
июнь–август 2020 Том 20 Номер 4
УДК 004.912
doi: 10.17586/2226-1494-2020-20-4-545-551
ЗАДАЧА НОРМАЛИЗАЦИИ СЛОВ КАЗАХСКОГО ЯЗЫКА
Д.Р. Рахимова
a,b
, А.О. Турганбаева
a
a
Казахский Национальный Университет имени Аль Фараби, Алматы, 050040, Казахстан
b
Институт информационных и вычислительных технологий Алматы, 050000, Казахстан
Адрес для переписки: diana.rakhimova@kaznu.kz
Информация о статье
Поступила в
редакцию 01.06.20, принята к печати 25.06.20
Язык статьи — русский
Ссылка для цитирования: Рахимова Д.Р., Турганбаева А.О. Задача нормализации слов казахского язы-
ка // Научно-технический вестник информационных технологий, механики и оптики. 2020. Т. 20. № 4. С. 545–551.
doi: 10.17586/2226-1494-2020-20-4-545-551
Аннотация
Предмет исследования. Рассмотрены модели и существующие алгоритмы нормализации слов естественных
языков. Описаны алгоритмы автоматического выделения основ для ряда естественных языков и возможные пути
синтеза нормальной формы слова для казахского языка.
Цель. Создание полной классификации системы окон-
чаний для казахского языка. Разработка алгоритма нормализации слов на основе предложенного подхода клас-
сификации окончаний и суффиксов.
Методология. Проведен анализ словообразования с помощью окончаний
для всех частей речи казахского языка, на основе выполненной работы представлена классификация окончаний
и суффиксов. Рассмотрены возможные варианты размещений типов окончаний и суффиксов. Общее количество
возможных суффиксов составляет 26 526 единиц, окончаний – 3 565 единиц. Все приведенные типы являются
лексически и семантически допустимыми, но некоторые из
них не применяются. В базу аффиксов добавлены
только те, которые наиболее часто применяются. С
помощью множеств представлено, в каком порядке к основе
добавляется аффиксы. Это
нужно для того, чтобы правильно выделить основу. В работе не рассматриваются
словообразующие суффиксы, так как они меняют основу слова и контекст значения. В
основном к существи-
тельным добавляются словообразующие суффиксы.
Основные результаты. Разработана полная система
классификации окончаний и суффиксов казахского языка. Построены детерминированные конечные автоматы
для различных частей речи с использованием всевозможных вариантов добавления суффиксов и окончаний с
учетом морфологических и лексических свойств грамматики казахского языка. Разработан алгоритм стеминга
с
использованием разработанной системы классификации окончаний казахского языка. Реализована система
нормализации, доказывающая работоспособность разработанного алгоритма без словаря. Алгоритм протестиро-
ван на корпусе казахского языка. В заданном корпусе изначально были убраны знаки пунктуации и стоп-слова.