Практические результаты Реализация алгоритма протестирована на корпусе
казахского языка [9]. В заданном корпусе изначально
были убраны знаки пунктуации и стоп-слова. На рис. 2
представлен интерфейс программы работы алгоритма.
На рис. 2 в левой колонке введен входной текст на
казахском языке, в правой колонке — выводы резуль-
тата нормализации текста. Ниже колонок расположены
функциональные кнопки «Очистка окна», «Загрузка
файла», «Нахождение основы слов». Практические
результаты алгоритма [10, 11]:
— количество входных слов — 486 000;
— правильно определенных слов — 92 %;
— затраченное время выполнения — 2,3 с.
Для определения точности нахождения основ, по-
лученные тексты проверены с помощью словаря казах-
ского языка. По полученным данным можно заметить,
что скорость данного алгоритма высокая и показыва-
ет хорошие результаты, но также было выявлено ряд
ошибок, связанных с распознаванием основы [12] и
аффиксов казахского языка. Некоторые примеры с не-
правильным распознаванием основы и аффиксов пред-
ставлены в табл. 3.
Сұр + лау, ұзын + ырақ, жақсы + рақ, кіші + рек —
здесь программой отсекаются суффиксы -лау, -ырақ,
-рақ/рек и выводится основа сұр, ұзын, жақс, кіш.
Жайлау, шаңырақ, тарақ, терек — здесь также про-
граммой отсекаются суффиксы -лау, -ырақ, -рақ/рек и
выводится основа жай, шаң, тар, тер. Но в составе этих
слов они неявляются суффиксами, а являются частью
основы, поэтому в этом случае выделенная программой
основа слова неправильная.
Данная проблема актуальна, так как многие методы
и платформы используют словари и дополнительные
модули, для решении этой задачи [13–16]. В дальней-
шем будут применены подходы, основанные на обуче-
ниях системы с использованием корпусов казахского
языка.
Рис. 2. Интерфейс программы применения алгоритма
стемминга для казахского языка
Таблица 3. Проблемы, связанные с суффиксами степени имен прилагательных и порядковых имен числительных
Исходное слово
Выделенная программой основа слова
Правильная основа слова
Жақсырақ
Жақс
Жақсы
Кішірек
Кіш
Кіші
Алтыншы
Алт
Алты
Жетінші
Жет
Жеті
Д.Р. Рахимова, А.О. Турганбаева
Научно-технический вестник информационных технологий, механики и оптики,
550
2020, том 20, № 4
ЗАДАЧА НОРМАЛИЗАЦИИ СЛОВ КАЗАХСКОГО ЯЗЫКА