Задача нормализации слов казахского языка д. Р. Рахимова a,b, А. О. Турганбаева a



Pdf көрінісі
бет7/10
Дата24.05.2023
өлшемі427,3 Kb.
#96884
түріЗадача
1   2   3   4   5   6   7   8   9   10
Практические результаты
Реализация алгоритма протестирована на корпусе 
казахского языка [9]. В заданном корпусе изначально 
были убраны знаки пунктуации и стоп-слова. На рис. 2 
представлен интерфейс программы работы алгоритма.
На рис. 2 в левой колонке введен входной текст на 
казахском языке, в правой колонке — выводы резуль-
тата нормализации текста. Ниже колонок расположены 
функциональные кнопки «Очистка окна», «Загрузка 
файла», «Нахождение основы слов». Практические 
результаты алгоритма [10, 11]: 
— количество входных слов — 486 000; 
— правильно определенных слов — 92 %;
— затраченное время выполнения — 2,3 с. 
Для определения точности нахождения основ, по-
лученные тексты проверены с помощью словаря казах-
ского языка. По полученным данным можно заметить, 
что скорость данного алгоритма высокая и показыва-
ет хорошие результаты, но также было выявлено ряд 
ошибок, связанных с распознаванием основы [12] и 
аффиксов казахского языка. Некоторые примеры с не-
правильным распознаванием основы и аффиксов пред-
ставлены в табл. 3.
Сұр + лау, ұзын + ырақ, жақсы + рақ, кіші + рек — 
здесь программой отсекаются суффиксы -лау, -ырақ, 
-рақ/рек и выводится основа сұр, ұзын, жақс, кіш.
Жайлау, шаңырақ, тарақ, терек — здесь также про-
граммой отсекаются суффиксы -лау, -ырақ, -рақ/рек и 
выводится основа жай, шаң, тар, тер. Но в составе этих 
слов они неявляются суффиксами, а являются частью 
основы, поэтому в этом случае выделенная программой 
основа слова неправильная.
Данная проблема актуальна, так как многие методы 
и платформы используют словари и дополнительные 
модули, для решении этой задачи [13–16]. В дальней-
шем будут применены подходы, основанные на обуче-
ниях системы с использованием корпусов казахского 
языка.
Рис. 2. Интерфейс программы применения алгоритма 
стемминга для казахского языка
Таблица 3. Проблемы, связанные с суффиксами степени имен прилагательных и порядковых имен числительных
Исходное слово
Выделенная программой основа слова
Правильная основа слова
Жақсырақ
Жақс
Жақсы
Кішірек
Кіш
Кіші
Алтыншы
Алт
Алты
Жетінші
Жет
Жеті
Д.Р. Рахимова, А.О. Турганбаева


Научно-технический вестник информационных технологий, механики и оптики,
550 
2020, том 20, № 4
ЗАДАЧА НОРМАЛИЗАЦИИ СЛОВ КАЗАХСКОГО ЯЗЫКА 


Достарыңызбен бөлісу:
1   2   3   4   5   6   7   8   9   10




©emirsaba.org 2024
әкімшілігінің қараңыз

    Басты бет