Задача нормализации слов казахского языка д. Р. Рахимова a,b, А. О. Турганбаева a


Keywords natural language processing, Kazakh, ending system, normalization, stemming algorithm Acknowledgements



Pdf көрінісі
бет3/10
Дата24.05.2023
өлшемі427,3 Kb.
#96884
түріЗадача
1   2   3   4   5   6   7   8   9   10
Keywords
natural language processing, Kazakh, ending system, normalization, stemming algorithm
Acknowledgements
The study was supported by the Ministry of Education and Science of the Republic of Kazakhstan within the framework 
of the AP05132950 scientific project.
Введение
В настоящее время активно создаются различные 
интеллектуальные и мобильные системы, связанные с 
обработкой естественного языка (ОЕЯ). К сожалению, 
вопросы текстовой обработки казахского языка слабо 
развиты, что препятствует развитию информационных 
технологий, и связано:
1) со спецификой казахского языка как языка со слож-
ной морфологией;
2) с отсутствием электронных ресурсов для изучения 
казахского языка в этой области.
Тем не менее вопросы обработки текстов на казах-
ском языке на практике являются очень актуальными. 
Важной проблемой является проблема быстрого поис-
ка конкретных слов в документах. Один из способов 
быстрого поиска слов, заключается в поиске основы 
слова среди ключевых слов документов, позволяющей 
выбрать соответствующий документ как желаемый. 
Одним из важных процессов в прикладных системах 
ОЕЯ, таких как информационный поиск, машинный 
перевод и др., является нормализация (лемматизация), 
т. е. приведение слова к изначальной основе.
Различными учеными и научными группами выпол-
нен анализ, и рассмотрены разные подходы по норма-
лизации казахского языка. По направлению сегмента-
ции аффиксов казахского языка можно рассматривать 
работу [1], где проанализирована морфемная структура 
в корпусе казахского языка, и изучено извлечение основ 
и сегментации аффикса. Сначала устанавливается finite-
state machine (FSM — конечный автомат) флективных 
аффиксов, а затем проводится сегментация флективных 
аффиксов. 
В работе автором в качестве флективных аффик-
сов указаны четыре вида окончаний: множествен-
ного числа, притяжательные, падежные, личные. По 
направлению морфологического анализа казахского 
языка можно отнести работы [2, 3]. В работе [2] по-
строен морфологический анализатор с использованием 
двухуровневого морфологического подхода с инстру-
ментами конечного состояния Xerox, и представлена 
реа лизация морфологического анализатора на основе 
правил. В работе [3] представлены морфологические 
особенности казахского и турецкого языков. Проведено 
сравнение онтологии, разработана единая система сим-
волов морфологических признаков, морфологические 
правила казахского и турецкого языков записывались 
через новую систему символов. Унифицированный 
морфологический анализатор разработан на основе 
алгоритма общего морфологического анализа. В рабо-
те [4] представлен подход по нормализации основных 
типов окончания казахского языка. В вышеупомянутых 
работах в основном исследовался определенный (огра-
ниченный) класс окончаний казахского языка, но не 
были представлены сложные формы изменения языка, 
с помощью анализа и генерации окончаний (суффиксов 
и аффиксов) казахского языка, что не покрывает ее пол-
ноту. В настоящей работе авторы представляют новый 
подход по классификации окончаний казахского языка, 
полноту покрытия и практическое применение.


Достарыңызбен бөлісу:
1   2   3   4   5   6   7   8   9   10




©emirsaba.org 2024
әкімшілігінің қараңыз

    Басты бет