Задача нормализации слов казахского языка д. Р. Рахимова a,b, А. О. Турганбаева a



Pdf көрінісі
бет1/10
Дата24.05.2023
өлшемі427,3 Kb.
#96884
түріЗадача
  1   2   3   4   5   6   7   8   9   10


Научно-технический вестник информационных технологий, механики и оптики,
2020, том 20, № 4 
545
НАУЧНО-ТЕХНИЧЕСКИЙ ВЕСТНИК ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ, МЕХАНИКИ И ОПТИКИ
июль–август 2020 
Том 20 № 4 
ISSN 2226-1494 
http://ntv.itmo.ru/
SCIENTIFIC AND TECHNICAL JOURNAL OF INFORMATION TECHNOLOGIES, MECHANICS AND OPTICS
July–August 2020 
Vol. 20 No 4 
ISSN 2226-1494 
http://ntv.itmo.ru/en/
июнь–август 2020 Том 20 Номер 4
 УДК 004.912 
doi: 10.17586/2226-1494-2020-20-4-545-551
ЗАДАЧА НОРМАЛИЗАЦИИ СЛОВ КАЗАХСКОГО ЯЗЫКА 
Д.Р. Рахимова
a,b
, А.О. Турганбаева
a
 
a
Казахский Национальный Университет имени Аль Фараби, Алматы, 050040, Казахстан
b
Институт информационных и вычислительных технологий Алматы, 050000, Казахстан
Адрес для переписки: diana.rakhimova@kaznu.kz
Информация о статье
Поступила в редакцию 01.06.20, принята к печати 25.06.20
Язык статьи — русский
Ссылка для цитирования:  Рахимова Д.Р., Турганбаева А.О. Задача нормализации слов казахского язы-
ка // Научно-технический вестник информационных технологий, механики и оптики. 2020. Т. 20. № 4. С. 545–551. 
doi: 10.17586/2226-1494-2020-20-4-545-551
Аннотация
Предмет исследования. Рассмотрены модели и существующие алгоритмы нормализации слов естественных 
языков. Описаны алгоритмы автоматического выделения основ для ряда естественных языков и возможные пути 
синтеза нормальной формы слова для казахского языка. Цель. Создание полной классификации системы окон-
чаний для казахского языка. Разработка алгоритма нормализации слов на основе предложенного подхода клас-
сификации окончаний и суффиксов. Методология. Проведен анализ словообразования с помощью окончаний 
для всех частей речи казахского языка, на основе выполненной работы представлена классификация окончаний 
и суффиксов. Рассмотрены возможные варианты размещений типов окончаний и суффиксов. Общее количество 
возможных суффиксов составляет 26 526 единиц, окончаний – 3 565 единиц. Все приведенные типы являются 
лексически и семантически допустимыми, но некоторые из них не применяются. В базу аффиксов добавлены 
только те, которые наиболее часто применяются. С помощью множеств представлено, в каком порядке к основе 
добавляется аффиксы. Это нужно для того, чтобы правильно выделить основу. В работе не рассматриваются 
словообразующие суффиксы, так как они меняют основу слова и контекст значения. В основном к существи-
тельным добавляются словообразующие суффиксы. Основные результаты. Разработана полная система 
классификации окончаний и суффиксов казахского языка. Построены детерминированные конечные автоматы 
для различных частей речи с использованием всевозможных вариантов добавления суффиксов и окончаний с 
учетом морфологических и лексических свойств грамматики казахского языка. Разработан алгоритм стеминга 
с использованием разработанной системы классификации окончаний казахского языка. Реализована система 
нормализации, доказывающая работоспособность разработанного алгоритма без словаря. Алгоритм протестиро-
ван на корпусе казахского языка. В заданном корпусе изначально были убраны знаки пунктуации и стоп-слова. 


Достарыңызбен бөлісу:
  1   2   3   4   5   6   7   8   9   10




©emirsaba.org 2024
әкімшілігінің қараңыз

    Басты бет