Задача нормализации слов казахского языка д. Р. Рахимова a,b, А. О. Турганбаева a



Pdf көрінісі
бет6/10
Дата24.05.2023
өлшемі427,3 Kb.
#96884
түріЗадача
1   2   3   4   5   6   7   8   9   10
Разработка алгоритма стеминга 
для казахского языка
В области разработки алгоритмов лемматизации 
представлено достаточно много работ. Среди них есть 
достаточно близкие к данной работе по исследуемым 
языкам, и по подходу к построению самого алгорит-
ма — алгоритм стемминга (stemming). В работе [6] 
рассмотрены недостатки достаточно высокого процен-
та ошибок. В [7] предложен эффективный алгоритм 
стемминга для русского языка, так и для использования 
словаря, что повышает качество стемминга. В рабо-
те [4] предложен алгоритм лемматизации для казах-
ского языка, в котором рассмотрена систематизация 
окончаний казахского языка, не обладающая полнотой. 
В [8] опубликован алгоритм стеминга для казахского 
языка. Этот алгоритм реализован на основе стеммера 
Портера, который охватывает только самую маленькую 
часть окончаний казахского языка. 
Принцип предлагаемого алгоритма стеминга ка-
захского языка, основанный на предложенной полной 
системе окончаний заключается в следующем.
1. В системе окончаний казахского языка все окон-
чания разбиваются на классы по длине символов. 
В слове сначала ищется окончание максимальной 
длины для данного слова: оно будет на два символа 
меньше длины слова (предполагается, что основа 
не может меньше длины – 2). Предполагаемое окон-
чание длины L ищется в соответствующем классе
Если окончание не находится в данном классе, то 
длина предполагаемого окончания уменьшается на 
единицу и ищется в соответствующем классе окон-
чаний и т. д., до тех пор, пока не найдется окончание 
или слово будет без окончания. 
Таблица 2. Примеры образования аффиксов в словах казахского языка
Типы суффиксов и окончаний казахского языка в словах 
с глагольными основами
Примеры
V + Ks1 + JJ
бар-а-мын, көр-е-сіңдер, сөйле-й-міз, айт-ып-пыз, кел-іп-ті
V + Ks__V + JJ
бар-ғалы отыр-мын, бар-ғалы жатыр-сыздар
V + E1 + JJ
бар-ған-сың, бар-атын-быз
V + E2 + TJ + CJ
көр-ер-ің-ді, көр-мег(к 
q г)-ім-нің
V + E1 + KJ + TJ + CJ
көр-ген-дер-ім-нің, көр-етін-дер-і-не
V + R2 + TJ__V + Ks1 + Sh3
бар-ғы-мыз кел-е-ді
Рис. 1. Детерминированный конечный автомат для 
окончаний имен существительных казахского языка


Научно-технический вестник информационных технологий, механики и оптики,
2020, том 20, № 4 
549
2. Приняты следующие обозначения: 
L(e)
max
— максимальная длина окончаний в си-
стеме окончания языка; 
w — анализируемое слово
e(w) — окончание анализируемого слова
L(w) — длина анализируемого слова;
L[e(w)] — предполагаемая длина окончания дан-
ного слова; 
L[e(w)]
max
— максимальная длина окончания 
данного слова.
3. Шаги алгоритма.
Шаг 1. Определяется длина анализируемого сло-
ва L(w). 
Шаг 2. Определяется максимальная длина окон-
чания анализируемого слова: L[e(w)]
max
L(w) – 2, 
где 2 — есть минимальная длина основы слова.
Шаг 3. L(w) ≤ L(e)
max
, если длина слова w меньше 
или равно максимальной длины окончаний в систе-
ме окончаний языка, то предполагаемой длине окон-
чания данного слова L[e(w)] присваивается значение 
максимальной длины окончания анализируемого 
слова: L[e(w)] = L[e(w)]
max
. Далее переход на шаг 5.
Шаг 4. Иначе: предполагаемой длине оконча-
ния данного слова L[e(w)] присваивается L(e)
max

L[e(w)] = L(e)
max
.
Шаг 5. Сделать выборку окончания e(w) длины 
L[e(w)] из данного слова w.
Шаг 6. Проверка e(w) на совпадение с окон-
чанием из списка окончаний длины L[e(w)]. Если 
совпадает, то определяем основу данного слова: 
St(w)= w – e(w), т. е. из данного слова выделяется 
основа. 
Шаг 7. Иначе: уменьшаем предполагаемую дли-
ну окончания данного слова на единицу: L[e(w)] = 
L[e(w)]– 1.
Шаг 8. Если L[e(w)] <1, то слово w без оконча-
ния. Переход на шаг 9. Иначе: переход на шаг 6.
Шаг 9. Конец.
Предложенный подход представляет лексиконно 
свободный (lexicon free) алгоритм генерации казахского 
языка на основе полной системы окончаний казахского 
языка.


Достарыңызбен бөлісу:
1   2   3   4   5   6   7   8   9   10




©emirsaba.org 2024
әкімшілігінің қараңыз

    Басты бет