Задача нормализации слов казахского языка д. Р. Рахимова a,b, А. О. Турганбаева a

жүктеу/скачать 427,3 Kb.

Pdf көрінісі

бет	6/10
Дата	24.05.2023
өлшемі	427,3 Kb.
	#96884
түрі	Задача

1 2 3 4 5 6 7 8 9 10

Разработка алгоритма стеминга
для казахского языка
В области разработки алгоритмов лемматизации
представлено достаточно много работ. Среди них есть
достаточно близкие к данной работе по исследуемым
языкам, и по подходу к построению самого алгорит-
ма — алгоритм стемминга (stemming). В работе [6]
рассмотрены недостатки достаточно высокого процен-
та ошибок. В [7] предложен эффективный алгоритм
стемминга для русского языка, так и для использования
словаря, что повышает качество стемминга. В рабо-
те [4] предложен алгоритм лемматизации для казах-
ского языка, в котором рассмотрена систематизация
окончаний казахского языка, не обладающая полнотой.
В [8] опубликован алгоритм стеминга для казахского
языка. Этот алгоритм реализован на основе стеммера
Портера, который охватывает только самую маленькую
часть окончаний казахского языка.
Принцип предлагаемого алгоритма стеминга ка-
захского языка, основанный на предложенной полной
системе окончаний заключается в следующем.
1. В системе окончаний казахского языка все окон-
чания разбиваются на классы по длине символов.
В слове сначала ищется окончание максимальной
длины для данного слова: оно будет на два символа
меньше длины слова (предполагается, что основа
не может меньше длины – 2). Предполагаемое окон-
чание длины L ищется в соответствующем классе.
Если окончание не находится в данном классе, то
длина предполагаемого окончания уменьшается на
единицу и ищется в соответствующем классе окон-
чаний и т. д., до тех пор, пока не найдется окончание
или слово будет без окончания.
Таблица 2. Примеры образования аффиксов в словах казахского языка
Типы суффиксов и окончаний казахского языка в словах
с глагольными основами
Примеры
V + Ks1 + JJ
бар-а-мын, көр-е-сіңдер, сөйле-й-міз, айт-ып-пыз, кел-іп-ті
V + Ks2 __V + JJ
бар-ғалы отыр-мын, бар-ғалы жатыр-сыздар
V + E1 + JJ
бар-ған-сың, бар-атын-быз
V + E2 + TJ + CJ
көр-ер-ің-ді, көр-мег(к
q г)-ім-нің
V + E1 + KJ + TJ + CJ
көр-ген-дер-ім-нің, көр-етін-дер-і-не
V + R2 + TJ__V + Ks1 + Sh3
бар-ғы-мыз кел-е-ді
Рис. 1. Детерминированный конечный автомат для
окончаний имен существительных казахского языка

Научно-технический вестник информационных технологий, механики и оптики,
2020, том 20, № 4
549
2. Приняты следующие обозначения:
L(e)
max
— максимальная длина окончаний в си-
стеме окончания языка;
w — анализируемое слово;
e(w) — окончание анализируемого слова;
L(w) — длина анализируемого слова;
L[e(w)] — предполагаемая длина окончания дан-
ного слова;
L[e(w)]
max
— максимальная длина окончания
данного слова.
3. Шаги алгоритма.
Шаг 1. Определяется длина анализируемого сло-
ва L(w).
Шаг 2. Определяется максимальная длина окон-
чания анализируемого слова: L[e(w)]
max
= L(w) – 2,
где 2 — есть минимальная длина основы слова.
Шаг 3. L(w) ≤ L(e)
max
, если длина слова w меньше
или равно максимальной длины окончаний в систе-
ме окончаний языка, то предполагаемой длине окон-
чания данного слова L[e(w)] присваивается значение
максимальной длины окончания анализируемого
слова: L[e(w)] = L[e(w)]
max
. Далее переход на шаг 5.
Шаг 4. Иначе: предполагаемой длине оконча-
ния данного слова L[e(w)] присваивается L(e)
max
:
L[e(w)] = L(e)
max
.
Шаг 5. Сделать выборку окончания e(w) длины
L[e(w)] из данного слова w.
Шаг 6. Проверка e(w) на совпадение с окон-
чанием из списка окончаний длины L[e(w)]. Если
совпадает, то определяем основу данного слова:
St(w)= w – e(w), т. е. из данного слова выделяется
основа.
Шаг 7. Иначе: уменьшаем предполагаемую дли-
ну окончания данного слова на единицу: L[e(w)] =
= L[e(w)]– 1.
Шаг 8. Если L[e(w)] <1, то слово w без оконча-
ния. Переход на шаг 9. Иначе: переход на шаг 6.
Шаг 9. Конец.
Предложенный подход представляет лексиконно
свободный (lexicon free) алгоритм генерации казахского
языка на основе полной системы окончаний казахского
языка.

жүктеу/скачать 427,3 Kb.

Достарыңызбен бөлісу:

1 2 3 4 5 6 7 8 9 10