Научно-технический вестник информационных технологий, механики и оптики,
2020, том 20, № 4
549
2. Приняты следующие обозначения:
L(
e)
max
— максимальная длина окончаний в си-
стеме окончания языка;
w —
анализируемое слово;
e(
w) — окончание
анализируемого слова;
L(
w) — длина анализируемого слова;
L[
e(
w)] — предполагаемая длина окончания дан-
ного слова;
L[
e(
w)]
max
— максимальная длина окончания
данного слова.
3. Шаги алгоритма.
Шаг 1. Определяется длина анализируемого сло-
ва
L(
w).
Шаг 2. Определяется максимальная длина окон-
чания анализируемого слова:
L[
e(
w)]
max
=
L(
w) – 2,
где 2 — есть минимальная длина основы слова.
Шаг 3.
L(
w) ≤
L(
e)
max
, если длина слова
w меньше
или равно максимальной длины окончаний в систе-
ме окончаний языка, то предполагаемой длине окон-
чания данного слова
L[
e(
w)] присваивается значение
максимальной длины окончания
анализируемого
слова:
L[
e(
w)] =
L[
e(
w)]
max
. Далее переход на шаг 5.
Шаг 4. Иначе: предполагаемой длине оконча-
ния данного слова
L[
e(
w)] присваивается
L(
e)
max
:
L[
e(
w)] =
L(
e)
max
.
Шаг 5. Сделать выборку окончания
e(
w) длины
L[
e(
w)] из данного слова
w.
Шаг 6. Проверка
e(
w) на совпадение с окон-
чанием из
списка окончаний длины L[
e(
w)]. Если
совпадает, то определяем основу данного слова:
St(
w)=
w –
e(
w), т. е. из данного слова выделяется
основа.
Шаг 7. Иначе: уменьшаем предполагаемую дли-
ну окончания данного слова на единицу:
L[
e(
w)] =
=
L[
e(
w)]– 1.
Шаг 8. Если
L[
e(
w)] <1, то слово
w без оконча-
ния. Переход на шаг 9. Иначе: переход на шаг 6.
Шаг 9. Конец.
Предложенный подход представляет лексиконно
свободный (lexicon free) алгоритм генерации казахского
языка на основе полной системы окончаний казахского
языка.
Достарыңызбен бөлісу: