Задача нормализации слов казахского языка д. Р. Рахимова a,b, А. О. Турганбаева a



Pdf көрінісі
бет8/10
Дата24.05.2023
өлшемі427,3 Kb.
#96884
түріЗадача
1   2   3   4   5   6   7   8   9   10
Заключение
Таким образом, исследованы современные ра-
боты систематизации окончаний казахского языка. 
Разработана полная система классификации окончаний 
и суффиксов казахского языка. Построены детермини-
рованные конечные автоматы для существительного, 
прилагательного, числительного и глагола с использо-
ванием возможных вариантов добавления суффиксов и 
окончаний к основе для казахского языка.
Разработан алгоритм стеминга с использовани-
ем разработанной системы классификации оконча-
ний казахского языка. По итогам анализа получен-
ных данных алгоритм показывает хороший результат 
без применения словаря или иных вспомогательных 
модулей. Преимуществом данного подхода является 
скорость обработки. Полнота окончаний языка обе-
спечивает до статочно высокий уровень реализации. 
Отличительными особенностями построенного алго-
ритма является его достаточно легкая воспроизводи-
мость, что позволяет, в частности, без особых трудоза-
трат применить его в прикладных системах обработки 
естественного языка. 
Литература
1. Altenbek G., Wang X.-L. Kazakh segmentation system of inflectional 
affixes // Proc. of the CIPS-SIGHAN Joint Conference on Chinese 
Language Processing (CLP 2010). Beijing, China. 2010. P. 183–190.
2. Kessikbayeva G., Cicekli I. Rule based morphological analyzer of 
Kazakh language // Proc. of the 2014 Joint Meeting of SIGMORPHON 
and SIGFSM. Association for Computational Linguistics. Baltimore, 
Maryland, USA. 2014. P. 46–54. doi: 10.3115/v1/W14-2806
3. Bekmanova G., Sharipbay A., Altenbek G., Adali E., Zhetkenbay L., 
Kamanur U., Zulkhazhav A. A uniform morphological analyzer for 
the Kazakh and Turkish languages [Электронный ресурс]. URL: 
http://ceur-ws.org/Vol-1975/paper3.pdf (дата обращения: 
10.02.2020).
4. Федотов А.М., Тусупов Д.А., Самбетбаева М.А., Еримбетова А.С., 
Бакиева А.М., Идрисова А.И. Модель определения нормальной 
формы слова для казахского языка // Вестник Новосибирского 
государственного университета. Серия: Информационные тех-
нологии. 2015. Т. 13. № 1. С. 107–116.
5. Тукеев У.А., Турганбаева А. Лексикон – фри стемминг для казах-
ского языка // Материалы международной научной конференции 
«Информатика и прикладная математика» («Computer science and 
Applied Mathematics») посвященной 25-летию Независимости 
Республики Казахстан и 25-летию Институт информационных и 
вычислительных технологий. Алматы, 2016. С. 84–88.
6. Willett P. The Porter stemming algorithm: then and now // Program. 
2006. V. 40. N 3. P. 219–223. doi: 10.1108/00330330610681295
7. Segalovich I. A fast morphological algorithm with unknown word 
guessing induced by a dictionary for a web search engine 
[Электронный ресурс]. URL: https://www.semanticscholar.org/
paper/A-Fast-Morphological-Algorithm-with-Unknown-Word-by-Se
galovich/983b7014df3b7d4e82e32ba4f45f71f3879f8c96 (дата обра-
щения: 01.03.2020).
8. Iborodikhin A. Basic snowball stemming algorith for kazakh language 
[Электронный ресурс]. URL: https://github.com/iborodikhin/
stemmer-kaz/ (дата обращения: 27.03.2020).
9. Rakhimova D., Zhumanov Zh. Complex technology of machine 
translation resources extension for the Kazakh language // Studies in 
Computational Intelligence. 2017. V. 710. Р. 297–307. doi: 
10.1007/978-3-319-56660-3_26
10. Рахимова Д.Р. Разработка информационно-аналитической поис-
ковой системы данных на казахском языке: отчет о НИР (проме-
жуточный). № ГР 0118РК00127. Алматы, 2018. 84 с.
11. Shormakova A., Zhumanov Zh., Rakhimova D. Post-editing of words 
in Kazakh sentences for information retrieval // Journal of Theoretical 
and Applied Information Technology. 2019. V. 97. N 6. P. 1896–1908.
12. Ножов И.М. Морфологическая и синтаксическая обработка тек-
ста (модели и программы). М., 2003. 140 c.
13. Kutuzov A., Andreev I. Texts in, Meaning out: neural language 
models in semantic similarity tasks for Russian // Компьютерная 
лингвистика и интеллектуальные технологии: по материалам 
ежегодной Международной конференции «Диалог» (2015) = 
Computational Linguistics and Intellectual Technologies: Papers from 
the Annual International Conference «Dialogue» (2015). 2015. Т. 2. 
№ 14. С. 133–144.
14. Kalimoldayev M.N., Koibagarov K.Ch., Pak A.A., Zharmagam-
betov A.S. The application of the connectionist method of semantic 
similarity for kazakh language // Proc. 12
th
International Conference 


Достарыңызбен бөлісу:
1   2   3   4   5   6   7   8   9   10




©emirsaba.org 2024
әкімшілігінің қараңыз

    Басты бет