Қазақша сөздерді қолдану жиілігінің статистикалық зерттеулері Мақалада қазақ тіліндегі сөздердің қолданылу жиілігін статистикалық тұрғыдан зерттелді. Қазақ тілі
агглютинативті тілдер тобына жататындықтан, табиғи тілді өңдеу саласында зерттелмеген мəселелер
өте көп. Авторлар қазақ тілі корпусын кодтау жəне сақтау схемасын сипаттады. Сондай-ақ қазақ тілі
корпусын (KzLC) жасауды ұсынды, бұл корпустық лингвистика саласындағы ғылыми зерттемелерге
негіз болып, оның одан əрі дамуына ықпал етеді. Аталмыш зерттеу машиналық аударманың, сөзді
(сөйлеуді) анықтаудың, ақпараттық іздеудің, қазақ тіліндегі басқа да қосымшаларды жасаудың базистік
міндеттері болып табылады.
Кілт сөздер: қазақ тілі, статистика, корпустық лингвистика, сөздің қолданылу жиілігі, ақпараттық
іздеу, морфологиялық талдау.
Г. Алтынбек, Кс.Л. Ванг
Статистические исследования частотности употребления казахских слов Поскольку казахский язык относится к агглютинативной группе языков, существует множество про-
блем в области исследования обработки естественного языка. Авторами описана схема кодирования,
хранения, обработки создания корпуса казахского языка и создания корпуса казахского языка (KzLC),
что закладывает основу дальнейших научных разработок в области корпусной лингвистики. Это ис-
следование является базисной задачей машинного перевода, распознавания речи, информационного
поиска и многих других разработок приложений на казахском языке.
Ключевые слова: казахский язык, статистика, корпусная лингвистика, частотность слова,
информационный поиск, морфологический анализ.
24
Вестник Карагандинского университета
UDC 80/81.2
G.Yu. Аmanbayeva, Sh.N. Issabek
Ye.A. Buketov Karaganda State University, Kazakhstan (E-mail: filfak79@mail.ru)