О. МАХАМБЕТОВ, А. МАКАЖАНОВ, Ж. ЕСЕНБАЕВ, Б. МАТКАИМОВ, И. АБЫРГАЛИЕВ, А. ШАРАФУДИНОВ Nazarbayev University Research and Innovation System, Astana, Kazakhstan КОРПУС КАЗАХСКОГО ЯЗЫКА: МЕТОДИКА СБОРА, СТРУКТУРИРОВАНИЯ И РАЗМЕТКИ ДАННЫХ Аннотация В данной работе мы представляем вашему вниманию Текстовый корпус казахского языка (КК – казахский корпус), что является одной из первых попыток, предпринятой местным
научным сообществом составить подобный корпус. Корпус содержит более 135 миллионов
различных словоформ и состоит из более чем 445 тысяч документов, сгруппированных по
пяти стилистическим жанрам: художественный, публицистический, официально-деловой, научный и разговорный. Наряду с основной частью КК содержит: (1) аннотированный под-
корпус, содержащий сегментированные документы в формате eXtensible Markup Language
(XML), в котором закодированы полная морфологическая, синтаксическая и структурная
разметки текста; (2) под-корпус с аннотированными аудио данными. КК оснащен
электронной навигационной системой, доступной через Интернет, что облегчает поиск и
обработку искомой информации. Корпус является открытым в обоюдном порядке: (1)
данные корпуса являются свободно доступными для некоммерческого использования; (2)
каждый желающий может помочь советом по улучшению, а также пожертвовать текст.