Атты І халықаралық конференция ЕҢбектері


О. МАХАМБЕТОВ, А. МАКАЖАНОВ, Ж. ЕСЕНБАЕВ, Б. МАТКАИМОВ



Pdf көрінісі
бет173/326
Дата07.01.2022
өлшемі8,57 Mb.
#19269
1   ...   169   170   171   172   173   174   175   176   ...   326
О. МАХАМБЕТОВ, А. МАКАЖАНОВ, Ж. ЕСЕНБАЕВ, Б. МАТКАИМОВ,  
И. АБЫРГАЛИЕВ, А. ШАРАФУДИНОВ  
 
 
Nazarbayev University Research and Innovation System, Astana, Kazakhstan 
 
 
КОРПУС КАЗАХСКОГО ЯЗЫКА: МЕТОДИКА СБОРА, СТРУКТУРИРОВАНИЯ И 
РАЗМЕТКИ ДАННЫХ 
 
Аннотация 
В данной работе мы представляем вашему вниманию Текстовый корпус казахского языка 
(КК  –  казахский  корпус),  что  является  одной  из  первых  попыток,  предпринятой  местным 
научным сообществом  составить подобный корпус. Корпус содержит более 135 миллионов 
различных  словоформ  и  состоит  из  более  чем  445  тысяч  документов,  сгруппированных  по 
пяти  стилистическим  жанрам:  художественный,  публицистический,  официально-деловой, 
научный и разговорный. Наряду с основной частью КК содержит: (1) аннотированный под-
корпус,  содержащий  сегментированные  документы  в  формате  eXtensible  Markup  Language 
(XML),  в  котором  закодированы  полная  морфологическая,  синтаксическая  и  структурная 
разметки  текста;  (2)  под-корпус  с  аннотированными  аудио  данными.  КК  оснащен 
электронной  навигационной  системой,  доступной  через  Интернет,  что  облегчает  поиск  и 
обработку  искомой  информации.  Корпус  является  открытым  в  обоюдном  порядке:  (1) 
данные  корпуса  являются  свободно  доступными  для  некоммерческого  использования;  (2) 
каждый желающий может помочь советом по улучшению, а также пожертвовать текст. 


Достарыңызбен бөлісу:
1   ...   169   170   171   172   173   174   175   176   ...   326




©emirsaba.org 2024
әкімшілігінің қараңыз

    Басты бет