Атты І халықаралық конференция ЕҢбектері


О. МАХАМБЕТОВ, А. МАКАЖАНОВ, Ж. ЕСЕНБАЕВ, Б. МАТКАИМОВ



Pdf көрінісі
бет173/326
Дата07.01.2022
өлшемі8,57 Mb.
#19269
1   ...   169   170   171   172   173   174   175   176   ...   326
Байланысты:
Болатбек М. (1)

О. МАХАМБЕТОВ, А. МАКАЖАНОВ, Ж. ЕСЕНБАЕВ, Б. МАТКАИМОВ,  
И. АБЫРГАЛИЕВ, А. ШАРАФУДИНОВ  
 
 
Nazarbayev University Research and Innovation System, Astana, Kazakhstan 
 
 
КОРПУС КАЗАХСКОГО ЯЗЫКА: МЕТОДИКА СБОРА, СТРУКТУРИРОВАНИЯ И 
РАЗМЕТКИ ДАННЫХ 
 
Аннотация 
В данной работе мы представляем вашему вниманию Текстовый корпус казахского языка 
(КК  –  казахский  корпус),  что  является  одной  из  первых  попыток,  предпринятой  местным 
научным сообществом  составить подобный корпус. Корпус содержит более 135 миллионов 
различных  словоформ  и  состоит  из  более  чем  445  тысяч  документов,  сгруппированных  по 
пяти  стилистическим  жанрам:  художественный,  публицистический,  официально-деловой, 
научный и разговорный. Наряду с основной частью КК содержит: (1) аннотированный под-
корпус,  содержащий  сегментированные  документы  в  формате  eXtensible  Markup  Language 
(XML),  в  котором  закодированы  полная  морфологическая,  синтаксическая  и  структурная 
разметки  текста;  (2)  под-корпус  с  аннотированными  аудио  данными.  КК  оснащен 
электронной  навигационной  системой,  доступной  через  Интернет,  что  облегчает  поиск  и 
обработку  искомой  информации.  Корпус  является  открытым  в  обоюдном  порядке:  (1) 
данные  корпуса  являются  свободно  доступными  для  некоммерческого  использования;  (2) 
каждый желающий может помочь советом по улучшению, а также пожертвовать текст. 


Достарыңызбен бөлісу:
1   ...   169   170   171   172   173   174   175   176   ...   326




©emirsaba.org 2024
әкімшілігінің қараңыз

    Басты бет