Атты І халықаралық конференция ЕҢбектері

О. МАХАМБЕТОВ, А. МАКАЖАНОВ, Ж. ЕСЕНБАЕВ, Б. МАТКАИМОВ

жүктеу/скачать 8,57 Mb.

Pdf көрінісі

бет	173/326
Дата	07.01.2022
өлшемі	8,57 Mb.
	#19269

1 ... 169 170 171 172 173 174 175 176 ... 326

Байланысты:
Болатбек М. (1)

О. МАХАМБЕТОВ, А. МАКАЖАНОВ, Ж. ЕСЕНБАЕВ, Б. МАТКАИМОВ,
И. АБЫРГАЛИЕВ, А. ШАРАФУДИНОВ

Nazarbayev University Research and Innovation System, Astana, Kazakhstan

КОРПУС КАЗАХСКОГО ЯЗЫКА: МЕТОДИКА СБОРА, СТРУКТУРИРОВАНИЯ И
РАЗМЕТКИ ДАННЫХ

Аннотация
В данной работе мы представляем вашему вниманию Текстовый корпус казахского языка
(КК  –  казахский  корпус),  что  является  одной  из  первых  попыток,  предпринятой  местным
научным сообществом  составить подобный корпус. Корпус содержит более 135 миллионов
различных  словоформ  и  состоит  из  более  чем  445  тысяч  документов,  сгруппированных  по
пяти  стилистическим  жанрам:  художественный,  публицистический,  официально-деловой,
научный и разговорный. Наряду с основной частью КК содержит: (1) аннотированный под-
корпус,  содержащий  сегментированные  документы  в  формате  eXtensible  Markup  Language
(XML),  в  котором  закодированы  полная  морфологическая,  синтаксическая  и  структурная
разметки  текста;  (2)  под-корпус  с  аннотированными  аудио  данными.  КК  оснащен
электронной  навигационной  системой,  доступной  через  Интернет,  что  облегчает  поиск  и
обработку  искомой  информации.  Корпус  является  открытым  в  обоюдном  порядке:  (1)
данные  корпуса  являются  свободно  доступными  для  некоммерческого  использования;  (2)
каждый желающий может помочь советом по улучшению, а также пожертвовать текст.

жүктеу/скачать 8,57 Mb.

Достарыңызбен бөлісу:

1 ... 169 170 171 172 173 174 175 176 ... 326