Атты І халықаралық конференция ЕҢбектері


  Основная часть корпуса



Pdf көрінісі
бет176/326
Дата07.01.2022
өлшемі8,57 Mb.
#19269
1   ...   172   173   174   175   176   177   178   179   ...   326

Основная часть корпуса 
КК представляет собой первую попытку построить масштабный корпус общего значения, 
который  описывает  текущее  состояние  Казахского  языка.  Корпус  содержит  более  135 
миллионов  различных  словоформ  и  состоит  из  более  чем  445  тысяч  документов, 
сгруппированных  по  пяти  стилистическим  жанрам:  (1)  художественный  (Казахские 
литературные  тексты,  охватывающие  период  с  начала  ХХ  века  до  современности);  (2) 
публицистический (периодика и новостные статьи из Интернет-источников, опубликованные 


168 
 
за  последнее  десятилетие);  (3)  официально-деловой  (приказы,  акты,  и  другие  официальные 
документы, опубликованные в период с 2009 до 2012гг.)(4) научный (книги, монографии, и 
работы на различные научные темы); (5)  разговорный (популярные блог-посты, изданные с 
2009 года поныне). Обращаем внимание, что мы намеренно не ставили жестких ограничений 
на  конкретные  источники  данных,  жанры  и  временные  периоды.  Это  объясняется 
относительной скудностью данных и причинами, озвученными во введении. 
Основными  источниками  данных  послужили  веб-сайты,  а  также  оцифрованные  книги  и 
статьи,  полученные  из  общественных  и  частных  библиотек.  Для  каждого  веб-сайта  мы 
адаптировали  веб-краулер,  что  увеличило  точность  извлечения  служебной  информации 
(автор, дата, категория, и т.д.) 
Данные  корпуса  распространяются  по  лицензии,  которая  согласно  закону  РК  позволяет 
распространять некоторые данные целиком (официальная документация, новостные статьи), 
и некоторые частично (литература, научные работы, аналитика), при условии, что источники 
должным образом указаны. 
 


Достарыңызбен бөлісу:
1   ...   172   173   174   175   176   177   178   179   ...   326




©emirsaba.org 2024
әкімшілігінің қараңыз

    Басты бет