Атты І халықаралық конференция ЕҢбектері



Pdf көрінісі
бет174/326
Дата07.01.2022
өлшемі8,57 Mb.
#19269
1   ...   170   171   172   173   174   175   176   177   ...   326
 

Введение 
Эта  статья  описывает  теоретические  и  практические  вопросы  испытанные  во  время 
разработки  Корпуса  казахского  языка.  Казахский  язык  –  агглютинативный  язык  с  высоким 
фактором инфлекции (генерации) словоформ, который  относится к тюркской группе. Это  - 
официальный  государственный  язык  Республики  Казахстан  и  родной  для  более  чем  10 
миллионов людей во всем мире. Но тем не менее, вплоть до начала 90-х годов 20-го века , в 
связи с историческими событиями в советский период , русский язык был преобладающим 
языком  в  устной  и  письменной  коммуникации  в  Республике  Казахстан.  Этот  факт  в  свою 
очередь создал проблемы в представлении казахского языка в различных областях таких как 
наука, развлечения, официальная документация и т.д. По этой причине , при сборке корпуса, 
мы  должны  были  сгруппировать  категорий,  которые  обычно  представляются  в  виде 
отдельных  корпусов,  на  пять  стилистических  жанров.  Кроме  того,  в  отличие  от  других 
корпусов  (Aksan  и  др.,  2012  .  ;  Chen  ,  1996),  мы  включили  тексты  в  том  виде  в  каких  они 
были  доступны,  то  есть  мы  не  пытались  заполнить  предопределенный  набор  категорий. 
Значительная  часть  материалов  была  собрана  с  использованием  веб  краулеров  (программа 
для  автоматизированного  сбора  информации)  ,  адаптированных  под  специализированные  
источники и пожертвованных текстов.  
КК  также  содержит,  аннотированный  вручную,  суб-корпус  с  морфо-синтаксическими  и 
структурными наценками, которые кодируется в XML, следуя общим понятиям, изложенным 
в  CES  (IDE,1998).  Наши  синтаксические  множества  тегов  содержат  набор  синтаксических 
категорий,  четко  определенных  в  классической  казахской  грамматике,  и  множество  тегов 
частей  речи  (POS)  основаны  на  позиционной  системе,  в  которой  теги  образованы 
конкатенациями  POS  слова  форм  и  цепями  кодированных  лингвистических  свойств,  таких 
как  количество  ,  случай,  голос  и  т.д.  Аннотации  были  проведены  вручную  студентами 
факультета  филологии,  специализирующихся  в  морфологии  и  синтаксисе.  Пытаясь  сделать 
процесс  аннотации  максимально  комфортным,  мы  разработали  веб  инструмент  с  удобным 


167 
 
интерфейсом  для  аннотации  .  Мы  позаботились  о  качестве  аннотации,  и  для  этого 
разработали систему рекомендации, которая впоследствии увеличела скорость разметки.  
В  рамках  КК  мы  также  скомпилировали  аннотированный  корпус  чтения  речи  (RSC  ), 
которая включает в себя аудио записи слов, фраз, предложений (от всех жанров), новостных 
статей и отрывков из книг, которые были тщательно отобраны из основной части корпуса. 
Все текстовые материалы были прочитаны добровольцами разных возрастов, полов, уровней 
образования  из  разных  регионов.  Каждый  аудиофайл  сопровождается  файлом  этикетки  и 
соответствующим  транскриптом  текста.  Кроме  того,  некоторые  транскрипты  были 
грамматически  аннотированными,  т.е.  в  дополнение  к  словоуровневой  сегментации 
аудиоинформации  часть  наших  данных  имеет  лексические  и  морфо-синтаксические 
аннотации. В общей сложности RSC содержит 10GB или более чем 40 часов речи.  
Эта  статья  организована  следующим  образом.  Раздел  2  рассматривает  существующую 
работу. Раздел 3 предоставляет подробную информацию о первичном корпусе. Разделы 4 и 5 
подробно  описывают  аннотированный  текст  и  речь  суб-корпуса  соответственно.  Наконец, 
мы делаем выводы и обсуждаем будущую работу в разделе 6. 
 


Достарыңызбен бөлісу:
1   ...   170   171   172   173   174   175   176   177   ...   326




©emirsaba.org 2024
әкімшілігінің қараңыз

    Басты бет