Атты І халықаралық конференция ЕҢбектері

жүктеу/скачать 8,57 Mb.

Pdf көрінісі

бет	174/326
Дата	07.01.2022
өлшемі	8,57 Mb.
	#19269

1 ... 170 171 172 173 174 175 176 177 ... 326

Байланысты:
Болатбек М. (1)

1
Введение
Эта  статья  описывает  теоретические  и  практические  вопросы  испытанные  во  время
разработки  Корпуса  казахского  языка.  Казахский  язык  –  агглютинативный  язык  с  высоким
фактором инфлекции (генерации) словоформ, который  относится к тюркской группе. Это  -
официальный  государственный  язык  Республики  Казахстан  и  родной  для  более  чем  10
миллионов людей во всем мире. Но тем не менее, вплоть до начала 90-х годов 20-го века , в
связи с историческими событиями в советский период , русский язык был преобладающим
языком  в  устной  и  письменной  коммуникации  в  Республике  Казахстан.  Этот  факт  в  свою
очередь создал проблемы в представлении казахского языка в различных областях таких как
наука, развлечения, официальная документация и т.д. По этой причине , при сборке корпуса,
мы  должны  были  сгруппировать  категорий,  которые  обычно  представляются  в  виде
отдельных  корпусов,  на  пять  стилистических  жанров.  Кроме  того,  в  отличие  от  других
корпусов  (Aksan  и  др.,  2012  .  ;  Chen  ,  1996),  мы  включили  тексты  в  том  виде  в  каких  они
были  доступны,  то  есть  мы  не  пытались  заполнить  предопределенный  набор  категорий.
Значительная  часть  материалов  была  собрана  с  использованием  веб  краулеров  (программа
для  автоматизированного  сбора  информации)  ,  адаптированных  под  специализированные
источники и пожертвованных текстов.
КК  также  содержит,  аннотированный  вручную,  суб-корпус  с  морфо-синтаксическими  и
структурными наценками, которые кодируется в XML, следуя общим понятиям, изложенным
в  CES  (IDE,1998).  Наши  синтаксические  множества  тегов  содержат  набор  синтаксических
категорий,  четко  определенных  в  классической  казахской  грамматике,  и  множество  тегов
частей  речи  (POS)  основаны  на  позиционной  системе,  в  которой  теги  образованы
конкатенациями  POS  слова  форм  и  цепями  кодированных  лингвистических  свойств,  таких
как  количество  ,  случай,  голос  и  т.д.  Аннотации  были  проведены  вручную  студентами
факультета  филологии,  специализирующихся  в  морфологии  и  синтаксисе.  Пытаясь  сделать
процесс  аннотации  максимально  комфортным,  мы  разработали  веб  инструмент  с  удобным

167

интерфейсом  для  аннотации  .  Мы  позаботились  о  качестве  аннотации,  и  для  этого
разработали систему рекомендации, которая впоследствии увеличела скорость разметки.
В  рамках  КК  мы  также  скомпилировали  аннотированный  корпус  чтения  речи  (RSC  ),
которая включает в себя аудио записи слов, фраз, предложений (от всех жанров), новостных
статей и отрывков из книг, которые были тщательно отобраны из основной части корпуса.
Все текстовые материалы были прочитаны добровольцами разных возрастов, полов, уровней
образования  из  разных  регионов.  Каждый  аудиофайл  сопровождается  файлом  этикетки  и
соответствующим  транскриптом  текста.  Кроме  того,  некоторые  транскрипты  были
грамматически  аннотированными,  т.е.  в  дополнение  к  словоуровневой  сегментации
аудиоинформации  часть  наших  данных  имеет  лексические  и  морфо-синтаксические
аннотации. В общей сложности RSC содержит 10GB или более чем 40 часов речи.
Эта  статья  организована  следующим  образом.  Раздел  2  рассматривает  существующую
работу. Раздел 3 предоставляет подробную информацию о первичном корпусе. Разделы 4 и 5
подробно  описывают  аннотированный  текст  и  речь  суб-корпуса  соответственно.  Наконец,
мы делаем выводы и обсуждаем будущую работу в разделе 6.

жүктеу/скачать 8,57 Mb.

Достарыңызбен бөлісу:

1 ... 170 171 172 173 174 175 176 177 ... 326