Атты І халықаралық конференция ЕҢбектері

жүктеу/скачать 8,57 Mb.

Pdf көрінісі

бет	20/39
Дата	25.12.2016
өлшемі	8,57 Mb.
	#403

1 ... 16 17 18 19 20 21 22 23 ... 39

Раздел → перечисление, прямая речь, предложение, фразеологизм, токен
Документ → раздел.

Таблица 3. Лексический тэгсет
№  Тэг
Описание
ГС
Емк.  №  Тэг
Описание
ГС
Емк.

Существительное:

Местоимение:

1
ZEP
нарицательное
ANSPC
314
20  SIMZ  личное
NSPC  229
2
ZEQ  собственное
ANSPC
314
21  SIMU  указательное
NSPC  157

Глагол:

22  SIMS  вопросительное
NSPC  157
3
ET
основной
GTMVP  840
23  SIMD  возвратное
NSPC  157

170

4
ETU  инфинитив
GSC
196
24  SIMB  безличное
NSPC  157
5
ETK  вспомогательный
P
8
25  SIMY  отрицательное
NSPC  157
6
ETB  вспом., отрицание  P
8
26  SIMP  собирательное
NSPC  157
7
KEL  вспом.,
желательный
GT
6

Частица:

8
ESM  причастие
GNSPC
314
27  KOM  вспомогательное
имя
C
7
9
KSE  деепричастие
G
2
28  SHS
предлог
-
1

Прилагательное:

29  SHZ
союз
-
1
10  SE
основное
P
8
30  SHD
частица
-
1
11  SES
сравнительное
P
8

Междометие:

12  SEA  превосходное
P
8
31  OSP
обращение
-
1

Числительное:

32  OSQ
рассуждение
-
1
13  SN
количественное
NSPC
157
33  OSO
восклицание
-
1
14  SNR  порядковое
NSPC
157

15  SNS  собирательное
NSPC
157
34  ELK
Звукоподражание  -
1
16  SNB  дробное
NSPC
157
35  MOD  Модальное слово  -
1

Числительное:

17  US
основное
-
1
36  BOS
Иностранное
слово
-
1
18  USS  сравнительное
-
1

19  USA  превосходное
-
1

Суммарная
емкость:

3844

5 Речевой корпус
Многие  современных  систем  обработки  речи  требуют  большое  количество  аудио  и
текстовых данных для создания акустических и языковых моделей. В зависимости от типы
приложений  данные  меняются  от  высококачественных  микрофонных  начитанных  записей
(Garofalo et al., 2007) до разговорной телефонной речи (Godfrey and Holliman, 1997; Canavan
and  Zipperlen,  1996),  от  непрерывной  речи  (Garofolo  et  al.,  1993)  до  отдельных  слов  и  фраз
(Leonard  and  Doddington,  1993;  Pitrelli  et  al.,  1995).  В  данной  работе  мы  собрали  более  40
часов высококачественной микрофонной казахской речи, начитанной 169 носителями языка,
для задач распознавания непрерывной речи.
5.1. Текстовые материалы
Текстовые  материалы  для  озвучивания  были  тщательно  отобраны  из  основной  части
текстового  корпуса  и  разделены  на  два  раздела:  предложения  и  статьи.  Раздел
«Предложения»  содержит  более  12000  различных  предложений,  равномерно  и  случайным
образом извлеченных из пяти стилистических жанров корпуса. Предложения выбраны таким
образом,  что  они  содержат  более  120  тысяч  наиболее  часто  встречаемых  слов,  которые
покрывают  95%  всех  текстов  корпуса.  Дополнительно,  предложения  сгруппированы  по
количеству содержащих слов так, что первая группа содержит шесть слов, вторая  – семь, и
так  далее  до  длины  предложения  в  15  слов.  Раздел  «Статьи»  содержит  онлайн  новости,
извлеченные  из  раздела  публицистического  жанра  корпуса.  Каждая  статья  состоит  из  не
более чем 300 слов.
Все  материалы  были  разделены  на  непересекающиеся  наборы,  состоящих  из  75
предложений  и  одной  статьи.  Из  75  предложений  50  представляют  короткие  предложения
(по 10 предложений из первых пяти групп), а 25 – длинные предложения (по 5 предложений
из последних пяти групп).

171

5.2. Дикторы
Основными  критериями  отбора  дикторов  были:  регион,  в  котором  диктор  освоил
казахский  или  провел  большую  часть  своей  жизни,  пол,  возраст    и  способность  читать  на
казахском.
Первый критерий позволил нам уловить различные типы говора, связанные с физическим
регионом  проживания,  как  местного,  так  и  зарубежного.  С  точки  зрения  регионального
признака дикторы разбиты на 15 групп: 14 областей Казахстана и одна группа для зарубежья.
Далее дикторы разбиты на следующие четыре возрастные категории: 1) 18-27 лет; 2) 28-37
лет; 3) 38-47 лет; 4) 48 лет и старше. Мы намеренно не старались балансировать дикторов по
половому  признаку,  в  виду  сложностей  нахождения  добровольцем,  но  все  же  пытались
ограничиться  только  не  более  тремя  дикторами  одного  пола  в  каждой  возрастной  и
региональной группе. Соотношение женского к мужскому полу составило 57% к 43%.
Еще одним немаловажным критерием отбора дикторов было  умение свободно читать на
казахском  языке,  так  как  это  является  общей  проблемой  для  двуязычных  стран  как
Казахстан.  Дополнительно,  мы  вели  информацию  об  образовании  дикторов:  наличие
среднего, незаконченного высшего или высшего образования.
Дикторам  присваивался  шифр  в  соответствии  со  следующей  кодировкой:
«Регион»-«Пол»-«Год  рождения»-«Инициалы»-«Образование»,  где  «Регион»  принимает
значения  1-15;  «Пол»  -  F  или  M;  «Год  рождения»  последние  две  цифры  года  рождения
диктора;  «Инициалы»  -  инициалы  диктора;  «Образование»  -  1  для  школы,  2  -  для
колледжа/незаконченное высшее, 3 - высшее (например, 06F70ZK3).
Всего записано 169 дикторов. В табл. 7 показано распределение дикторов по возрастному,
половому  и  региональному  признакам.  Пустые  ячейки  означают  отсутствие  дикторов  с
соответствующим профилем. В большинстве случаев, это соответствует наиболее удаленным
регионам и мужским группам.
5.3. Условия записи
Фактическая  запись  дикторов  проводилась  в звукозаписывающей  студии  университета  с
участием  звукооператора.  Перед  записью  дикторы  были  зарегистрированы    и
проинструктированы,  также  им  было  дано  время  на  подготовку.  Каждый  диктор  заполнял
соглашение о передаче исключительных прав на использование аудио данных с их голосом.
При  озвучивании  материала  от  дикторов  не  требовалось  четкой  дикции  и  особой  манеры
произношения,  кроме  как  правильного  чтения  материала.  Среднее  время  записи  на  одного
диктора  заняло  около  40-45  минут,  хотя  были  и  случаи  достигавшие  двух  часов.  Аудио
данные  были  получены  с  помощью  профессионального  микрофона  Neumann  TLM  49  и
оцифрованы на звуковой карте LEXICON I-ONIX U82S. Данные сохранены в wav-формате с
одним каналом, частотой дискретизации 44,1 кГц и 16-битовой PCM-кодировкой. Все аудио
файлы  были  обработаны  вручную  так,  что  каждое  предложение  и  статья  хранятся  в
отдельных аудио и текстовых файлах. Размер речевого корпуса на диске составил около 8,5
Гб, а общая продолжительность записи – более 40 часов.
5.4. Разметка и транскрипция
Каждый аудио файл сопровождается соответствующей орфографической транскрипцией и
сегментацией  на  уровне  слов  аналогичной  базе  TIMIT,  а  также  морфо-синтактической
разметкой.  Все  разметка  осуществлялась  вручную  обученными  лингвистами.  К  примеру,
орфографическая транскрипция содержит развернутые значения сокращений, чисел и дат, в
соответствие  с  тем,  как  их  прочитали  дикторы.  Дополнительно,  каждое  предложение
начинается  со  специальных  символов  начала  и  конца  предлдожения.  Для  сегментации  мы
использовали  программное  обеспечение  WaveSurfer  (2013),  которое  поддерживает
аннотацию TIMIT.

6 Заключение
В  данной  работе  мы  описали  процесс  создания  Корпуса  казахского  языка.  ККЯ
ориентирован на широкий круг пользователей, и мы верим, что он будет полезен научного

172

сообщества, учитывая то, что корпус имеет богатую разно-уровневую разметку текстовых и
аудио  данных.  Более  того,  данная  эти  данные  уже  были  использовании  в  наших
экспериментах  по  морфологической  сегментации  и  автоматической  корректировке  слов.
Желающие могут пройти по ссылке http://kazcorpus.kz, чтобы ознакомиться с корпусом.
В качестве будущей работы мы планируем использовать данный корпус в решении таких
проблем  как:  1)  автоматическое  определение  частей  речи;  2)  снятие  морфологической
омонимии;  3)  машинный  перевод  текстов.  Для  последней  задачи  уже  начаты  работы  по
сбору параллельных текстов на русском и английском языках.

Литературы
1.

G.T.  Bekmanova  and  B.Zh.  Ergesh.  2010.  A  system  for  automatic  alternation  of  Kazakh
words: word forms generator module. In Proceedings of Lomonosov 2010 international conference.
2.

G.T.  Bekmanova.  2010.  On  the  approaches  to  automated  word  alternation  and
morphological analysis of Kazakh language. In Proceedings of the second international conference
on informatics society, pages 466–469.
3.

Thorsten  Brants.  2000.  Tnt:  a  statistical  part-of  speech  tagger.  In  Proceedings  of  the  sixth
conference on Applied natural language processing, pages 224–231. Association for Computational
Linguistics.
4.

E. Brill and R. Moore. 2000. An improved error model for noisy channel spelling correction.
In Proceedings of the 38th Annual Meeting of the Association for Computational Linguistics, Hong
Kong.
5.

Eric Brill. 1992. A simple rule-based part of speech tagger. In Proceedings of the workshop
on Speech and Natural Language, pages 112–116. Association for Computational Linguistics.
6.

7.

Eugene  Charniak.  2000.  A  maximum-entropy  inspired  parser.  In  Proceedings  of  the  1st
North  American  chapter  of  the  Association  for  Computational  Linguistics  conference,  NAACL
2000, pages 132–139, Stroudsburg, PA, USA. Association for Computational Linguistics.
8.

Grzegorz  Chrupala.  2006.  Simple  data  driven  context  sensitive  lemmatization.
Procesamiento del Lenguaje Natural, 37:121–127.
9.

K.  Church  andW.  Gale.  1991.  Probability  scoring  for  spelling  correction.  Statistics  and
Computing, 1(2):93–103.
10.

Michael John Collins. 1996. A new statistical parser based on bigram lexical dependencies.
In  Proceedings  of  the  34th  annual  meeting  on  Association  for  Computational  Linguistics,  pages
184–191. Association for Computational Linguistics
11.

Mathias  Creutz  and  Krista  Lagus.  2004.  Induction  of  a  simple  morphology  for  highly
inflecting  languages.  In  Proceedings  of  the  7th  Meeting  of  the  ACL  Special  Interest  Group  in
Computational  Phonology:  Current  Themes  in  Computational  Phonology  and  Morphology,  pages
43–51. Association for Computational Linguistics.
12.

Doug  Cutting,  Julian  Kupiec,  Jan  Pedersen,  and  Penelope  Sibun.  1992.  A  practical  part-of
speech  tagger.  In  Proceedings  of  the  third  conference  on  Applied  natural  language  processing,
pages 133–140. Association for Computational Linguistics
13.

Fred J. Damerau. 1964. A technique for computer detection and correction of spelling errors.
Commun. ACM, 7(3):171–176.
14.

David  Elworthy.  1995.  Tagset  design  and  inflected  languages.  In  In  EACL  SIGDAT
workshop From Texts to Tags: Issues in Multilingual Language Analysis, pages 1–10.
15.

Anna Feldman. 2008. Tagset design, inflected languages, and n-gram tagging. Editors: Paul
Robertson and John Adamson, 3(1):151.
16.

Sheila A. Greibach. 1964. Formal parsing systems. Commun. ACM, 7(8):499–504, August.
17.

Jan  Haji?c  and  Barbora  Hladk?a.  1998.  Tagging  inflective  languages:  prediction  of
morphological categories for a rich, structured tagset. In Proceedings of the 36th Annual Meeting of
the Association for Computational Linguistics and 17th International Conference on Computational

173

Linguistics  -  Volume  1,  ACL  ’98,  pages  483–490,  Stroudsburg,  PA,  USA.  Association  for
Computational Linguistics.
18.

Dilek  Z  Hakkani-Tur,  Kemal  Oflazer,  and  Gokhan  Tur.  2002.  Statistical  morphological
disambiguation for agglutinative languages. Computers and the Humanities, 36(4):381–410.
19.

Jirka Hana and Anna Feldman. 2010. A positional tagset for russian. Proceedings of LREC-
10. Malta.
20.

James  Henderson.  2004.  Discriminative  training  of  a  neural  network  statistical  parser.  In
Proceedings  of  the  42nd  Annual  Meeting  on  Association  for  Computational  Linguistics,  ACL’04,
Stroudsburg, PA, USA. Association for Computational Linguistics.
21.

Dan  Klein  and  Christopher  D  Manning.  2002.  Conditional  structure  versus  conditional
estimation  in  NLP  models.  In  Proceedings  of  the  ACL-02  conference  on  Empirical  methods  in
natural language processing-Volume 10, pages 9–16. Association for Computational Linguistics.
22.

Dan  Klein  and  Christopher  D  Manning.  2003.  Accurate  unlexicalized  parsing.  In
Proceedings of the 41st Annual  Meeting on Association  for Computational  Linguistics-Volume 1,
pages 423–430. Association for Computational Linguistics
23.

Oskar  Kohonen,  Sami  Virpioja,  and  Mikaela  Klami.  2009.  Allomorfessor:  Towards
unsupervised  morpheme  analysis.  In  Evaluating  Systems  for  Multilingual  and  Multimodal
Information Access, pages 975–982. Springer.
24.

Kimmo Koskenniemi. 1983. Two-level model for morphological analysis. In Proceedings of
the 8th International Joint Conference on Artificial Intelligence, pages 683–685.
25.

V.  I.  Levenshtein.  1966.  Binary  codes  capable  of  correcting  deletions,  insertions  and
reversals. Soviet Physics Doklady., 10(8):707–710, February.
26.

Bao-Liang  Lu,  Qing  Ma,  Michinori  Ichikawa,  and  Hitoshi  Isahara.  2003.  Efficient  part-of
speech tagging  with  a min-max modular neural network model.  Applied  Intelligence, 19(1-2):65–
81.
27.

Olzhas  Makhambetov,  Aibek  Makazhanov,  Zhandos  Yessenbayev,  Bakhyt  Matkarimov,
Islam  Sabyrgaliyev,  and  Anuar  Sharafudinov.  2013.  Assembling  the  kazakh  language  corpus.  In
Empirical Methods in Natural Language Processing (to appear).
28.

Christopher  D  Manning.  2011.  Part-of-speech  tagging  from  97%  to  100%:  is  it  time  for
some  linguistics?  In  Computational  Linguistics  and  Intelligent  Text  Processing,  pages  171–189.
Springer.
29.

Mitchell  P.  Marcus,  Mary  Ann  Marcinkiewicz,  and  Beatrice  Santorini.  1993.  Building  a
large annotated corpus of English: the Penn Treebank. Comput. Linguist., 19(2):313–330, June
30.

E. Mays, F. Damerau, and R. Mercer. 1991. Context based spelling correction. Information
Processing & Management, 27(5):517–522.
31.

Microsoft. 2010. Microsoft Office 2010, Kazakh language pack.
32.

Akmaral  Mussayeva.  2008.  Kazakh  language  spelling  with  hunspell  in  openoffice.org.
Technical report, The University of Nottingham.
33.

nlpub.ru.  2013.  A  small  directory  of  linguistic  resources  for  processing  Russian  language:
nlpub.ru.
34.

Anthony G Oettinger. 1961. Automatic syntactic analysis and the pushdown store. American
Mathematical Society.
35.

Kemal Oflazer and Cemaleddin Guzey. 1994. Spelling correction in agglutinative languages.
In ANLP, pages 194–195.
36.

Kemal Oflazer. 1994. Two-level description of Turkish morphology. Literary and linguistic
computing, 9(2):137–148.
37.

Praharshana  Perera  and  ReneWitte.  2005.  A  self-learning  context-aware  lemmatizer  for
German.  In  Proceedings  of  the  conference  on  Human  Language  Technology  and  Empirical
Methods  in  Natural  Language  Processing,  pages  636–643.  Association  for  Computational
Linguistics.
38.

Adwait  Ratnaparkhi.  1999.  Learning  to  parse  natural  language  with  maximum  entropy
models. Mach. Learn., 34(1-3):151–175, February.

174

39.

Has?im  Sak,  Tunga  G?ung?or,  and  Murat  Sarac?lar.  2009.  A  stochastic  finite-state
morphological parser for turkish. In Proceedings of the ACLIJCNLP 2009 Conference short papers,
pages 273–276. Association for Computational Linguistics.
40.

Helmut Schmid. 1994a. Part-of-speech tagging with neural networks. In Proceedings of the
15th  conference  on  Computational  linguistics-Volume  1,  pages  172–176.  Association  for
Computational Linguistics.
41.

Helmut  Schmid.  1994b.  Probabilistic  part-of  speech  tagging  using  decision  trees.  In
Proceedings of international conference on new methods in language processing, volume 12, pages
44–49. Manchester, UK.
42.

Claude  E.  Shannon.  1948.  A  mathematical  theory  of  communication.  The  Bell  system
technical journal, 27:379–423, July.
43.

A.A.  Sharipbayev  and  A.K.  Buribayeva.  2010a.  Kazakh  speech  synthesis  on  a  hardware
level. In Proceedings of the second international conference on building information-aware society,
pages 557–558.
44.

A.A.  Sharipbayev  and  A.K.  Buribayeva.  2010b.  Kazakh  speech  synthesis  on  a  hardware
level in the Quartus II environment. pages 197–203.
45.

A.A.  Sharipbayev,  G.T.  Bekmanova,  B.Zh.  Ergesh,  A.K.  Buribayeva,  and  M.  Kh.
Karabalayeva.  2012.  Intellectual  morphological  analyzer  based  on  semantic  networks.  In
Proceedings of the OSTIS-2012, pages 397–400.
46.

Rustem Takhanov and V. Kolmogorov. 2013. Inference algorithms for pattern-based crfs on
sequence data. In International conference on machine learning
47.

Scott M Thede and Mary P Harper. 1999. A second-order hidden Markov model for part-of
speech  tagging.  In  Proceedings  of  the  37th  annual  meeting  of  the  Association  for  Computational
Linguistics  on  Computational  Linguistics,  pages  175–182.  Association  for  Computational
Linguistics.
48.

Kristina Toutanova, Dan Klein, Christopher D Manning, and Yoram Singer. 2003. Feature-
rich  part-of-speech  tagging  with  a  cyclic  dependency  network.  In  Proceedings  of  the  2003
Conference  of  the  North  American  Chapter  of  the  Association  for  Computational  Linguistics  on
Human  Language  Technology-Volume  1,  pages  173–180.  Association  for  Computational
Linguistics.

175

МӘТІНДІ МОРФОЛОГИЯЛЫҚ ЖӘНЕ СИНТАКСИСТІК ӨҢДЕУ ЖҮЙЕЛЕРІ
СИСТЕМЫ МОРФОЛОГИЧЕСКОЙ И СИНТАКСИЧЕСКОЙ ОБРАБОТКИ
ТЕКСТОВ
SYSTEMS OF MORPHOLOGICAL AND SYNTACTIC PROCESSING OF TEXTS

176

А.М.ГАЛИЕВА, А.Р.ГАТИАТУЛЛИН

НИИ “Прикладная Семиотика”
академии наук Республики Татарстан

ОБОЗНАЧЕНИЕ МОРФОЛОГИЧЕСКИХ КАТЕГОРИЙ ГЛАГОЛА
В МОДЕЛЯХ ОКОНЧАНИЙ ТЮРКСКИХ СЛОВОФОРМ
2

Введение
В  НИИ  “Прикладная  семиотика”  Академии  наук  РТ  ведется  работа  над  проектом  по
созданию комплексных моделей данных на основе ситуационного анализа текстов. В рамках
этого  проекта  решаются  задачи  создания  модели  окончаний  и  базы  данных  со  словарями
окончаний для татарского, казахского и турецкого языков. На базе этой модели реализуется
программа  морфологического  анализа,  которая  на  вход  получает  словоформу  на  одном  из
указанных  тюркских  языков,  а  на  выходе  выдает  структуру  этой  словоформы  в  виде
последовательности    морфем  и  в  виде  последовательности  морфологических  категорий.
Одна  из  причин  такого  двойного  представления  результата,  то,  что  одна  и  та  же
морфологическая  категория  в  этих  тюркских  языках  может  быть  представлена  разными
морфемами.  Например,  категория  инфинитива  в  татарском  языке  представляется
аффиксальной  морфемой  -[Ы]РГА,  в  турецком  языке  морфемой  –мАк,  а  в  казахском
морфемой –У.
В  данной  статье  рассматривается  система  обозначений  для  морфологических  категорий
татарского глагола со сравнением этих категорий в казахском и турецком языках.

1.

Тюркский глагол
Из всех частей речи глагол выделяется лингвистами как самая сложная и самая емкая, а
система тюркского глагола отличается особой сложностью и разветвленностью форм.
Для тюркского глагола характерно наличие, следующих морфологических категорий:
- категория аспекта;
-  сложная  система  времен  и  наклонений,  включающая  синтетические  и  аналитические
формы;
-  развитая    и  многочленная  система  глагольных  имен  -  имена  действия,  причастия,
субстантивно-адъективных форм, деепричастные формы;
- глагольные финитные формы с обстоятельственными значениями;
-  сложная  система  залоговых  форм  глагола  (взаимно-совместный,  понудительный,
страдательный,  возвратный  залоги),  способность  показателей  залоговых  форм
комбинироваться друг с другом в пределах словоформы;
-  разнообразные  формы  выражения  категории  каузатива,    причем  в  словоформе  могут
присутствовать  два,  три  и  более  показателей  каузатива,  модифицирующих  действие,
выраженное  знаменательной  частью  лексемы,  располагающейся  слева  от  каузативного
аффикса.
При  разработке  системы  обозначений  для  грамматических  категорий  татарского  глагола
нами  изучены  системы  обозначений  в  словарях  разного  типа  и  грамматиках  тюркских
языков, система грамматической аннотации в Национальном корпусе русского языка, работы
по общей морфологии и другие исследования. Особо следует выделить Лейпцигские правила
глоссирования (The Leipzig Glossing Rules), которые были разработаны в отделе лингвистики

2
  Исследование  выполнено  в  рамках  научно-исследовательского  проекта  РФФИ  («Разработка  комплексных
моделей данных на основе ситуационного анализа текстов в задачах многоязычного поиска»), проект № 13- 07-
00494-А.

177

в  Институте  эволюционной  антропологии  имени  Макса  Планка  и  в  отделе  лингвистики
Лейпцигского
университета
(http://www.eva.mpg.de/lingua/resources/glossing-rules.php).
Данную  систему  правил  можно  считать  своеобразным  общепризнанным  стандартом  у
лингвистов мира, в первую очередь у специалистов по типологии. Обозначение результатов
поморфемного  анализа  в  программах  морфологического  анализа  татарских  словоформ
приближено к данным правилам. В ходе работы над системой обозначений привлекались и
другие  источники,  в  частности,  изучена  система  категорий  базы  данных  Verbum,  которая
отражает  состав  и  структуру  элементарных  глагольных  значений,  выявляемых  путем
сопоставления форм глаголов на материале большого количества языков [13].
Рассмотрим более подробно примеры интерпретации глагольных грамматических форм и
категорий в тюркских языках.

жүктеу/скачать 8,57 Mb.

Достарыңызбен бөлісу:

1 ... 16 17 18 19 20 21 22 23 ... 39