Раздел → перечисление, прямая речь, предложение, фразеологизм, токен
Документ → раздел.
Таблица 3. Лексический тэгсет
№ Тэг
Описание
ГС
Емк. № Тэг
Описание
ГС
Емк.
Существительное:
Местоимение:
1
ZEP
нарицательное
ANSPC
314
20 SIMZ личное
NSPC 229
2
ZEQ собственное
ANSPC
314
21 SIMU указательное
NSPC 157
Глагол:
22 SIMS вопросительное
NSPC 157
3
ET
основной
GTMVP 840
23 SIMD возвратное
NSPC 157
170
4
ETU инфинитив
GSC
196
24 SIMB безличное
NSPC 157
5
ETK вспомогательный
P
8
25 SIMY отрицательное
NSPC 157
6
ETB вспом., отрицание P
8
26 SIMP собирательное
NSPC 157
7
KEL вспом.,
желательный
GT
6
Частица:
8
ESM причастие
GNSPC
314
27 KOM вспомогательное
имя
C
7
9
KSE деепричастие
G
2
28 SHS
предлог
-
1
Прилагательное:
29 SHZ
союз
-
1
10 SE
основное
P
8
30 SHD
частица
-
1
11 SES
сравнительное
P
8
Междометие:
12 SEA превосходное
P
8
31 OSP
обращение
-
1
Числительное:
32 OSQ
рассуждение
-
1
13 SN
количественное
NSPC
157
33 OSO
восклицание
-
1
14 SNR порядковое
NSPC
157
15 SNS собирательное
NSPC
157
34 ELK
Звукоподражание -
1
16 SNB дробное
NSPC
157
35 MOD Модальное слово -
1
Числительное:
17 US
основное
-
1
36 BOS
Иностранное
слово
-
1
18 USS сравнительное
-
1
19 USA превосходное
-
1
Суммарная
емкость:
3844
5 Речевой корпус
Многие современных систем обработки речи требуют большое количество аудио и
текстовых данных для создания акустических и языковых моделей. В зависимости от типы
приложений данные меняются от высококачественных микрофонных начитанных записей
(Garofalo et al., 2007) до разговорной телефонной речи (Godfrey and Holliman, 1997; Canavan
and Zipperlen, 1996), от непрерывной речи (Garofolo et al., 1993) до отдельных слов и фраз
(Leonard and Doddington, 1993; Pitrelli et al., 1995). В данной работе мы собрали более 40
часов высококачественной микрофонной казахской речи, начитанной 169 носителями языка,
для задач распознавания непрерывной речи.
5.1. Текстовые материалы
Текстовые материалы для озвучивания были тщательно отобраны из основной части
текстового корпуса и разделены на два раздела: предложения и статьи. Раздел
«Предложения» содержит более 12000 различных предложений, равномерно и случайным
образом извлеченных из пяти стилистических жанров корпуса. Предложения выбраны таким
образом, что они содержат более 120 тысяч наиболее часто встречаемых слов, которые
покрывают 95% всех текстов корпуса. Дополнительно, предложения сгруппированы по
количеству содержащих слов так, что первая группа содержит шесть слов, вторая – семь, и
так далее до длины предложения в 15 слов. Раздел «Статьи» содержит онлайн новости,
извлеченные из раздела публицистического жанра корпуса. Каждая статья состоит из не
более чем 300 слов.
Все материалы были разделены на непересекающиеся наборы, состоящих из 75
предложений и одной статьи. Из 75 предложений 50 представляют короткие предложения
(по 10 предложений из первых пяти групп), а 25 – длинные предложения (по 5 предложений
из последних пяти групп).
171
5.2. Дикторы
Основными критериями отбора дикторов были: регион, в котором диктор освоил
казахский или провел большую часть своей жизни, пол, возраст и способность читать на
казахском.
Первый критерий позволил нам уловить различные типы говора, связанные с физическим
регионом проживания, как местного, так и зарубежного. С точки зрения регионального
признака дикторы разбиты на 15 групп: 14 областей Казахстана и одна группа для зарубежья.
Далее дикторы разбиты на следующие четыре возрастные категории: 1) 18-27 лет; 2) 28-37
лет; 3) 38-47 лет; 4) 48 лет и старше. Мы намеренно не старались балансировать дикторов по
половому признаку, в виду сложностей нахождения добровольцем, но все же пытались
ограничиться только не более тремя дикторами одного пола в каждой возрастной и
региональной группе. Соотношение женского к мужскому полу составило 57% к 43%.
Еще одним немаловажным критерием отбора дикторов было умение свободно читать на
казахском языке, так как это является общей проблемой для двуязычных стран как
Казахстан. Дополнительно, мы вели информацию об образовании дикторов: наличие
среднего, незаконченного высшего или высшего образования.
Дикторам присваивался шифр в соответствии со следующей кодировкой:
«Регион»-«Пол»-«Год рождения»-«Инициалы»-«Образование», где «Регион» принимает
значения 1-15; «Пол» - F или M; «Год рождения» последние две цифры года рождения
диктора; «Инициалы» - инициалы диктора; «Образование» - 1 для школы, 2 - для
колледжа/незаконченное высшее, 3 - высшее (например, 06F70ZK3).
Всего записано 169 дикторов. В табл. 7 показано распределение дикторов по возрастному,
половому и региональному признакам. Пустые ячейки означают отсутствие дикторов с
соответствующим профилем. В большинстве случаев, это соответствует наиболее удаленным
регионам и мужским группам.
5.3. Условия записи
Фактическая запись дикторов проводилась в звукозаписывающей студии университета с
участием звукооператора. Перед записью дикторы были зарегистрированы и
проинструктированы, также им было дано время на подготовку. Каждый диктор заполнял
соглашение о передаче исключительных прав на использование аудио данных с их голосом.
При озвучивании материала от дикторов не требовалось четкой дикции и особой манеры
произношения, кроме как правильного чтения материала. Среднее время записи на одного
диктора заняло около 40-45 минут, хотя были и случаи достигавшие двух часов. Аудио
данные были получены с помощью профессионального микрофона Neumann TLM 49 и
оцифрованы на звуковой карте LEXICON I-ONIX U82S. Данные сохранены в wav-формате с
одним каналом, частотой дискретизации 44,1 кГц и 16-битовой PCM-кодировкой. Все аудио
файлы были обработаны вручную так, что каждое предложение и статья хранятся в
отдельных аудио и текстовых файлах. Размер речевого корпуса на диске составил около 8,5
Гб, а общая продолжительность записи – более 40 часов.
5.4. Разметка и транскрипция
Каждый аудио файл сопровождается соответствующей орфографической транскрипцией и
сегментацией на уровне слов аналогичной базе TIMIT, а также морфо-синтактической
разметкой. Все разметка осуществлялась вручную обученными лингвистами. К примеру,
орфографическая транскрипция содержит развернутые значения сокращений, чисел и дат, в
соответствие с тем, как их прочитали дикторы. Дополнительно, каждое предложение
начинается со специальных символов начала и конца предлдожения. Для сегментации мы
использовали программное обеспечение WaveSurfer (2013), которое поддерживает
аннотацию TIMIT.
6 Заключение
В данной работе мы описали процесс создания Корпуса казахского языка. ККЯ
ориентирован на широкий круг пользователей, и мы верим, что он будет полезен научного
172
сообщества, учитывая то, что корпус имеет богатую разно-уровневую разметку текстовых и
аудио данных. Более того, данная эти данные уже были использовании в наших
экспериментах по морфологической сегментации и автоматической корректировке слов.
Желающие могут пройти по ссылке http://kazcorpus.kz, чтобы ознакомиться с корпусом.
В качестве будущей работы мы планируем использовать данный корпус в решении таких
проблем как: 1) автоматическое определение частей речи; 2) снятие морфологической
омонимии; 3) машинный перевод текстов. Для последней задачи уже начаты работы по
сбору параллельных текстов на русском и английском языках.
Литературы
1.
G.T. Bekmanova and B.Zh. Ergesh. 2010. A system for automatic alternation of Kazakh
words: word forms generator module. In Proceedings of Lomonosov 2010 international conference.
2.
G.T. Bekmanova. 2010. On the approaches to automated word alternation and
morphological analysis of Kazakh language. In Proceedings of the second international conference
on informatics society, pages 466–469.
3.
Thorsten Brants. 2000. Tnt: a statistical part-of speech tagger. In Proceedings of the sixth
conference on Applied natural language processing, pages 224–231. Association for Computational
Linguistics.
4.
E. Brill and R. Moore. 2000. An improved error model for noisy channel spelling correction.
In Proceedings of the 38th Annual Meeting of the Association for Computational Linguistics, Hong
Kong.
5.
Eric Brill. 1992. A simple rule-based part of speech tagger. In Proceedings of the workshop
on Speech and Natural Language, pages 112–116. Association for Computational Linguistics.
6.
7.
Eugene Charniak. 2000. A maximum-entropy inspired parser. In Proceedings of the 1st
North American chapter of the Association for Computational Linguistics conference, NAACL
2000, pages 132–139, Stroudsburg, PA, USA. Association for Computational Linguistics.
8.
Grzegorz Chrupala. 2006. Simple data driven context sensitive lemmatization.
Procesamiento del Lenguaje Natural, 37:121–127.
9.
K. Church andW. Gale. 1991. Probability scoring for spelling correction. Statistics and
Computing, 1(2):93–103.
10.
Michael John Collins. 1996. A new statistical parser based on bigram lexical dependencies.
In Proceedings of the 34th annual meeting on Association for Computational Linguistics, pages
184–191. Association for Computational Linguistics
11.
Mathias Creutz and Krista Lagus. 2004. Induction of a simple morphology for highly
inflecting languages. In Proceedings of the 7th Meeting of the ACL Special Interest Group in
Computational Phonology: Current Themes in Computational Phonology and Morphology, pages
43–51. Association for Computational Linguistics.
12.
Doug Cutting, Julian Kupiec, Jan Pedersen, and Penelope Sibun. 1992. A practical part-of
speech tagger. In Proceedings of the third conference on Applied natural language processing,
pages 133–140. Association for Computational Linguistics
13.
Fred J. Damerau. 1964. A technique for computer detection and correction of spelling errors.
Commun. ACM, 7(3):171–176.
14.
David Elworthy. 1995. Tagset design and inflected languages. In In EACL SIGDAT
workshop From Texts to Tags: Issues in Multilingual Language Analysis, pages 1–10.
15.
Anna Feldman. 2008. Tagset design, inflected languages, and n-gram tagging. Editors: Paul
Robertson and John Adamson, 3(1):151.
16.
Sheila A. Greibach. 1964. Formal parsing systems. Commun. ACM, 7(8):499–504, August.
17.
Jan Haji?c and Barbora Hladk?a. 1998. Tagging inflective languages: prediction of
morphological categories for a rich, structured tagset. In Proceedings of the 36th Annual Meeting of
the Association for Computational Linguistics and 17th International Conference on Computational
173
Linguistics - Volume 1, ACL ’98, pages 483–490, Stroudsburg, PA, USA. Association for
Computational Linguistics.
18.
Dilek Z Hakkani-Tur, Kemal Oflazer, and Gokhan Tur. 2002. Statistical morphological
disambiguation for agglutinative languages. Computers and the Humanities, 36(4):381–410.
19.
Jirka Hana and Anna Feldman. 2010. A positional tagset for russian. Proceedings of LREC-
10. Malta.
20.
James Henderson. 2004. Discriminative training of a neural network statistical parser. In
Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics, ACL’04,
Stroudsburg, PA, USA. Association for Computational Linguistics.
21.
Dan Klein and Christopher D Manning. 2002. Conditional structure versus conditional
estimation in NLP models. In Proceedings of the ACL-02 conference on Empirical methods in
natural language processing-Volume 10, pages 9–16. Association for Computational Linguistics.
22.
Dan Klein and Christopher D Manning. 2003. Accurate unlexicalized parsing. In
Proceedings of the 41st Annual Meeting on Association for Computational Linguistics-Volume 1,
pages 423–430. Association for Computational Linguistics
23.
Oskar Kohonen, Sami Virpioja, and Mikaela Klami. 2009. Allomorfessor: Towards
unsupervised morpheme analysis. In Evaluating Systems for Multilingual and Multimodal
Information Access, pages 975–982. Springer.
24.
Kimmo Koskenniemi. 1983. Two-level model for morphological analysis. In Proceedings of
the 8th International Joint Conference on Artificial Intelligence, pages 683–685.
25.
V. I. Levenshtein. 1966. Binary codes capable of correcting deletions, insertions and
reversals. Soviet Physics Doklady., 10(8):707–710, February.
26.
Bao-Liang Lu, Qing Ma, Michinori Ichikawa, and Hitoshi Isahara. 2003. Efficient part-of
speech tagging with a min-max modular neural network model. Applied Intelligence, 19(1-2):65–
81.
27.
Olzhas Makhambetov, Aibek Makazhanov, Zhandos Yessenbayev, Bakhyt Matkarimov,
Islam Sabyrgaliyev, and Anuar Sharafudinov. 2013. Assembling the kazakh language corpus. In
Empirical Methods in Natural Language Processing (to appear).
28.
Christopher D Manning. 2011. Part-of-speech tagging from 97% to 100%: is it time for
some linguistics? In Computational Linguistics and Intelligent Text Processing, pages 171–189.
Springer.
29.
Mitchell P. Marcus, Mary Ann Marcinkiewicz, and Beatrice Santorini. 1993. Building a
large annotated corpus of English: the Penn Treebank. Comput. Linguist., 19(2):313–330, June
30.
E. Mays, F. Damerau, and R. Mercer. 1991. Context based spelling correction. Information
Processing & Management, 27(5):517–522.
31.
Microsoft. 2010. Microsoft Office 2010, Kazakh language pack.
32.
Akmaral Mussayeva. 2008. Kazakh language spelling with hunspell in openoffice.org.
Technical report, The University of Nottingham.
33.
nlpub.ru. 2013. A small directory of linguistic resources for processing Russian language:
nlpub.ru.
34.
Anthony G Oettinger. 1961. Automatic syntactic analysis and the pushdown store. American
Mathematical Society.
35.
Kemal Oflazer and Cemaleddin Guzey. 1994. Spelling correction in agglutinative languages.
In ANLP, pages 194–195.
36.
Kemal Oflazer. 1994. Two-level description of Turkish morphology. Literary and linguistic
computing, 9(2):137–148.
37.
Praharshana Perera and ReneWitte. 2005. A self-learning context-aware lemmatizer for
German. In Proceedings of the conference on Human Language Technology and Empirical
Methods in Natural Language Processing, pages 636–643. Association for Computational
Linguistics.
38.
Adwait Ratnaparkhi. 1999. Learning to parse natural language with maximum entropy
models. Mach. Learn., 34(1-3):151–175, February.
174
39.
Has?im Sak, Tunga G?ung?or, and Murat Sarac?lar. 2009. A stochastic finite-state
morphological parser for turkish. In Proceedings of the ACLIJCNLP 2009 Conference short papers,
pages 273–276. Association for Computational Linguistics.
40.
Helmut Schmid. 1994a. Part-of-speech tagging with neural networks. In Proceedings of the
15th conference on Computational linguistics-Volume 1, pages 172–176. Association for
Computational Linguistics.
41.
Helmut Schmid. 1994b. Probabilistic part-of speech tagging using decision trees. In
Proceedings of international conference on new methods in language processing, volume 12, pages
44–49. Manchester, UK.
42.
Claude E. Shannon. 1948. A mathematical theory of communication. The Bell system
technical journal, 27:379–423, July.
43.
A.A. Sharipbayev and A.K. Buribayeva. 2010a. Kazakh speech synthesis on a hardware
level. In Proceedings of the second international conference on building information-aware society,
pages 557–558.
44.
A.A. Sharipbayev and A.K. Buribayeva. 2010b. Kazakh speech synthesis on a hardware
level in the Quartus II environment. pages 197–203.
45.
A.A. Sharipbayev, G.T. Bekmanova, B.Zh. Ergesh, A.K. Buribayeva, and M. Kh.
Karabalayeva. 2012. Intellectual morphological analyzer based on semantic networks. In
Proceedings of the OSTIS-2012, pages 397–400.
46.
Rustem Takhanov and V. Kolmogorov. 2013. Inference algorithms for pattern-based crfs on
sequence data. In International conference on machine learning
47.
Scott M Thede and Mary P Harper. 1999. A second-order hidden Markov model for part-of
speech tagging. In Proceedings of the 37th annual meeting of the Association for Computational
Linguistics on Computational Linguistics, pages 175–182. Association for Computational
Linguistics.
48.
Kristina Toutanova, Dan Klein, Christopher D Manning, and Yoram Singer. 2003. Feature-
rich part-of-speech tagging with a cyclic dependency network. In Proceedings of the 2003
Conference of the North American Chapter of the Association for Computational Linguistics on
Human Language Technology-Volume 1, pages 173–180. Association for Computational
Linguistics.
175
МӘТІНДІ МОРФОЛОГИЯЛЫҚ ЖӘНЕ СИНТАКСИСТІК ӨҢДЕУ ЖҮЙЕЛЕРІ
СИСТЕМЫ МОРФОЛОГИЧЕСКОЙ И СИНТАКСИЧЕСКОЙ ОБРАБОТКИ
ТЕКСТОВ
SYSTEMS OF MORPHOLOGICAL AND SYNTACTIC PROCESSING OF TEXTS
176
А.М.ГАЛИЕВА, А.Р.ГАТИАТУЛЛИН
НИИ “Прикладная Семиотика”
академии наук Республики Татарстан
ОБОЗНАЧЕНИЕ МОРФОЛОГИЧЕСКИХ КАТЕГОРИЙ ГЛАГОЛА
В МОДЕЛЯХ ОКОНЧАНИЙ ТЮРКСКИХ СЛОВОФОРМ
2
Введение
В НИИ “Прикладная семиотика” Академии наук РТ ведется работа над проектом по
созданию комплексных моделей данных на основе ситуационного анализа текстов. В рамках
этого проекта решаются задачи создания модели окончаний и базы данных со словарями
окончаний для татарского, казахского и турецкого языков. На базе этой модели реализуется
программа морфологического анализа, которая на вход получает словоформу на одном из
указанных тюркских языков, а на выходе выдает структуру этой словоформы в виде
последовательности морфем и в виде последовательности морфологических категорий.
Одна из причин такого двойного представления результата, то, что одна и та же
морфологическая категория в этих тюркских языках может быть представлена разными
морфемами. Например, категория инфинитива в татарском языке представляется
аффиксальной морфемой -[Ы]РГА, в турецком языке морфемой –мАк, а в казахском
морфемой –У.
В данной статье рассматривается система обозначений для морфологических категорий
татарского глагола со сравнением этих категорий в казахском и турецком языках.
1.
Тюркский глагол
Из всех частей речи глагол выделяется лингвистами как самая сложная и самая емкая, а
система тюркского глагола отличается особой сложностью и разветвленностью форм.
Для тюркского глагола характерно наличие, следующих морфологических категорий:
- категория аспекта;
- сложная система времен и наклонений, включающая синтетические и аналитические
формы;
- развитая и многочленная система глагольных имен - имена действия, причастия,
субстантивно-адъективных форм, деепричастные формы;
- глагольные финитные формы с обстоятельственными значениями;
- сложная система залоговых форм глагола (взаимно-совместный, понудительный,
страдательный, возвратный залоги), способность показателей залоговых форм
комбинироваться друг с другом в пределах словоформы;
- разнообразные формы выражения категории каузатива, причем в словоформе могут
присутствовать два, три и более показателей каузатива, модифицирующих действие,
выраженное знаменательной частью лексемы, располагающейся слева от каузативного
аффикса.
При разработке системы обозначений для грамматических категорий татарского глагола
нами изучены системы обозначений в словарях разного типа и грамматиках тюркских
языков, система грамматической аннотации в Национальном корпусе русского языка, работы
по общей морфологии и другие исследования. Особо следует выделить Лейпцигские правила
глоссирования (The Leipzig Glossing Rules), которые были разработаны в отделе лингвистики
2
Исследование выполнено в рамках научно-исследовательского проекта РФФИ («Разработка комплексных
моделей данных на основе ситуационного анализа текстов в задачах многоязычного поиска»), проект № 13- 07-
00494-А.
177
в Институте эволюционной антропологии имени Макса Планка и в отделе лингвистики
Лейпцигского
университета
(http://www.eva.mpg.de/lingua/resources/glossing-rules.php).
Данную систему правил можно считать своеобразным общепризнанным стандартом у
лингвистов мира, в первую очередь у специалистов по типологии. Обозначение результатов
поморфемного анализа в программах морфологического анализа татарских словоформ
приближено к данным правилам. В ходе работы над системой обозначений привлекались и
другие источники, в частности, изучена система категорий базы данных Verbum, которая
отражает состав и структуру элементарных глагольных значений, выявляемых путем
сопоставления форм глаголов на материале большого количества языков [13].
Рассмотрим более подробно примеры интерпретации глагольных грамматических форм и
категорий в тюркских языках.
Достарыңызбен бөлісу: |