Part of Speech match statistics of verb phrase
POS
match
Example
Number
of VP
Percentage
of VP
n+v
56
26.51%
v+v
94
11.78%
adv+v
83
9.13%
N+vc
85
8.65%
n+n+v
86
8.41%
N+va
13
6.73%
vc+v
12
6.49%
pron+v
19
5.77%
pron+va
18
5.53%
va+v
12
5.05%
n+vd
25
3.85%
Adv+vd
21
2.88%
n+v+v
21
2.88
vb+v
22
2.64%
Adj+v
4
2.16%
num+" +
"v
5
1.44%
Adj+va
1
0.48%
v+v+v
1
0.48%
Attachment 2 : Part of Speech match rules of noun phrase
rule
Type
Example
Rule type
example
Rule
B
n+نةم+n
نةم
ثايجنيش
ؤسناگ
Rule
A
n+n
لااب زئق
n+نةب+n
شاعا نةب زاعاق
adj +n
لااب ئسقاج
n+نةپ+n
املا نةپ قئدنئرو
num+n
پاتئك شذء
n+ئراء+n
ئراء
مئلاعذم
ئشؤقو
pron+n
ئشؤقو قئلراب
n+ةناج+n
تةسا ةناج لئدا
v+n
مات ناعلاذق
pron+نةم+ pron
زئبء نةم رلاو
adj+adv+n
ئبنةس نئگذب
pron +نةب+ pron
زئبءنةب زئسء
Rule
C
adj+
كئتپةس
ؤاعلاج+n
ةگئلةگثةت رازاب
رازاب
pron +نةپ+ pron
نةپ
كئلئشپوك
57
نامرادثئت
pron +ئراء+ pron
ئراء
زئبء
رةدنةس
pron +ةناج+ pron
رلاو ةناج زئبء
N or pron+ كئدلةؤات
ؤاعلاجor
كئتپةس
كئلئ
+ؤاعلاجnoun+
كئدلةؤات
ؤاعلاج
مئباتئك ثئنةم
Attachment 3 : Part of Speech match rules of adjective phrase
type
Example
Type
example
adj+v
زۇج زەت
adj +n +adj
يەدەيلۋا ىتشاش سىموك
adj+n
تا زوبقا
adj
+conj
+adj
ىلياج ەد ڭەك
Pron+adj
سەتكەلىت زىمىعىلراب
pron
+adj
+pron
سەمە قامىقا مىكشە
adv+adj
راشان ەتو
adj +n +n
ىسىرات ڭىدۋيا ىرۇس
num+adj+n
ياراس ىتشىرۇب سەب
n +adj +v
نەكە كىيب ىيوب
adv+adj+n
امراعىش ىلامادڭات ڭە
n +adv +adj
كىيب ڭە ىيوب
adj+adj+n
شاش اراق ۋيوق
adv +n +adj
ىسقاج ىياراۋا نىگۇب
adj+n+v
ىديەج ىروبٴ ىدنەگنىلوب
adv +adj +v
ىتتو ىسقاج رىۋادەن
adj +نەم+adj
زىسلىقا نەم ىدلىقا
adv
+adj
+pron
سەمە تەمەرەك اشنو
adj +نەب+ adj
ناعىس نەپ سەپوك
pron
+adj
+v
ناج
رلاو
-
ىلىتقاج
ىدرىتسلايو
adj +نەپ+ adj
نەپ
قىتسىلىتاراج
قىدماعوق
pron
+n
+adj
نىعىلراب
ىكڭىرەتوك ىحۋر ڭى
adj +ىراٴ+ adj
ىدلىقا ىراٴ ىتكىروك
pron
+adj
+adj
ىتتاناتلاس يادناعلايو ىعىلراب
adj +ەناج+ adj
لىساج نەم لىزىق
adj
+pron
+v
ىدە سەمە لىشمىزوٴ
n + adj + n
ىلەجەراد
ەكلو
ۋرىدنادزىسماق
adj +n +adj
قاشنىترات مادا قاشلايۇ
adj + v + v
ج زەت
؟املاوب ڭەسرۇ
n +adv +adj
اشامات يادناق ۋلاياج
pron + adj +
adv
رەدزەك ىتقىرىق لوس
n +adj +adj
ىسقاج تەمەرەك ىمادٴ
pron + adj +n
تا ىسقاج ۋانىم
58
З.А. СИРАЗИТДИНОВ, Б.З.СИРАЗИТДИНОВ
Институт истории, языка и литературы Уфимского научного центра РАН, Уфа,
Республика Башкортостан
КОРПУСНЫЕ ПРОЕКТЫ В БАШКИРСКОМ ЯЗЫКОЗНАНИИ
В докладе рассматривается общее состояние корпусной лингвистик в зарубежной и
отечественной лингвистике и вопросы разработки корпусов в Институте истории, языка и
литературы УНЦ РАН. Автором анализируется деятельность лаборатории лингвистики и
информационных технологий в рассматриваемой области. Описываются предлагаемые
методы создания корпусов прозаических и публицистических текстов башкирского языка,
ставится задача на перспективу.
Ключевые слова: корпусная лингвистика, башкирский язык, информационные системы,
прикладная лингстистика.
The article discusses the state of corpus linguistics in the domestic and foreign linguistics and
design issues of corpus at the Institute of History, Language and Literature, Ufa Science. The author
analyzes the work of the laboratory of linguistics and information technology in this area. We
describe the proposed methods of creating of corpus of the Bashkir language, analyzes the results
obtained, the task for the future.
Keywords: corpus linguistics, the Bashkir language, information systems, applied lingstistika
Статья подготовлена при поддержке гранта РФФИ 11-06-97001-р_поволжье_а “Разработка
корпуса прозаических текстов башкирского языка”.
Зародившееся в 60-х годах прошлого века направление в зарубежном языкознании,
связанное с компьютерной обработкой больших объемов текстов, сформировалось в новое
быстро растущее направление филологии - корпусная лингвистика – “со своими традициями,
признанными авторитетами, научными центрами, методами и проблематикой” [1]. Данному
направлению сегодня во всем мире уделяется значительное внимание. Объектом нового
филологического направления являются речевые материалы, реализованные в виде как
письменных текстов, так и устных (фонетических) массивов данных. Корпусная лингвистика
занимается созданием общих унифицированных принципов представления таких сверх-
больших массивов языковых данных (корпусов), непосредственным созданием самих
корпусов и выполнением конкретных экспериментальных лингвистических исследований на
базе этих данных [2;3]. Данное направление лингвистики является приоритетным и в
отечественной филологии. Так, если в “Плане фундаментальных исследований Российской
академии наук на период 2006-2010 гг.” был раздел 9.2.3., касающийся создания
электронного корпуса текстов русского языка, то в “Плане фундаментальных исследований
Российской академии наук на период 2011-2025 гг.” в разделе 9.(б) ставится научная задача
создания электронных корпусов текстов языков народов Российской Федерации [3].
Научный фонд РФФИ отдельно выделил корпусные исследования в своем классификаторе
(06.4.20, Корпусно-ориентированные исследования) [4].
На сегодня в мире насчитываются более тысячи корпусов, количество их растет
экспоненциально. Первый корпус был разработан в 60-х годах. Это Брауновский корпус
американского варианта современного английского языка, создававшийся в Брауновском
университете в 1962—1963 гг. Объем корпуса около 1 млн словоупотреблений. В начале
2000-х был создан корпус русского языка, на сегодня его объем составляет более 500 млн.
словоупотреблений.
59
Вся совокупность имеющихся корпусов весьма различна, поскольку, как было отмечено
выше, объектом самой корпусной лингвистики являются многообразие речевых и
письменных материалов языка. Так по английскому, немецкому, китайскому, японскому,
турецкому, эстонскому, русскому, польскому языкам реализованы речевые корпусы,
содержащие как мультимедийные данные, так и транскрипции речи [5-11]. На стадии
создания корпусы и по другим языкам [12-13].
Но наибольшее количество корпусов составлены по письменным текстам. От
поставленных целей и задач создания эти корпусы можно по разному классифицировать.
Если корпус создается по текстам одного языка, то такой корпус является одноязычным. По
объему привлеченных текстовых материалов среди них выделяются корпусы немецкого
(DeReKo, 5,4 млрд. слов) [14], английского (BNC, 100 млн. слов) [15], американского
варианта английского (450 млн. слов) [16], китайского (LIVAC Synchronous Corpus, 1 млр.
слов) [17], венгерского (100 млн. слов) [18], испанского (100 млн. слов) [19], итальянского
(100 млн. слов) [20], чешского (200 млн. слов) [21], русского (НКРЯ, 500 тыс. слов) [22]
языков. Если же создаются корпусы текстов переведенных на разные языки, то возникают
многоязычные или по другому параллельные корпусы. Примерами таких корпусов являются
польско-украинский, польско-русский, черногорско-английский, нидерландско-
французский, японско-английский и другие параллельные корпусы [23-27]. Такие корпусы
используются для сравнительно-соспоставительных исследований. Но в последнее время
параллельные корпусы нашли практическое применение в разработках систем
статистического перевода, зачинателем которого является компания Google. Одним из ярких
примеров такого использования является параллельный корпус слушаний Европарламента,
включающий тексты на 21 европейском языке [28].
В зависимости от стилистической принадлежности тестов выделяются художественные,
научные [29-30], публицистические [31-33], драматургические, поэтические корпусы [34].
Текстовые корпусы также различаются по принципу отбора материала: выделяются
полнотекстовые, когда в корпус попадают полные варианты печатных текстов, и
фрагментнотекстовые. В последнем случае в корпус отбираются выборки из текстов.
Объемы выборок и место расположения их в текстах каждый составитель определяет
произвольно. Так Брауновский корпус построен на базе выборок из 500 текстов, каждый из
которых включает 2 000 словоупотреблений. Бирмингемский корпус английского языка и
Основной корпус Национального корпуса русского языка являютcя представителями
полнотекстового корпуса [35: 66; 22].
Для решения различных лингвистических задач мало лишь наличия массива текстов.
Требуется также, чтобы сами тексты содержали в себе дополнительную лингвистическую
информацию в виде специальных разметок, позволяющую использовать их для разных
исследовательских и иных целей. В этой связи известный отечественный специалист в
области составления корпусов, руководитель проекта Национального корпуса русского
языка член-корр. РАН В.А.Плунгян даже подчеркивает, что “собственно, наука о корпусах
… — это прежде всего наука о том, как сделать хорошую разметку корпуса” [36: 6].
Составители корпусов по разному подходят к определению состава разметок, но
большинство сходится в том, что разметки должны быть двух типов: экстралингвистические
(метатекстовые) и лингвистические [37: 175-176]. К экстралингвистическим относится
информация, которая паспортизирует сами тексты в целом и дает сведения об авторе (фио,
год рождения автора, пол, образование и т.д.), информацию о тексте: (название, год
создания, год издания, жанр, тип текста, носитель текста: книга, журнал, электронное
издание) и другие. Лингвистические разметки включают морфологические, синтаксические и
семантические характеристики, относятся ко всем словоупотреблениям текста, поэтому
некоторые авторы называют их лексическими разметками.
Для работы с размеченными текстами необходимо соответствующее программное
сопровождение, позволяющее производить разнообразный поиск по корпусу, получать
60
статистические данные. Размеченные тексты вместе с программным сопровождением
образуют корпус в его полном понимании.
В создании корпуса трудоемким и сложным являются следующие этапы:
1) Подготовка электронных текстов. На данном этапе существующие печатные варианты
книг сканируются, редактируются и вводятся на электронные носители. Современные
зарубежные корпусы создаются при поддержке крупных издательств, которые на
безвозмездной основе передают предпечатные варианты текстов разработчикам корпусов.
2) Проведение разметки текстов. Степень трудоемкости данного этапа определяется
уровнем развития таких разделов конкретного языка как компьютерная и математическая
лингвистика. Если в языке проведены соответстувующие исследования и составлена
компьютерная модель, то возможны разработки средств автоматизации процесса.
Первостепенной задачей в этом процессе является разработка автоматического
морфологического анализатора языка. Далее следуют программы автоматического снятия
омоними, синтаксического и семантического анализа. Но даже в этом случае остается
значительная доля ручной работы, поскольку не все языковые явления однозначно могут
быть идентифицированы программными средствами.
Сейчас все крупные языки обзавелись своими национальными корпусами. К созданию
корпусов приступили все остальные языки мира. Ведутся корпусные разработки и по языкам
народов России: бурятского [38-39], калмыцкого [40-41], лезгинского [42] осетинского [43] и
др. Отдельно отметим научные разработки и корпусные проекты по языкам тюркской
группы, родственным башкирскому языку: казахский [44], татарский [45-46], тувинский [47-
48], турецкий[491], шорский [50], хакасский [51].
Лингвистику 21 века называют корпусной лингвистикой. При этом данное направление
лингвистики активно влияет на все остальные направления языкознания, изменяет
теоретические приоритеты и создает новые идеологии в понимании того, что же
представляет собой язык [52; 7-8].
Иследователями также отмечается, что корпусы открывают перспективу для новых
исследований не только в области лингвистики, но и в смежных областях: в
литературоведении (для стилеметрических исследований, определения нормативности
употребления языковых реалий), в общественных науках (изучение социальных объектов
через язык, используя такие параметры текстов, как период, автор или жанр, семантический
контент текстов), в информационно-технических разработках (создание автоматизированных
систем машинного перевода, распознавание речи, информационный поиск).
Сегодня в Институте истории, языка и литературы УНЦ РАН активно осваиваются новые
направления лингвистики прикладного характера, основывающиеся на накоплении
лингвистических баз данных и компьютерной обработке. Есть первые результаты по
экспериментальной фонетике, выполненные Ишкильдиной Л.К. [53]. Каримовой Р.Н.
накапливается диалектная текстологическая и речевая база [54, 55], разработан машинный
фонд башкирского языка [56]. Сиразитдиновым З.А. и Миграновой Л.Г. составляется база
терминологических данных [57], полным ходом идет работа и по корпусной лингвистике.
Работа по корпусу башкирского языка осуществляется сотрудниками лаборатории
лингвистики и информационных технологий ИИЯЛ УНЦ РАН (Сиразитдинов З.А.,
Бускунбаева Л.А., Ишмухаметова А.Ш., Ибрагимова А.Д., Мигранова Л.Г., Полянин А.И.) в
двух направлениях: а) корпус прозаических текстов; б) корпус публицистических текстов.
Первое направление разрабатывается по гранту РФФИ “Разработка корпуса прозаических
текстов башкирского языка”, № 11-06-97001-р_поволжье_а. Начало работы 2011 г., конец —
2013 г.
Второе направление осуществляется в рамках программы Президиума РАН “Корпусная
лингвистика. Создание и развитие корпусных ресурсов по языкам народов России”. Сроки
реализации 2012—2014 гг. [58].
На
сегодня
по
корпусу
прозаических
текстов
разработаны
системы
экстралингвистических и лингвистических помет для разметки, создана программа
61
автоматического морфологического анализа, подготовлены и автоматически размечены
тексты 773 произведений более 70 авторов общим объемом порядка 10 миллионов
(10829086) словоформ, запущен проект поисковой системы в сети [59]. Сейчас идет отладка
и оптимизация работы корпуса, ведется работа по оцифровке новых текстов. К концу года
намечается доведение объема корпуса до 20 миллионов словоформ и запуск самого корпуса
в сети Интернет на сервере Института со своим доменным именем. Проект корпуса
прозаических текстов полностью разработан на базе СУБД Оракл на платформе Unicode
[http://mfbl.ru/bashkorp/korpusp]. Для работы с корпусом пользователь может установить
башкирскую раскладку клавиатуры средствами системы (ОС Vista, Seven), установить
программу Хамелеон 8.0 (для ОС 98, ME, 2000, XP) или воспользоваться виртуальной
клавиатурой самого корпуса.
По второму направлению подготовлены тексты республиканских газет и журналов общим
объемом в 5 миллионов словоформ. Идет работа по автоматической морфологической
разметке. Корпус будет выставлен к концу года.
Система экстралингвистических разметок публицистического корпуса включает название
прессы, год, месяц и день выхода, название статьи, автора. Все тексты размечены по
тематике и жанру. Для рассматриваемого корпуса выделены следующие тематики и жанры:
Тематика: политическая и социальная жизнь (политика, право, философия); экономика
(производство, строительство, бизнес, финансы, коммерция); сельское хозяйство; искусство,
культура и литература; наука и техника; образование; природа, путешествие; частная жизнь;
спорт; религия; психология; медицина; красота и здоровье.
Достарыңызбен бөлісу: |