Атты І халықаралық конференция ЕҢбектері


Part of Speech match statistics of verb phrase



Pdf көрінісі
бет60/326
Дата07.01.2022
өлшемі8,57 Mb.
#19269
1   ...   56   57   58   59   60   61   62   63   ...   326
Байланысты:
Болатбек М. (1)


Part of Speech match statistics of verb phrase
 
POS 
match
 
Example 
Number 
of VP 
Percentage 
of VP 
n+v 
 
56 
26.51% 
v+v 
 
94 
11.78% 
adv+v 
 
83 
9.13% 
N+vc 
 
85 
8.65% 
n+n+v 
 
86 
8.41% 
N+va 
 
13 
6.73% 
vc+v 
 
12 
6.49% 
pron+v 
 
19 
5.77% 
pron+va 
 
18 
5.53% 
va+v 
 
12 
5.05% 
n+vd 
 
25 
3.85% 
Adv+vd 
 
21 
2.88% 
n+v+v 
  21 
2.88 
vb+v 
 
22 
2.64% 
Adj+v 
 

2.16% 
num+" +
"v 
 

1.44% 
Adj+va 
 

0.48% 
v+v+v 
 

0.48% 
 
Attachment  2 : Part of Speech match rules of noun phrase 
rule 
Type 
Example 
Rule  type 
example 
Rule 

 
n+نةم+n 
 نةم 
ثايجنيش
ؤسناگ 
Rule 

n+n 
لااب زئق 
n+نةب+n 
شاعا نةب زاعاق 
 
adj +n 
لااب ئسقاج 
n+نةپ+n 
املا نةپ قئدنئرو 
 
num+n 
پاتئك شذء 
n+ئراء+n 
 ئراء 
مئلاعذم
ئشؤقو 
 
pron+n 
ئشؤقو قئلراب 
n+ةناج+n 
تةسا ةناج لئدا 
 
v+n 
مات ناعلاذق 
pron+نةم+ pron 
زئبء نةم رلاو 
 
adj+adv+n 
ئبنةس نئگذب 
pron +نةب+ pron 
زئبءنةب زئسء 
Rule 

 
adj+ 
كئتپةس
ؤاعلاج+n 
 ةگئلةگثةت  رازاب
رازاب 
pron +نةپ+ pron 
 نةپ 
كئلئشپوك


57 
 
نامرادثئت 
pron +ئراء+ pron 
 ئراء 
زئبء
رةدنةس 
pron +ةناج+ pron 
رلاو ةناج زئبء 
N  or  pron+  كئدلةؤات
ؤاعلاجor
كئتپةس 
كئلئ
 
+ؤاعلاجnoun+ 
كئدلةؤات
ؤاعلاج 
مئباتئك ثئنةم 
 
Attachment 3 : Part of Speech match rules of adjective phrase 
type 
Example 
Type 
example 
adj+v 
زۇج زەت
 
adj +n +adj 
يەدەيلۋا ىتشاش سىموك
 
adj+n 
تا زوبقا
 
adj 
+conj 
+adj 
ىلياج ەد ڭەك
 
Pron+adj 
سەتكەلىت زىمىعىلراب
 
pron 
+adj 
+pron 
سەمە قامىقا مىكشە
 
adv+adj 
راشان ەتو
 
adj +n +n 
ىسىرات ڭىدۋيا ىرۇس
 
num+adj+n 
ياراس ىتشىرۇب سەب
 
n +adj +v 
نەكە كىيب ىيوب
 
adv+adj+n 
امراعىش ىلامادڭات ڭە
 
n +adv +adj
 
كىيب ڭە ىيوب
 
adj+adj+n 
شاش اراق ۋيوق
 
adv +n +adj 
ىسقاج ىياراۋا نىگۇب
 
adj+n+v 
ىديەج ىروبٴ ىدنەگنىلوب
 
adv +adj +v 
ىتتو ىسقاج رىۋادەن
 
adj +نەم+adj 
زىسلىقا نەم ىدلىقا
 
adv 
+adj 
+pron 
سەمە تەمەرەك اشنو
 
adj +نەب+ adj 
ناعىس نەپ سەپوك
 
pron 
+adj 
+v 
ناج 
رلاو
-
 ىلىتقاج
ىدرىتسلايو
 
adj +نەپ+ adj 
 نەپ 
قىتسىلىتاراج
قىدماعوق
 
pron 
+n 
+adj 
نىعىلراب
ىكڭىرەتوك ىحۋر ڭى
 
adj +ىراٴ+ adj 
ىدلىقا ىراٴ ىتكىروك
 
pron 
+adj 
+adj 
ىتتاناتلاس يادناعلايو ىعىلراب
 
adj +ەناج+ adj 
لىساج نەم لىزىق
 
adj 
+pron 
+v 
ىدە سەمە لىشمىزوٴ
 
n + adj + n 
 ىلەجەراد 
ەكلو
ۋرىدنادزىسماق
 
adj +n +adj 
قاشنىترات مادا قاشلايۇ
 
adj + v + v 
ج زەت
؟املاوب ڭەسرۇ
 
n +adv +adj
 
اشامات يادناق ۋلاياج
 
pron  +  adj  + 
adv 
رەدزەك ىتقىرىق لوس
 
n +adj +adj 
ىسقاج تەمەرەك ىمادٴ
 
pron + adj +n 
تا ىسقاج ۋانىم
 
 
 
 


58 
 
З.А. СИРАЗИТДИНОВ, Б.З.СИРАЗИТДИНОВ 
 
 
Институт истории, языка и литературы Уфимского научного центра РАН, Уфа, 
Республика Башкортостан 
 
 
КОРПУСНЫЕ ПРОЕКТЫ В БАШКИРСКОМ ЯЗЫКОЗНАНИИ 
 
В  докладе  рассматривается  общее  состояние  корпусной  лингвистик  в  зарубежной  и 
отечественной  лингвистике  и  вопросы  разработки  корпусов  в  Институте  истории,  языка  и 
литературы  УНЦ  РАН.  Автором  анализируется  деятельность  лаборатории  лингвистики  и 
информационных  технологий  в  рассматриваемой  области.  Описываются  предлагаемые 
методы  создания  корпусов  прозаических  и  публицистических  текстов  башкирского  языка, 
ставится задача на перспективу. 
Ключевые  слова:  корпусная  лингвистика,  башкирский  язык,  информационные  системы, 
прикладная лингстистика. 
 
The  article  discusses  the  state  of  corpus  linguistics  in  the  domestic  and  foreign  linguistics  and 
design issues of corpus at the Institute of History, Language and Literature, Ufa Science. The author 
analyzes  the  work  of  the  laboratory  of  linguistics  and  information  technology  in  this  area.  We 
describe the proposed methods  of creating of corpus of the Bashkir language, analyzes  the results 
obtained, the task for the future. 
Keywords: corpus linguistics, the Bashkir language, information systems, applied lingstistika 
 
Статья подготовлена при поддержке гранта РФФИ 11-06-97001-р_поволжье_а “Разработка 
корпуса прозаических текстов башкирского языка”. 
Зародившееся  в  60-х  годах  прошлого  века  направление  в  зарубежном  языкознании, 
связанное  с  компьютерной  обработкой  больших  объемов  текстов,  сформировалось  в  новое 
быстро растущее направление филологии - корпусная лингвистика – “со своими традициями, 
признанными авторитетами, научными центрами, методами и проблематикой”  [1]. Данному 
направлению  сегодня  во  всем  мире  уделяется  значительное  внимание.  Объектом  нового 
филологического  направления  являются  речевые  материалы,  реализованные  в  виде  как 
письменных текстов, так и устных (фонетических) массивов данных. Корпусная лингвистика 
занимается  созданием  общих  унифицированных  принципов  представления  таких  сверх-
больших  массивов  языковых  данных  (корпусов),  непосредственным  созданием  самих 
корпусов и выполнением конкретных экспериментальных лингвистических исследований на 
базе  этих  данных  [2;3].  Данное  направление  лингвистики  является  приоритетным  и  в 
отечественной филологии. Так, если  в “Плане фундаментальных исследований Российской 
академии  наук  на  период  2006-2010  гг.”  был  раздел  9.2.3.,  касающийся  создания 
электронного корпуса текстов русского языка, то в “Плане фундаментальных исследований 
Российской академии наук на период 2011-2025 гг.” в разделе 9.(б) ставится научная задача 
создания  электронных  корпусов  текстов  языков  народов  Российской  Федерации  [3]. 
Научный  фонд  РФФИ  отдельно  выделил  корпусные  исследования  в  своем  классификаторе 
(06.4.20, Корпусно-ориентированные исследования) [4].  
На  сегодня  в  мире  насчитываются  более  тысячи  корпусов,  количество  их  растет 
экспоненциально.  Первый  корпус  был  разработан  в  60-х  годах.  Это  Брауновский  корпус 
американского  варианта  современного  английского  языка,  создававшийся  в  Брауновском 
университете  в  1962—1963  гг.  Объем  корпуса  около  1  млн  словоупотреблений.  В  начале 
2000-х  был  создан  корпус  русского  языка,  на  сегодня  его  объем  составляет  более  500  млн. 
словоупотреблений.  


59 
 
Вся  совокупность  имеющихся  корпусов  весьма  различна,  поскольку,  как  было  отмечено 
выше,  объектом  самой  корпусной  лингвистики  являются  многообразие  речевых  и 
письменных  материалов  языка.  Так  по  английскому,  немецкому,  китайскому,  японскому, 
турецкому,  эстонскому,  русскому,  польскому  языкам    реализованы  речевые  корпусы, 
содержащие  как  мультимедийные  данные,  так  и  транскрипции  речи  [5-11].  На  стадии 
создания корпусы и по другим языкам [12-13]. 
Но  наибольшее  количество  корпусов  составлены  по  письменным  текстам.  От 
поставленных  целей  и  задач  создания  эти  корпусы  можно  по  разному  классифицировать. 
Если корпус создается по текстам одного языка, то такой корпус является одноязычным. По 
объему  привлеченных  текстовых  материалов  среди  них  выделяются  корпусы  немецкого 
(DeReKo,  5,4  млрд.  слов)    [14],  английского  (BNC,  100  млн.  слов)  [15],  американского 
варианта  английского  (450  млн.  слов)  [16],  китайского  (LIVAC  Synchronous  Corpus,  1  млр. 
слов)  [17],  венгерского  (100  млн.  слов)  [18],  испанского  (100  млн.  слов)  [19],  итальянского 
(100  млн.  слов)  [20],  чешского  (200  млн.  слов)  [21],    русского  (НКРЯ,  500  тыс.  слов)  [22] 
языков.  Если же создаются корпусы текстов переведенных на разные языки, то возникают 
многоязычные или по другому параллельные корпусы. Примерами таких корпусов являются  
польско-украинский,    польско-русский,  черногорско-английский,    нидерландско-
французский,  японско-английский  и  другие  параллельные  корпусы  [23-27].  Такие  корпусы 
используются  для  сравнительно-соспоставительных  исследований.  Но  в  последнее  время 
параллельные  корпусы  нашли  практическое  применение  в  разработках  систем 
статистического перевода, зачинателем которого является компания Google. Одним из ярких 
примеров  такого  использования  является  параллельный  корпус  слушаний  Европарламента, 
включающий тексты на 21 европейском языке [28].  
В  зависимости  от  стилистической  принадлежности  тестов  выделяются  художественные, 
научные [29-30], публицистические [31-33], драматургические, поэтические корпусы [34].  
Текстовые  корпусы  также  различаются  по  принципу  отбора  материала:  выделяются 
полнотекстовые,  когда  в  корпус  попадают  полные  варианты  печатных  текстов,  и 
фрагментнотекстовые.  В  последнем  случае  в  корпус  отбираются  выборки  из  текстов. 
Объемы  выборок  и  место  расположения  их  в  текстах  каждый  составитель  определяет 
произвольно. Так Брауновский корпус построен на базе выборок из 500 текстов, каждый из 
которых  включает  2  000  словоупотреблений.  Бирмингемский  корпус  английского  языка  и 
Основной  корпус  Национального  корпуса  русского  языка  являютcя  представителями 
полнотекстового корпуса [35: 66; 22]. 
Для  решения  различных  лингвистических  задач  мало  лишь  наличия  массива  текстов. 
Требуется  также,  чтобы  сами  тексты  содержали  в  себе  дополнительную  лингвистическую 
информацию  в  виде  специальных  разметок,  позволяющую  использовать  их  для  разных 
исследовательских  и  иных  целей.  В  этой  связи  известный  отечественный  специалист  в 
области  составления  корпусов,  руководитель  проекта  Национального  корпуса  русского 
языка  член-корр.  РАН В.А.Плунгян  даже  подчеркивает,  что  “собственно,  наука  о  корпусах 
… — это прежде всего наука о том, как сделать хорошую разметку корпуса” [36: 6]. 
Составители  корпусов  по  разному  подходят  к  определению  состава  разметок,  но 
большинство сходится в том, что разметки должны быть двух типов: экстралингвистические 
(метатекстовые)  и  лингвистические  [37:  175-176].  К  экстралингвистическим  относится 
информация, которая паспортизирует сами тексты в целом и дает сведения об авторе (фио, 
год  рождения  автора,  пол,  образование  и  т.д.),  информацию  о  тексте:  (название,  год 
создания,  год  издания,  жанр,  тип  текста,  носитель  текста:  книга,  журнал,  электронное 
издание) и другие. Лингвистические разметки включают морфологические, синтаксические и 
семантические  характеристики,  относятся  ко  всем  словоупотреблениям  текста,  поэтому 
некоторые авторы называют их лексическими разметками. 
Для  работы  с  размеченными  текстами  необходимо  соответствующее  программное 
сопровождение,  позволяющее  производить  разнообразный  поиск  по  корпусу,  получать 


60 
 
статистические  данные.  Размеченные  тексты  вместе  с  программным  сопровождением 
образуют корпус в его полном понимании.  
В создании корпуса трудоемким и сложным являются следующие этапы: 
1) Подготовка электронных текстов. На данном этапе существующие печатные варианты 
книг  сканируются,  редактируются  и  вводятся  на  электронные  носители.  Современные 
зарубежные  корпусы  создаются  при  поддержке  крупных  издательств,  которые  на 
безвозмездной основе передают предпечатные варианты текстов разработчикам корпусов.  
2)  Проведение  разметки  текстов.  Степень  трудоемкости  данного  этапа  определяется 
уровнем  развития  таких  разделов  конкретного  языка  как  компьютерная  и  математическая 
лингвистика.  Если  в  языке  проведены  соответстувующие  исследования  и  составлена 
компьютерная  модель,  то  возможны  разработки  средств  автоматизации  процесса. 
Первостепенной  задачей  в  этом  процессе  является  разработка  автоматического 
морфологического  анализатора  языка.  Далее  следуют  программы  автоматического  снятия 
омоними,  синтаксического  и  семантического  анализа.  Но  даже  в  этом  случае  остается 
значительная  доля  ручной  работы,  поскольку  не  все  языковые  явления  однозначно  могут 
быть идентифицированы программными средствами. 
Сейчас  все  крупные  языки  обзавелись  своими  национальными  корпусами.  К  созданию 
корпусов приступили все остальные языки мира. Ведутся корпусные разработки и по языкам 
народов России: бурятского [38-39], калмыцкого [40-41], лезгинского [42] осетинского [43] и 
др.  Отдельно  отметим  научные  разработки  и  корпусные  проекты  по  языкам  тюркской 
группы, родственным башкирскому языку: казахский [44], татарский [45-46], тувинский [47-
48], турецкий[491], шорский [50], хакасский [51]. 
Лингвистику  21  века  называют  корпусной  лингвистикой.  При  этом  данное  направление 
лингвистики  активно  влияет  на  все  остальные  направления  языкознания,  изменяет 
теоретические  приоритеты  и  создает  новые  идеологии  в  понимании  того,  что  же 
представляет собой язык [52; 7-8]. 
Иследователями  также  отмечается,  что  корпусы  открывают  перспективу  для  новых 
исследований  не  только  в  области  лингвистики,  но  и  в  смежных  областях:  в 
литературоведении  (для  стилеметрических  исследований,  определения  нормативности 
употребления  языковых  реалий),  в  общественных  науках  (изучение  социальных  объектов 
через язык, используя такие параметры текстов, как период, автор или жанр, семантический 
контент текстов), в информационно-технических разработках (создание автоматизированных 
систем машинного перевода, распознавание речи, информационный поиск). 
Сегодня в Институте истории, языка и литературы УНЦ РАН активно осваиваются новые 
направления  лингвистики  прикладного  характера,  основывающиеся  на  накоплении 
лингвистических  баз  данных  и  компьютерной  обработке.  Есть  первые  результаты  по 
экспериментальной  фонетике,  выполненные  Ишкильдиной  Л.К.  [53].  Каримовой  Р.Н. 
накапливается диалектная текстологическая и речевая база  [54, 55],  разработан машинный 
фонд  башкирского  языка  [56].  Сиразитдиновым  З.А.  и  Миграновой  Л.Г.  составляется  база 
терминологических данных [57], полным  ходом идет работа и по корпусной лингвистике.  
Работа  по  корпусу  башкирского  языка  осуществляется  сотрудниками  лаборатории 
лингвистики  и  информационных  технологий  ИИЯЛ  УНЦ  РАН  (Сиразитдинов  З.А., 
Бускунбаева Л.А., Ишмухаметова А.Ш., Ибрагимова А.Д., Мигранова Л.Г., Полянин А.И.) в 
двух направлениях: а) корпус прозаических текстов; б) корпус публицистических текстов.  
Первое направление разрабатывается по гранту РФФИ “Разработка корпуса прозаических 
текстов башкирского языка”, № 11-06-97001-р_поволжье_а. Начало работы 2011 г., конец — 
2013 г.  
Второе  направление  осуществляется  в  рамках  программы  Президиума  РАН  “Корпусная 
лингвистика.  Создание  и  развитие  корпусных  ресурсов  по  языкам  народов  России”.  Сроки 
реализации 2012—2014 гг. [58]. 
На 
сегодня 
по 
корпусу 
прозаических 
текстов 
разработаны 
системы 
экстралингвистических  и  лингвистических  помет  для  разметки,  создана  программа 


61 
 
автоматического  морфологического  анализа,  подготовлены  и  автоматически  размечены 
тексты  773  произведений  более  70  авторов  общим  объемом  порядка  10  миллионов 
(10829086) словоформ, запущен проект поисковой системы в сети [59]. Сейчас идет отладка 
и  оптимизация  работы  корпуса,  ведется  работа  по  оцифровке  новых  текстов. К  концу  года 
намечается доведение объема корпуса до 20 миллионов словоформ и запуск самого корпуса 
в  сети  Интернет  на  сервере  Института  со  своим  доменным  именем.  Проект  корпуса 
прозаических  текстов  полностью  разработан  на  базе  СУБД  Оракл  на  платформе  Unicode 
[http://mfbl.ru/bashkorp/korpusp].  Для  работы  с  корпусом  пользователь  может  установить 
башкирскую  раскладку  клавиатуры  средствами  системы  (ОС  Vista,  Seven),  установить 
программу  Хамелеон  8.0  (для  ОС  98,  ME,  2000,  XP)  или  воспользоваться  виртуальной 
клавиатурой самого корпуса.   
По второму направлению подготовлены тексты республиканских газет и журналов общим 
объемом  в  5  миллионов  словоформ.  Идет  работа  по  автоматической  морфологической 
разметке. Корпус будет выставлен к концу года. 
Система экстралингвистических разметок публицистического корпуса включает название 
прессы,  год,  месяц  и  день  выхода,  название  статьи,  автора.  Все  тексты  размечены  по 
тематике и жанру. Для рассматриваемого корпуса выделены следующие тематики и жанры: 
Тематика:  политическая  и  социальная  жизнь  (политика,  право,  философия);  экономика 
(производство, строительство, бизнес, финансы, коммерция); сельское хозяйство; искусство, 
культура и литература; наука и техника; образование; природа, путешествие; частная жизнь; 
спорт; религия; психология; медицина; красота и здоровье. 


Достарыңызбен бөлісу:
1   ...   56   57   58   59   60   61   62   63   ...   326




©emirsaba.org 2024
әкімшілігінің қараңыз

    Басты бет