Атты І халықаралық конференция ЕҢбектері



Pdf көрінісі
бет175/326
Дата07.01.2022
өлшемі8,57 Mb.
#19269
1   ...   171   172   173   174   175   176   177   178   ...   326
2 Схожие работы 
Корпусная  лингвистика  стала  популярной  областью  исследований  вслед  за  работой 
Francis & Kucera(1979) с Brown University по построению первого корпуса. За последние два 
десятилетия  исследователи  по  всему  миру  построили  множество  корпусов,  в  том  числе 
известный Британский Национальный Корпус (БНК) (Бернард, 2007), разработанный в 1991-
94 годах, и содержащий более 100 миллионов слов письменной и устной речи из различных 
видов  источников(Ide  and  Macleod,  2001;  Al-Sulaiti  and  Atwell,  2006).  Все  материалы 
выбирались  на  основе  трех  независимых  критериев(носитель,  жанр  и  временной  период)  и 
заранее  определены  количественные  пропорции    между  этими  критериями.  Разговорная 
часть  состоит  из  транскрипций  неофициальных  бесед  и  разговорного  языка  в  различных 
контекстах.  В  БНК  проведена  работа  по  аннотации на  части  речи  с  помощью  инструмента 
CLAWS,  разработанного  в  университете  Lancaster.  БНК  считается  сбалансированным 
корпусом,  и  большинство  исследователей  используют  ее  модель  для  собственных 
разработок,  такие  как:  Turkish  National  Corpus  (Aksan  et  al.,  2012),  Korean  National  Corpus 
(Kim, 2006).  
Национальный  корпус  русского(РНК)  языка  был  создан  группой  специалистов  из 
различных  сфер  под  руководством  Института  русского  языка  им.  В.  В.  Виноградова  РАН 
(Ruscorpora,  2003).  Корпус  охватывает  писменные  (художественная  и  религиозная 
литература,  мемуары,  научные  публикации  и  другие)  и  аудиоматериалы(публичные 
выступления и частные беседы) периода середины XVIII века до начала XXI века. В данный 
момент  корпус  содержит  более  350  мил.  лемматизированных  и  размеченных  частями  речи 
словоформ. Корпус также включает семантические тэги для  слов и  текстов (Apresjan  et  al., 
2006).  Кроме  основной  части  в  РНК  имеются  следующие  подкорпусы:  глубоко 
аннотированный  (синтаксический)  корпус,  содержит  тексты  снабженные  морфо-
синтаксической разметкой основанной на лингвистической модели «Смысл <=> Текст» И. А. 
Мельчука  и  А.  К.  Жолковского;  корпус  параллельных  текстов  -  англо-русский,  немецко-
русский,    украинско-русский,  белорусско-русский;  корпус  диалектных  текстов;  корпус 
поэтических текстов и другие. 
 


Достарыңызбен бөлісу:
1   ...   171   172   173   174   175   176   177   178   ...   326




©emirsaba.org 2024
әкімшілігінің қараңыз

    Басты бет