2 Схожие работы Корпусная лингвистика стала популярной областью исследований вслед за работой
Francis & Kucera(1979) с Brown University по построению первого корпуса. За последние два
десятилетия исследователи по всему миру построили множество корпусов, в том числе
известный Британский Национальный Корпус (БНК) (Бернард, 2007), разработанный в 1991-
94 годах, и содержащий более 100 миллионов слов письменной и устной речи из различных
видов источников(Ide and Macleod, 2001; Al-Sulaiti and Atwell, 2006). Все материалы
выбирались на основе трех независимых критериев(носитель, жанр и временной период) и
заранее определены количественные пропорции между этими критериями. Разговорная
часть состоит из транскрипций неофициальных бесед и разговорного языка в различных
контекстах. В БНК проведена работа по аннотации на части речи с помощью инструмента
CLAWS, разработанного в университете Lancaster. БНК считается сбалансированным
корпусом, и большинство исследователей используют ее модель для собственных
разработок, такие как: Turkish National Corpus (Aksan et al., 2012), Korean National Corpus
(Kim, 2006).
Национальный корпус русского(РНК) языка был создан группой специалистов из
различных сфер под руководством Института русского языка им. В. В. Виноградова РАН
(Ruscorpora, 2003). Корпус охватывает писменные (художественная и религиозная
литература, мемуары, научные публикации и другие) и аудиоматериалы(публичные
выступления и частные беседы) периода середины XVIII века до начала XXI века. В данный
момент корпус содержит более 350 мил. лемматизированных и размеченных частями речи
словоформ. Корпус также включает семантические тэги для слов и текстов (Apresjan et al.,
2006). Кроме основной части в РНК имеются следующие подкорпусы: глубоко
аннотированный (синтаксический) корпус, содержит тексты снабженные морфо-
синтаксической разметкой основанной на лингвистической модели «Смысл <=> Текст» И. А.
Мельчука и А. К. Жолковского; корпус параллельных текстов - англо-русский, немецко-
русский, украинско-русский, белорусско-русский; корпус диалектных текстов; корпус
поэтических текстов и другие.