Хотя методология КАП описана и проверена для глаголов английского языка, это не означает, что подобный метод можно применить с тем же успехом и для других языков. Перед нами стояла несколько задач:
адаптировать метод для русского языка:
выбрать корпус
выбрать разметку
выбрать глаголы
определить оптимальный размер выборки контекстов
проверить эффективность используемого метода:
сравнением с толковыми словарями русского языка
на материале других корпусов
описать особенности его применения на материале русского языка.
3.2. Выбор корпуса и разметки
Как уже упоминалось выше, для работы с английскими глаголами использовался Британский национальный корпус. Нашей первой идеей было взять в качестве материала Национальный корпус русского языка12. Его общий объем – около 280 млн. слов, основные источники – современная проза и публицистика, научные и деловые тексты. Большим достоинством этого корпуса могла бы стать уже имеющаяся семантическая разметка. Если бы она оказалась подходящей для создания паттернов, то можно было бы опустить весьма трудоемкий этап семантической разметки контекстов.
Для проверки гипотезы был взят глагол подниматься. Дополнительных ограничений поиска не задавалось. Для эксперимента мы рассматривали только первые 50 контекстов, формат выдачи – не больше 1 примера из одного документа. Для каждого актанта извлекалась семантическая информация (рис. 3.1). Актанты располагались в прямом порядке слов. Таким образом, для каждого контекста мы получали наборы семантических тегов каждого актанта, расположенных в определенном порядке. Предлоги сохранялись в структуре без изменений, для наречий, важных для смысла, также извлекалась семантическая характеристика.
Рис. 3.1. Пример разметки контекстов из НКРЯ.
К сожалению, оказалось, что для наших целей семантическая разметка НКРЯ практически бесполезна. «При такой разметке большинству слов в тексте приписывается один или несколько семантических и словообразовательных признаков, например, 'лицо', 'вещество', 'пространство', 'скорость', 'движение', 'обладание', 'свойство человека', 'диминутив', 'отглагольное имя' и т.п. Используется фасетная классификация, при которой одно слово может попадать в несколько классов» [8].
К примеру, в предложении дневная температура поднимается до отметки 30-32 град слову температура приписывается набор тегов: r:abstr, t:param, t:temper. Они расшифровываются следующим образом: непредметные имена, параметр, температура. Для разметки паттерна важными оказываются не все теги, а, в лучшем случае, два последних. В других же случаях, разметка может вообще не обозначать однозначно семантику слова: в предложении поднимается артериальное давление слово давление имеет теги der:s0, der:v, r:abstr, t:impact, которые означают: отглагольные наречия, непредметные имена, физическое воздействие. Первый тег, по-видимому, является ошибочным, остальные не определяют четко значение слова.
Другой проблемой оказалась разметка имен собственных, которая в определенных случаях просто отсутствовала. Так, к примеру, в предложении американские "Аваксы" поднимаются из Грузии слово Аваксы не имеет семантических тегов, хотя по контексту понятно, что речь идет о виде самолетов. Однако в аналогичном примере Putte-2 поднимался в воздух на пять метров у Putte-2 есть разметка: r:concr, t:fam, t:tool:device:machine (предметные имена, фамилии, механизмы и приборы). Более того, встречались контексты, где имена собственные размечались неправильно, например, предложение он поднимался на Исаакий. Слово Исаакий является сокращенной формой от Исаакиевский собор, но получил разметку r:propn, t:hum, t:persn (имена собственные, лица, имена).
В результате первого эксперимента мы решили отказаться от НКРЯ в качестве материала и выбрать другой корпус. Для второго эксперимента был взят корпус Araneum Russicum Minus без семантической разметки.
Araneum Russicum13 – семья корпусов русского языка, созданный в 2013 году в рамках проекта Aranea. Для их создания использовалась технология WaCky, позволяющая получать тексты для корпуса из Интернета. Подбор ключевых слов осуществлялся таким образом, чтобы получить наиболее сбалансированный корпус [20, 21]. Существует несколько корпусов: Minus (120 млн), Majus (1,2 млрд словоупотреблений) и Maximum (10,9 млрд). Также есть версии, где отдельно представлен русскоязычный материал, собранный с российских доменов, и отдельно – с доменов других стран. Мы выбрали версию Minus, поскольку для наших целей его размера достаточно, а скорость поиска выше.
Для каждого глагола создавалась выборка из 500 случайных контекстов. Поиск осуществлялся по лемме (рис. 3.2.), с одним ограничением: PoS = Vb (часть речи – глагол).
Рис. 3.2. Пример запроса в Araneum Russicum Minus.
Мы использовали контексты в формате предложения (рис. 3.3), а не KWIC, чтобы получить полное представление об окружении глагола. Формат KWIC выдает только заранее заданное количество словоформ слева и справа от искомого слова, но в русском языке зависящие от глагола члены предложения могут оказаться слишком далеко друг друга. Если глагол оказывался высокочастотным, то дополнительно выбиралось ограничение 1st hit in doc (первое употребление, встретившееся в документе).
Рис. 3.3. Пример выдачи из Araneum Russicum Minus.