На первом этапе для исследуемого глагола создается корпусная выборка. Лексикограф просматривает её, получая общее представление о поведении глагола в тексте. Затем извлекается случайная выборка для подробного анализа. Её размер может варьироваться от 200 до 1000 контекстов. Хэнкс утверждает, что оптимальный размер выборки – 500 контекстов [22], но в действительности размер сильно зависит от степени многозначности и частотности исследуемого глагола. На следующем этапе лексикограф сортирует контекст, распределяя их в группы, имеющие сходное значение и сходную синтаксическую структуру. Все актанты глагола размечаются с помощью семантических типов, при необходимости указывается и дополнительная информация.
Поскольку метод опирается на теорию норм и эксплуатаций, то важно определить статус контекстов. Хэнкс предлагает следующую классификацию [23]:
нормы нормативное употребление глагола;
эксплуатации – ненормативное употребление, изменение нормы;
чередования – в определенном слоте паттерна могут чередоваться семантические типы;
имена – в слоте паттерна встречается имя собственное, которому в зависимости от контекста можно или невозможно приписать семантический тип;
упоминания – в данном контексте глагол был не употреблен, но только упомянут;
ошибки – опечатки и неосознанное нарушение грамматической нормы.
Автоматизация
Метод КАП в том виде, как он был разработан изначально, требует ручной работы в течении достаточно длительного времени. Естественно, были осуществлены попытки автоматизировать хотя бы отдельные этапы процесса обработки.
В статье [31] предлагается алгоритм автоматического определения паттернов.
Получить список всех слов, встретившихся в определённой позиции рамки валентности;
Выделить синтактические чередования;
Кластеризовать существительные, встретившиеся в одной и той же позиции рамки валентности;
Для каждого кластера измерить его схожесть с уже имеющимися лексическими классами. Если ни один из существующих классов не подходит по выбранным критериям, то признать анализируемый кластер новым лексическим классом и использовать его в дальнейшей работе. На этом шаге необходимо искать общие семантические характеристики элементов.
Данный алгоритм был проверен на материале из Британского Национального корпуса, размеченного в рамках эксперимента синтаксически и семантически.
В статье [33] авторы предлагают другой способ выделения паттернов в контексте. В качестве материала используется синтактически и семантически размеченный корпус. Алгоритм выделяет и описывает грамматические отношения между предикатом и словами из его ближайшего окружения с помощью 4 характеристик: основа, часть речи, семантические типы и дополнительные теги (число, одушевленность и др.). На следующем этапе алгоритм использует данные из обучающей выборки, чтобы отсеять характеристики, скорее всего, не влияющие на значение предиката. На основе множества характеристика вычисляется вероятность принадлежности анализируемого паттерна к одному из имеющихся паттернов данного предиката. Точность измеряется до и после извлечения «важных» характеристик. В результате эксперимент показал среднюю точность в 61,1% при достаточно высокой степени полисемии в тестовой выборке. Для большинства глаголов алгоритм показал более высокий результат на «очищенном» множестве характеристик.