Образовательная программа «Прикладная, экспериментальная и математическая лингвистика»



бет13/28
Дата14.05.2023
өлшемі1,12 Mb.
#92943
түріОбразовательная программа
1   ...   9   10   11   12   13   14   15   16   ...   28

Общее описание метода


На первом этапе для исследуемого глагола создается корпусная выборка. Лексикограф просматривает её, получая общее представление о поведении глагола в тексте. Затем извлекается случайная выборка для подробного анализа. Её размер может варьироваться от 200 до 1000 контекстов. Хэнкс утверждает, что оптимальный размер выборки – 500 контекстов [22], но в действительности размер сильно зависит от степени многозначности и частотности исследуемого глагола. На следующем этапе лексикограф сортирует контекст, распределяя их в группы, имеющие сходное значение и сходную синтаксическую структуру. Все актанты глагола размечаются с помощью семантических типов, при необходимости указывается и дополнительная информация.
Поскольку метод опирается на теорию норм и эксплуатаций, то важно определить статус контекстов. Хэнкс предлагает следующую классификацию [23]:

  • нормы  нормативное употребление глагола;

  • эксплуатации – ненормативное употребление, изменение нормы;

  • чередования – в определенном слоте паттерна могут чередоваться семантические типы;

  • имена – в слоте паттерна встречается имя собственное, которому в зависимости от контекста можно или невозможно приписать семантический тип;

  • упоминания – в данном контексте глагол был не употреблен, но только упомянут;

  • ошибки – опечатки и неосознанное нарушение грамматической нормы.
    1. Автоматизация


Метод КАП в том виде, как он был разработан изначально, требует ручной работы в течении достаточно длительного времени. Естественно, были осуществлены попытки автоматизировать хотя бы отдельные этапы процесса обработки.
В статье [31] предлагается алгоритм автоматического определения паттернов.

  1. Получить список всех слов, встретившихся в определённой позиции рамки валентности;

  2. Выделить синтактические чередования;

  3. Кластеризовать существительные, встретившиеся в одной и той же позиции рамки валентности;

  4. Для каждого кластера измерить его схожесть с уже имеющимися лексическими классами. Если ни один из существующих классов не подходит по выбранным критериям, то признать анализируемый кластер новым лексическим классом и использовать его в дальнейшей работе. На этом шаге необходимо искать общие семантические характеристики элементов.

Данный алгоритм был проверен на материале из Британского Национального корпуса, размеченного в рамках эксперимента синтаксически и семантически.
В статье [33] авторы предлагают другой способ выделения паттернов в контексте. В качестве материала используется синтактически и семантически размеченный корпус. Алгоритм выделяет и описывает грамматические отношения между предикатом и словами из его ближайшего окружения с помощью 4 характеристик: основа, часть речи, семантические типы и дополнительные теги (число, одушевленность и др.). На следующем этапе алгоритм использует данные из обучающей выборки, чтобы отсеять характеристики, скорее всего, не влияющие на значение предиката. На основе множества характеристика вычисляется вероятность принадлежности анализируемого паттерна к одному из имеющихся паттернов данного предиката. Точность измеряется до и после извлечения «важных» характеристик. В результате эксперимент показал среднюю точность в 61,1% при достаточно высокой степени полисемии в тестовой выборке. Для большинства глаголов алгоритм показал более высокий результат на «очищенном» множестве характеристик.



Достарыңызбен бөлісу:
1   ...   9   10   11   12   13   14   15   16   ...   28




©emirsaba.org 2024
әкімшілігінің қараңыз

    Басты бет