Для чешского языка существует несколько проектов, занимающихся описанием валентности глаголов. С нашей точки зрения, схема представления валентности чешских глаголов представляет больший интерес, чем английских, поскольку этот язык родственен русскому и обладает схожей грамматической структурой.
Vallex
Vallex8 – проект по созданию электронного словаря, отражающего синтаксические и семантические свойства чешских глаголов. Словарь описывает рамки валентности с синтаксической и семантической информацией, примеры употребления и другие дополнительные сведения. В словник вошли наиболее частотные лексемы, всего более 16460 словарных статей (считая отдельно глаголы совершенного и несовершенного вида) [36].
Рамка валентности (рис. 1.4) в формате Vallex представляет собой последовательность слотов, каждому из которых приписываются 3 характеристики: функтор, возможные реализации, тип аргумента (обязательный/факультативный). Функторы используются для выражения типов отношений между глаголом и его актантами. К примеру, функтор ACT обозначает того, кто совершает действие, MANN – образ действия и т.д. Подобная терминология используется также в Prague Dependency Treebank, что делает совместимыми эти базы данных. Однако список функторов в Vallex несколько меньше, поскольку не все они используются с глаголами, а некоторые отражают только зависимость между глаголами или не имеют отношения к валентности самого глагола.
Рис. 1.4. Пример словарной статьи из Vallex для глагола analyzovat. Verbalex
Формат представления данных словаря Verbalex9 весьма похож на формат словаря Vallex, главной разницей является подход к описанию семантических свойств аргументов глаголов. На данный момент Verbalex описывает более 10 500 глагольных лексем, при выборе которых учитывалась их частотность [30].
В словарной статье словаря Verbalex описывается ряд глаголов и их составная рамка валентности (complex valency frame). Заголовком статьи является не отдельный глагол, а синсет (синонимический ряд). Более того, его элементами являются не леммы целиком, а их отдельные значения. Важным отличием Verbalex от Vallex является его тесная связь с семантической сетью WordNet. Так, для каждого синсета отмечается его значение в WordNet [29].
Кроме того, приводится общее определение и семантический класс. В качестве основы была использована классификация Бет Левин, созданная для английских глаголов. В проекте Verbnet Марты Палмер количество базовых семантических классов увеличилось от 48 до 82 классов. В рамках проекта Verbalex эта классификация была переведена и адаптирована для чешского языка.
Второй частью словарной статьи является описание простых (базовых) рамок валентности (basic valency frames), характерных для всего синонимического ряда (рис. 1.5). При описании учитываются как морфосинтаксические, так и семантические характеристики актантов. Для каждого актанта указывается падеж(и), в котором он может употребляться в данной конструкции. Для большой точности приводится вопрос, который можно задать к актанту. Таким способом учитывается ещё и одушевленность/неодушевленность существительных (вопросы кто? что?). В случае если один из актантов факультативен, ставится помета opt.
Рамка представлена в так называемом стандартном порядке: актанты слева от глагола (обычно подлежащее) – глагол – актанты справа от глагола. Создатели словаря предполагают, что эта спецификация может пригодиться не для анализа предложения, но для генерирования. Место глагола отмечается знаком VERB.
Рис. 1.5. Пример рамки валентности формата, используемого в Verbalex.
Семантические роли актантов приписываются на двух уровнях. На первом уровне содержатся основные семантические роли, их описание основывается на сущностях первого (1stOrderEntity) и второго порядка (2ndOrderEntity) по EuroWordNet Top Ontology и Base Concepts. Оба списка описывают ядро межязыкового лексикона, всего используется 32 семантические роли первого уровня.
В качестве ролей второго уровня используются прямые гипонимы ролей первого уровня из WordNet. Они формируют открытый список, который можно расширить по необходимости. На 2013 г. список содержал 811 семантических ролей.
Абстрактные значения, почти совпадающие со значениями ролей первого порядка, (к примеру, beneficiary:1, patient:2) заменяются конкретными значениями (чаще всего person:1, или другие варианты в зависимости от конструкции). Подобный подход позволяет сузить разнообразие лексико-семантических групп, элементы которых могут занять данную позицию в рамке валентности. Например, в большей части случаев актанту в позиции подлежащего приписывается роль AG (agens, агенс), которая обозначает того, кто выполняет данное действие. С помощью семантических ролей второго уровня можно уточнить возможное значение данного актанта: человек, животное, организация и т.д. В некоторых случаях это сужение может и не иметь большого смысла, но иногда является очень значимым. Например, подлежащим глагола родить в прямом значении может быть только женщина, поэтому роль первого порядка AG логично сузить до роли второго порядка woman:1.