Выбранные глаголы
Номер подгруппы
|
Глагол
|
Абсолютная частота
|
Относительная частота (ipm)
|
Размер выборки
|
1.1
|
подниматься
|
3395
|
28,3
|
500
|
1.2
|
бросать
|
2045
|
17,0
|
300
|
1.3
|
накрывать
|
403
|
3,4
|
300
|
1.4
|
драться
|
563
|
4,7
|
300
|
1.5
|
пилить
|
222
|
1,9
|
222
|
1.6
|
следить
|
7768
|
64,7
|
500
|
1.7
|
говорить
|
66963
|
557,3
|
500
|
1.8
|
зарабатывать
|
4441
|
37,0
|
500
|
1.9
|
дышать
|
2721
|
22,6
|
300
|
1.10
|
кричать
|
2289
|
19,0
|
300
|
2.1
|
рожать
|
645
|
5,4
|
300
|
2.2
|
расти
|
14454
|
120,3
|
500
|
3.1
|
заменять
|
1920
|
16,0
|
300
|
3.2
|
владеть
|
4173
|
34,7
|
500
|
3.3
|
доверять
|
3670
|
30,5
|
500
|
3.4
|
выживать
|
709
|
5,9
|
300
|
3.4. Подготовка разметки
Для каждого глагола из корпуса Araneum Russicum Minus мы получали нумерованный список из 500 контекстов. Размер мог зависеть от общей частоты встречаемости глагола в корпусе, например, глагол пилить встречается всего 222 раза. Соответственно, размер выборки для него составил 222 контекста. Полученный список разделялся на 10 подсписков, в каждом по 50 контекстов. Подобный частичный способ разметки позволил впоследствии определить порог «насыщаемости» для глаголов русского языка (см. раздел 3.5.1).
На следующем этапе из полных предложений выделялся глагол с зависимыми членами. В основном, мы убирали все обстоятельства (места, времени, цели), если они не определяли семантику глагола. Так, например, в определённых случаях обстоятельство времени определяет семантику глагола подниматься. В предложении он поднимается в 5 утра глагол подниматься имеет значение просыпаться, вставать с кровати. С другой стороны, обстоятельство места также часто входит в паттерны для глагола подниматься: подниматься по лестнице.
Также именные группы, выступающие как актанты глагола, сокращались до одного главного слова, в крайнем случае, двух, если по одному слову было невозможно впоследствии определить семантический тип. Подобным образом убирались распространяющие конструкции, например, различного вида обороты, определения. Ряды сокращались до одного члена, если все члены принадлежали одному семантическому типу.
В основном, проблемы возникали в случае сложных предложений. Если глагол употреблялся в придаточном и управляет местоимением, то для полноты картины мы всегда старались найти в главном предложении соответствующий антецедент и размечали уже его. Вторая проблема – в выборку попадали и предложения, где глагол представлен в форме причастия. Мы их оставляли, если причастие сохраняло рамку валентности личных форм глагола. Меньшую проблему представляют названия. Если по экстралингвистическим знаниям или из предложения очевидно, что обозначает данное название, то оно размечалось соответствующим образом.
Естественно, в итоге размечались не все предложения. Таким образом, размер выборки несколько сокращался. В таблице 3.2 представлен реальный размер полных выборок для всех глаголов.
Табл. 3.2.
Реальный размер выборок
Глагол
|
Размер полной выборки
|
50
|
100
|
150
|
200
|
250
|
300
|
350
|
400
|
450
|
подниматься
|
463
|
47
|
95
|
140
|
183
|
227
|
274
|
321
|
370
|
417
|
бросать
|
288
|
49
|
98
|
145
|
192
|
241
|
288
|
|
|
|
накрывать
|
279
|
42
|
90
|
138
|
185
|
231
|
279
|
|
|
|
драться
|
286
|
45
|
94
|
144
|
193
|
239
|
286
|
|
|
|
пилить
|
207
|
49
|
98
|
145
|
207(из 222)
|
следить
|
485
|
50
|
98
|
145
|
194
|
241
|
290
|
337
|
385
|
435
|
говорить
|
494
|
48
|
98
|
147
|
197
|
247
|
296
|
346
|
394
|
444
|
зарабатывать
|
480
|
48
|
98
|
147
|
196
|
244
|
294
|
344
|
394
|
434
|
дышать
|
278
|
45
|
91
|
136
|
184
|
230
|
278
|
|
|
|
кричать
|
296
|
50
|
100
|
150
|
197
|
246
|
296
|
|
|
|
рожать
|
287
|
50
|
97
|
142
|
191
|
239
|
287
|
|
|
|
расти
|
487
|
49
|
99
|
148
|
197
|
247
|
295
|
343
|
393
|
438
|
заменять
|
284
|
36
|
86
|
136
|
184
|
234
|
284
|
|
|
|
владеть
|
475
|
50
|
100
|
148
|
197
|
242
|
285
|
325
|
375
|
425
|
доверять
|
496
|
49
|
98
|
148
|
197
|
247
|
297
|
347
|
396
|
446
|
выживать
|
299
|
50
|
100
|
150
|
199
|
249
|
299
|
|
|
|
На следующем этапе предстоял собственно сам процесс семантической разметки. Мы взяли за основу онтологию семантических типов, представленную на сайте «Словаря паттернов английских глаголов» (см. раздел 2.3). Её основные преимущества:
иерархическая структура типов;
сравнительно очевидные обозначения типов;
список существительных английского языка, которые относятся к данному типу в определённых паттернах;
список глаголов английского языка, в чьих паттернах встречается данный тип.
При первичной разметке мы старались использовать типы, находящиеся в низу иерархии. Так, контекст бросать мяч размечался как [[Human]] бросает [[Ball]]. Вместо вышестоящего типа [[Artifact]] использовался нижестоящий тип [[Ball]].
Естественно, онтология не может полностью отразить богатство языковой лексики. Если замечалось, что глагол часто встречается с одним существительным, то это существительное указывалось вместе с семантическим типом. В основном, подобные случаи относятся к устойчивым или даже идиоматическим выражениям. Однако возникала необходимость «сужать» семантический тип и в других случаях. Подлежащее глагола подниматься часто имеет семантический тип [[Food]], но обычно это определённый тип еды: тесто, дрожжи, опара. Итоговый паттерн имеет следующий вид: [[Food]](тесто!) поднимается.
С технической стороны, разметка (рис. 3.4) представляет собой файл формата .xls. В первом столбце перечислены контексты. Напротив каждого контекста указывается его семантическое представление с прямым порядком слов. Каждый семантический тип, предлог или союз записывается в отдельную ячейку. Поскольку мы делали разметку по частям, части отделялись друг от друга.
Рис. 3.4. Пример разметки для контекстов из Araneum Russicum Minus.
3.5. Выделение паттернов
После завершения самой разметки мы перешли к выделению паттернов. Для этого семантические представления сортировались по порядку слотов. Сначала сортировка проводилась внутри каждой части (примерно 50 контекстов). Затем данные разметки были перенесены в отдельный файл и были отсортированы уже полностью. По отсортированному материалу были созданы первичные списки паттернов с указанием их частоты. По сути, это были еще не настоящие паттерны, но их прототипы: все конструкции, в которых встречался данный глагол в использованной корпусной выборке. Для краткости будем называть их дальше протопаттернами. Первичные списки сортировались по частоте встречаемости в порядке убывания.
На следующем этапе мы анализировали полученные протопаттерны, приводя их к более обобщенным паттернам. Обобщение происходило в трёх направлениях.
Приведение нижестоящих в иерархии семантических типов к вышестоящим.
Основным критерием было сохранение значения паттерна. Например, при анализе глагола бросать был выделен достаточно частотный протопаттерн [[Human]] бросает [[Human]]. Однако при более подробном рассмотрении стало понятно, что на самом деле это два разных паттерна: один со значением «кидать», а второй – «оставлять, покидать». Это значение – очевидная эксплуатация первого нормативного значения. Поэтому протопаттерн пришлось разделить, и первый вариант объединить с паттерном [[Human]] бросает [[Physical_Object]]. Тем не менее, вопрос не исчерпан, поскольку в метафорическом плане можно также бросать машину, бросать животное и т.д. Для него характерны контекстные маркеры на произвол судьбы, на растерзание, но они не регулярны. Более регулярен контекстный маркер первого паттерна DIRECTION. Поэтому он был включен в первый паттерн.
Также мы не объединяли паттерны, где одни актанты обладали одним семантическим типом, если была видна определенная устойчивость словосочетания. Для того же глагола бросать встречались контексты бросать трубку, бросать якорь, бросать оружие, где все объекты действия одного типа [[Artifact]]. Тем не менее, все эти выражения, пусть изначально и были связаны с первичным значением глагола бросать, но сейчас приобрели свой собственный смысл («резко закончить разговор», «пришвартоваться», «сдаться»). Поэтому мы выделили не один паттерн, но три.
Иногда мы объединяли в один паттерн и контексты, где у одних актантов разные семантические типы. Для глагола накрывать с большой частотой встречаются контексты типа накрывать стол, накрывать завтрак, накрывать на стол. В целом, все они обладают одним значением: «ставить еду на стол». Эти устойчивые сочетания с глаголом накрывать сейчас вошли в норму. Мы объединили их в один паттерн по схожести значения.
Использование вышестоящего семантического типа вместо его нижестоящих не всегда было регулярным. Так, для глагола рожать в основном в качестве субъекта выступали слова с семантическими типами [[Human]], [[Animal]]. В большинстве паттернов мы использовали более общий тип [[Animate]].
В паттерне [[Human]] рожает [[Human]] для/от/с/- [[Human]], мы оставили тип [[Human]], поскольку в нашей корпусной выборке этот паттерн ни разу не встретился с типом [[Animal]].
Нам встретились все 3 типа: чередования семантических типов, семантические и синтаксические чередования. Первые были выделены почти для всех глаголов, вторые – только для одного глагола заменять. В результате сведения типа для него выделилось некоторое количество пар паттернов с похожим чередованием структуры: Тип1 заменяет Тип1 (собой) – [[Human]] заменяет Тип1 Типом1. Мы предположили, что в данном случае имеет место быть синтаксическое чередование, но следует выделять их как отдельные паттерны, поскольку изменение структуры в некоторой степени влияет на значение глагола.
Семантическое чередование было отмечено для устойчивых словосочетаний, характерных для определённых паттернов. Несмотря на то, что контекстные маркеры в крайней степени индивидуальны, в некоторых случаях их тоже можно было объединить в рамках одного паттерна. Например, глагол зарабатывать часто встречается вместе со словосочетаниями на жизнь, на хлеб. Мы пренебрегли небольшой разницей в значении и поместили их в один паттерн.
Чередования семантических типов были выделены для всех глаголов, кроме рожать. Самым распространенным оказалось чередование типов [[Human]]/[[Institution]] , как и отмечал Патрик Хэнкс для английского языка [25, с. 177]. Тем не менее, эти два типа не всегда автоматически объединялись. В некоторых случаев их замена влияла на значение глагола, например, для подниматься. Паттерн [[Institution]] поднимается имеет очень специфическое значение «расти, получать влияние», в то время как сочетание с типом [[Human]] является частью большего количества паттернов как с прямым, так и с переносным значением.
Чаще чередования выделялись в позиции объекта действия в том случае, если объект не связан тесно с действием, выражаемым глаголом. Так, если рассматривать паттерн [[Human]] говорит о чем-то, то его значение не будет зависеть от того, какой семантический тип у второго актанта. В итоговом паттерне нам придется записать чередование трех основных типов [[Abstract_Entity]], [[Physical_Object]], [[Eventuality]].
В другом случае для второго актанта выделялось несколько семантических типов, относящихся к разным основным типам, но имеющих некоторое сходство. Например, для глагола доверять мы объединили в один паттерн контексты, где у второго актанта семантический тип – [[Language_Part]] или [[Concept]]. По сути, они не влияют на значение паттерна, ведь нет большой разницы между контекстами доверять словам свидетеля и доверять полученной информации.
Объединение дополнительных элементов паттерна.
Кроме семантических типов и самого глагола, элементами паттерна являются предлоги и союзы (в том случае, когда от глагола может зависеть придаточное). Часто к одному контексту относились разные предлоги, например, драться с [[Human]] / против [[Human]]. Отсутствие предлога также могло отмечаться: [[Human]] рожает [[Human]] [[Human]]/для [[Human]]/от [[Human]]. Иногда чередовались союзы, вводящие придаточное предложение: следить за тем, чтобы/чтобы, кричать что/о том что и т.д.
В результате нами было выделено следующее количество паттернов для выборок в 300 контекстов (табл. 3.3). Как мы видим, число паттернов не зависит от частоты глагола. Сами паттерны представлены в приложении А.
Табл. 3.3.
Достарыңызбен бөлісу: |