Образовательная программа «Прикладная, экспериментальная и математическая лингвистика»



бет16/28
Дата14.05.2023
өлшемі1,12 Mb.
#92943
түріОбразовательная программа
1   ...   12   13   14   15   16   17   18   19   ...   28
Выбранные глаголы

Номер подгруппы

Глагол

Абсолютная частота

Относительная частота (ipm)

Размер выборки

1.1

подниматься

3395

28,3

500

1.2

бросать

2045

17,0

300

1.3

накрывать

403

3,4

300

1.4

драться

563

4,7

300

1.5

пилить

222

1,9

222

1.6

следить

7768

64,7

500

1.7

говорить

66963

557,3

500

1.8

зарабатывать

4441

37,0

500

1.9

дышать

2721

22,6

300

1.10

кричать

2289

19,0

300

2.1

рожать

645

5,4

300

2.2

расти

14454

120,3

500

3.1

заменять

1920

16,0

300

3.2

владеть

4173

34,7

500

3.3

доверять

3670

30,5

500

3.4

выживать

709

5,9

300


3.4. Подготовка разметки


Для каждого глагола из корпуса Araneum Russicum Minus мы получали нумерованный список из 500 контекстов. Размер мог зависеть от общей частоты встречаемости глагола в корпусе, например, глагол пилить встречается всего 222 раза. Соответственно, размер выборки для него составил 222 контекста. Полученный список разделялся на 10 подсписков, в каждом по 50 контекстов. Подобный частичный способ разметки позволил впоследствии определить порог «насыщаемости» для глаголов русского языка (см. раздел 3.5.1).
На следующем этапе из полных предложений выделялся глагол с зависимыми членами. В основном, мы убирали все обстоятельства (места, времени, цели), если они не определяли семантику глагола. Так, например, в определённых случаях обстоятельство времени определяет семантику глагола подниматься. В предложении он поднимается в 5 утра глагол подниматься имеет значение просыпаться, вставать с кровати. С другой стороны, обстоятельство места также часто входит в паттерны для глагола подниматься: подниматься по лестнице.
Также именные группы, выступающие как актанты глагола, сокращались до одного главного слова, в крайнем случае, двух, если по одному слову было невозможно впоследствии определить семантический тип. Подобным образом убирались распространяющие конструкции, например, различного вида обороты, определения. Ряды сокращались до одного члена, если все члены принадлежали одному семантическому типу.
В основном, проблемы возникали в случае сложных предложений. Если глагол употреблялся в придаточном и управляет местоимением, то для полноты картины мы всегда старались найти в главном предложении соответствующий антецедент и размечали уже его. Вторая проблема – в выборку попадали и предложения, где глагол представлен в форме причастия. Мы их оставляли, если причастие сохраняло рамку валентности личных форм глагола. Меньшую проблему представляют названия. Если по экстралингвистическим знаниям или из предложения очевидно, что обозначает данное название, то оно размечалось соответствующим образом.
Естественно, в итоге размечались не все предложения. Таким образом, размер выборки несколько сокращался. В таблице 3.2 представлен реальный размер полных выборок для всех глаголов.
Табл. 3.2.
Реальный размер выборок

Глагол

Размер полной выборки

50

100

150

200

250

300

350

400

450

подниматься

463

47

95

140

183

227

274

321

370

417

бросать

288

49

98

145

192

241

288










накрывать

279

42

90

138

185

231

279










драться

286

45

94

144

193

239

286










пилить

207

49

98

145

207(из 222)

следить

485

50

98

145

194

241

290

337

385

435

говорить

494

48

98

147

197

247

296

346

394

444

зарабатывать

480

48

98

147

196

244

294

344

394

434

дышать

278

45

91

136

184

230

278










кричать

296

50

100

150

197

246

296










рожать

287

50

97

142

191

239

287










расти

487

49

99

148

197

247

295

343

393

438

заменять

284

36

86

136

184

234

284










владеть

475

50

100

148

197

242

285

325

375

425

доверять

496

49

98

148

197

247

297

347

396

446

выживать

299

50

100

150

199

249

299









На следующем этапе предстоял собственно сам процесс семантической разметки. Мы взяли за основу онтологию семантических типов, представленную на сайте «Словаря паттернов английских глаголов» (см. раздел 2.3). Её основные преимущества:



  • иерархическая структура типов;

  • сравнительно очевидные обозначения типов;

  • список существительных английского языка, которые относятся к данному типу в определённых паттернах;

  • список глаголов английского языка, в чьих паттернах встречается данный тип.

При первичной разметке мы старались использовать типы, находящиеся в низу иерархии. Так, контекст бросать мяч размечался как [[Human]] бросает [[Ball]]. Вместо вышестоящего типа [[Artifact]] использовался нижестоящий тип [[Ball]].
Естественно, онтология не может полностью отразить богатство языковой лексики. Если замечалось, что глагол часто встречается с одним существительным, то это существительное указывалось вместе с семантическим типом. В основном, подобные случаи относятся к устойчивым или даже идиоматическим выражениям. Однако возникала необходимость «сужать» семантический тип и в других случаях. Подлежащее глагола подниматься часто имеет семантический тип [[Food]], но обычно это определённый тип еды: тесто, дрожжи, опара. Итоговый паттерн имеет следующий вид: [[Food]](тесто!) поднимается.
С технической стороны, разметка (рис. 3.4) представляет собой файл формата .xls. В первом столбце перечислены контексты. Напротив каждого контекста указывается его семантическое представление с прямым порядком слов. Каждый семантический тип, предлог или союз записывается в отдельную ячейку. Поскольку мы делали разметку по частям, части отделялись друг от друга.

Рис. 3.4. Пример разметки для контекстов из Araneum Russicum Minus.

3.5. Выделение паттернов


После завершения самой разметки мы перешли к выделению паттернов. Для этого семантические представления сортировались по порядку слотов. Сначала сортировка проводилась внутри каждой части (примерно 50 контекстов). Затем данные разметки были перенесены в отдельный файл и были отсортированы уже полностью. По отсортированному материалу были созданы первичные списки паттернов с указанием их частоты. По сути, это были еще не настоящие паттерны, но их прототипы: все конструкции, в которых встречался данный глагол в использованной корпусной выборке. Для краткости будем называть их дальше протопаттернами. Первичные списки сортировались по частоте встречаемости в порядке убывания.
На следующем этапе мы анализировали полученные протопаттерны, приводя их к более обобщенным паттернам. Обобщение происходило в трёх направлениях.

  • Приведение нижестоящих в иерархии семантических типов к вышестоящим.

Основным критерием было сохранение значения паттерна. Например, при анализе глагола бросать был выделен достаточно частотный протопаттерн [[Human]] бросает [[Human]]. Однако при более подробном рассмотрении стало понятно, что на самом деле это два разных паттерна: один со значением «кидать», а второй – «оставлять, покидать». Это значение – очевидная эксплуатация первого нормативного значения. Поэтому протопаттерн пришлось разделить, и первый вариант объединить с паттерном [[Human]] бросает [[Physical_Object]]. Тем не менее, вопрос не исчерпан, поскольку в метафорическом плане можно также бросать машину, бросать животное и т.д. Для него характерны контекстные маркеры на произвол судьбы, на растерзание, но они не регулярны. Более регулярен контекстный маркер первого паттерна DIRECTION. Поэтому он был включен в первый паттерн.
Также мы не объединяли паттерны, где одни актанты обладали одним семантическим типом, если была видна определенная устойчивость словосочетания. Для того же глагола бросать встречались контексты бросать трубку, бросать якорь, бросать оружие, где все объекты действия одного типа [[Artifact]]. Тем не менее, все эти выражения, пусть изначально и были связаны с первичным значением глагола бросать, но сейчас приобрели свой собственный смысл («резко закончить разговор», «пришвартоваться», «сдаться»). Поэтому мы выделили не один паттерн, но три.
Иногда мы объединяли в один паттерн и контексты, где у одних актантов разные семантические типы. Для глагола накрывать с большой частотой встречаются контексты типа накрывать стол, накрывать завтрак, накрывать на стол. В целом, все они обладают одним значением: «ставить еду на стол». Эти устойчивые сочетания с глаголом накрывать сейчас вошли в норму. Мы объединили их в один паттерн по схожести значения.
Использование вышестоящего семантического типа вместо его нижестоящих не всегда было регулярным. Так, для глагола рожать в основном в качестве субъекта выступали слова с семантическими типами [[Human]], [[Animal]]. В большинстве паттернов мы использовали более общий тип [[Animate]].
В паттерне [[Human]] рожает [[Human]] для/от/с/- [[Human]], мы оставили тип [[Human]], поскольку в нашей корпусной выборке этот паттерн ни разу не встретился с типом [[Animal]].

  • Выявление чередований.

Нам встретились все 3 типа: чередования семантических типов, семантические и синтаксические чередования. Первые были выделены почти для всех глаголов, вторые – только для одного глагола заменять. В результате сведения типа для него выделилось некоторое количество пар паттернов с похожим чередованием структуры: Тип1 заменяет Тип1 (собой) – [[Human]] заменяет Тип1 Типом1. Мы предположили, что в данном случае имеет место быть синтаксическое чередование, но следует выделять их как отдельные паттерны, поскольку изменение структуры в некоторой степени влияет на значение глагола.
Семантическое чередование было отмечено для устойчивых словосочетаний, характерных для определённых паттернов. Несмотря на то, что контекстные маркеры в крайней степени индивидуальны, в некоторых случаях их тоже можно было объединить в рамках одного паттерна. Например, глагол зарабатывать часто встречается вместе со словосочетаниями на жизнь, на хлеб. Мы пренебрегли небольшой разницей в значении и поместили их в один паттерн.
Чередования семантических типов были выделены для всех глаголов, кроме рожать. Самым распространенным оказалось чередование типов [[Human]]/[[Institution]] , как и отмечал Патрик Хэнкс для английского языка [25, с. 177]. Тем не менее, эти два типа не всегда автоматически объединялись. В некоторых случаев их замена влияла на значение глагола, например, для подниматься. Паттерн [[Institution]] поднимается имеет очень специфическое значение «расти, получать влияние», в то время как сочетание с типом [[Human]] является частью большего количества паттернов как с прямым, так и с переносным значением.
Чаще чередования выделялись в позиции объекта действия в том случае, если объект не связан тесно с действием, выражаемым глаголом. Так, если рассматривать паттерн [[Human]] говорит о чем-то, то его значение не будет зависеть от того, какой семантический тип у второго актанта. В итоговом паттерне нам придется записать чередование трех основных типов [[Abstract_Entity]], [[Physical_Object]], [[Eventuality]].
В другом случае для второго актанта выделялось несколько семантических типов, относящихся к разным основным типам, но имеющих некоторое сходство. Например, для глагола доверять мы объединили в один паттерн контексты, где у второго актанта семантический тип – [[Language_Part]] или [[Concept]]. По сути, они не влияют на значение паттерна, ведь нет большой разницы между контекстами доверять словам свидетеля и доверять полученной информации.

  • Объединение дополнительных элементов паттерна.

Кроме семантических типов и самого глагола, элементами паттерна являются предлоги и союзы (в том случае, когда от глагола может зависеть придаточное). Часто к одному контексту относились разные предлоги, например, драться с [[Human]] / против [[Human]]. Отсутствие предлога также могло отмечаться: [[Human]] рожает [[Human]] [[Human]]/для [[Human]]/от [[Human]]. Иногда чередовались союзы, вводящие придаточное предложение: следить за тем, чтобы/чтобы, кричать что/о том что и т.д.
В результате нами было выделено следующее количество паттернов для выборок в 300 контекстов (табл. 3.3). Как мы видим, число паттернов не зависит от частоты глагола. Сами паттерны представлены в приложении А.
Табл. 3.3.


Достарыңызбен бөлісу:
1   ...   12   13   14   15   16   17   18   19   ...   28




©emirsaba.org 2024
әкімшілігінің қараңыз

    Басты бет