Образовательная программа «Прикладная, экспериментальная и математическая лингвистика»



бет17/28
Дата14.05.2023
өлшемі1,12 Mb.
#92943
түріОбразовательная программа
1   ...   13   14   15   16   17   18   19   20   ...   28
Количество выделенных паттернов

Глагол

Количество паттернов

Относительная частота (ipm)

бросать

28

17.0

подниматься

28

28.3

следить

24

64.7

говорить

21

557.3

кричать

21

19.0

дышать

21

22.6

заменять

20

16.0

доверять

17

30.5

владеть

17

34.7

расти

15

120.3

накрывать

14

3.4

пилить

13

1.9

драться

13

4.7

выживать

11

5.9

зарабатывать

10

37.0

рожать

8

5.4


    1. Размер выборки


Нашей следующей задачей было определение оптимального размера выборки. Для этого мы:

  • провели анализ «насыщаемости» паттернов для первых 300 контекстов;

  • разметили дополнительные 200 контекстов.
      1. Анализ насыщаемости


Насыщаемостью мы называем то, какое количество паттернов выделяется для каждых следующих 50 контекстов. Для этого мы воспользовались первой версией разметки, которая была разделены на группы по 50 контекстов. По этим данным мы определили, сколько итоговых паттернов встретилось в какой группе. Результаты можно увидеть на графике (рис. 3.5).

Рис. 3.5. График «насыщаемости»
По вертикали расположено количество встретившихся паттернов, по горизонтали  группы контекстов: первые 50, первые 100 и т.д. Как видно из графика, все кривые возрастают, но с разной скоростью. Чем больше общее количество паттернов, тем круче будет подъем. Самый резкий перепад всегда происходит между первыми двумя группами. Это значит, что большинство паттернов выделяется из первых 100 контекстов.
Если посмотреть на сами паттерны, то видно, что паттерны, выделенные в группах 250-300, в основном, имеют частоту 1. Более того, чаще всего это авторская эксплуатация нормы, окказиональные употребления.
      1. Дополнительная разметка


Для части глаголов мы дополнительно разметили по 200 контекстов. Для этого мы взяли все глаголы с частотой выше, чем у глагола подниматься. Подниматься был выбран как глагол с наибольшим количеством паттернов (28). У глагола бросать такое же количество паттернов, но их большую часть составляют устойчивые выражения. Более того, подниматься встречается намного чаще, чем глагол бросать (28,3 и 17 ipm соответственно).
Таким образом, были отобраны 7 глаголов (табл. 3.4).
Табл. 3.4.
Глаголы, выбранные для дополнительной разметки




Относительная частота (ipm) в Araneum

Реальный объем дополнительной выборки

говорить

557,3

198

расти

120,3

192

следить

64,7

195

зарабатывать

37,0

186

владеть

34,7

190

доверять

30,5

199

подниматься

28,3

189

Процесс разметки происходил аналогично основной разметке: выделение непосредственных контекстов, разметка семантическими типами. В табл. 3.5 представлена количественная оценка полученных результатов.


Табл. 3.5.
Результаты дополнительной разметки




Количество паттернов по первой разметке

Количество паттернов по дополнительной разметке

Полные новые паттерны

Полные новые с частотой > 1

Расширение старых паттернов

подниматься

28

30

7

1

3

следить

21

20

3

1

0

говорить

21

20

2

0

4

зарабатывать

10

10

3

1

2

расти

15

16

4

0

0

владеть

17

19

5

0

0

доверять

17

12

1

1

1

Как можно увидеть из таблицы, существенного увеличения количества паттернов не произошло. Мы отделили случаи, когда выделялся полностью новый паттерн, от случаев, когда в уже имеющийся паттерн добавлялся новый элемент. Почти все новые паттерны оказались эксплуатацией нормы. Следует упомянуть, что мы не учитывали эллиптические конструкции при подсчете новых паттернов.


По полученным данным можно сделать вывод о том, что размер выборки в 300 контекстов относительно адекватен. Выборки подобного размера достаточно для низкочастотных глаголов с небольшим разнообразием семантической сочетаемости. Для глаголов с большей частотой встречаемости и с большим количеством возможных паттернов можно увеличить размер выборки, как минимум, до 500 контекстов. Следует отметить, что независимо от размера выборки всегда будут встречаться неохваченные ранее паттерны. Однако они, скорее всего, будут являться авторской эксплуатацией нормы, которая все равно не рассматривается при составлении словаря.
    1. Проверка независимости от корпуса


Поскольку весь материал для разметки мы брали из одного корпуса, мы решили посмотреть, насколько выделенные паттерны характерны для языка в целом, а не для языка, представленного в корпусе Araneum Russicum Minus.
Мы выбрали Национальный корпус русского языка для проверки имеющихся паттернов. Для каждого глагола были составлены выборки по 50 контекстов. При запросе мы искали глаголы по лемме, дополнительных ограничений поиска не задавалось. Формат выдачи – не больше 1 примера из одного документа. Далее полученный материал обрабатывался также как и при разметке корпуса Araneum: выделение непосредственного контекста, разметка семантическими типами. Данные о выборках представлены в таблице 3.6.
Табл. 3.6.
Характеристики глаголов по НКРЯ




ipm в Araneum

ipm в НКРЯ

Реальный размер выборки

говорить

557,3

2098,6

50

расти

120,3

118,8

50

следить

64,7

78,1

49

зарабатывать

37,0

19,6

50

владеть

34,7

44,2

49

доверять

30,5

25,1

50

подниматься

28,3

83,7

50

дышать

22,6

68,6

50

кричать

19,0

181,7

47

бросать

17,0

61,6

49

заменять

16,0

19,4

50

выживать

5,9

4,5

50

рожать

5,4

9,5

50

драться

4,7

29,9

50

накрывать

3,4

5,6

50

пилить

1,9

35,4

29

Можно заметить, что в некоторых случаях относительная частота глагола в НКРЯ и в корпусе Araneum Russicum Minus сильно различаются. В каждом случае это можно объяснить по-разному. Для глагола пилить в выдачу из НКРЯ вошло множество контекстов, где форма пили относится не к глаголу пилить, а к глаголу пить. Как следствие, глаголу пилить была приписана большая частота, чем есть на самом деле. Другие различия можно объяснить характером корпусов. НКРЯ включает больше художественных текстов, чем Araneum Russicum Minus, поэтому естественно, что глаголы говорить и кричать, которые могут вводить прямую речь, обладают большей частотой.


Число контекстов, не относящихся к выделенным паттерном, не превысило 5 для одного глагола, меньше всего (0) – у глагола заменять, больше всего (5) – у глагола дышать. В среднем, их количество составило 4% от общего размера выборки (рис. 3.6). Как и в предыдущих случаях, почти все они были авторскими эксплуатациями уже имеющихся паттернов. Например, для глагола выживать был изначально выделен паттерн [[Human]] выживает [[Human]] из [[Location]]. В новой выборке встретился контекст Книги практически выживают нас из дома ([[Inanimate]] выживает [[Human]] из [[Location]]), в котором автор эксплуатирует нормативное употребление глагола выживать. Много метафорических контекстов встретилось и для глагола дышать, например, жизнь дышит со страниц этой удивительной книги. Очень редко встречались контексты, которые можно было бы посчитать нормативным. Так, для глагола накрывать встретился контекст они накрывали вражеские сходки. Подобное употребление глагола накрывать описано во всех толковых словарях русского языка (см. раздел 3.8). Тем не менее, за всю разметку оно встретилось только 1 раз, в выборке из НКРЯ.

Рис. 3.6. Соотношение контекстов в выборке из НКРЯ
В целом, в НКРЯ частотность эксплуатаций оказалась несколько выше, чем в Araneum Russicum. По-видимому, это связано с тем, что в НКРЯ вошло больше публицистических текстов и текстов художественной литературы, для которых характерна большая метафоричность. С этой точки зрения, Araneum Russicum представляет более «приземленный», разговорный язык.


    1. Достарыңызбен бөлісу:
1   ...   13   14   15   16   17   18   19   20   ...   28




©emirsaba.org 2024
әкімшілігінің қараңыз

    Басты бет