Часть речи
Частота (ipm)
1
и
conj
35801.8
2
в
pr
31374.2
3
не
part
18028.0
4
на
pr
15867.3
5
я
spro
12684.4
6
быть
v
12160.7
7
он
spro
11791.1
8
с
pr
11311.9
9
что
conj
8354.0
10
а
conj
8198.0
Важно отметить, что в этом списке словоформы уже приведены к единой лем-
ме, и поэтому у изменяемых слов (к которым чаще всего и относятся полно-
312
Б. В. Орехов, К. Ю. Решетников
значные, в отличие от служебных) шансы попасть в верхнюю часть списка
гораздо выше. Однако даже с этим условием, как можно увидеть, наиболее
частотными словами оказываются представители служебных частей речи.
Исходя из этого, наиболее «естественным» мы будем считать набор
таких текстов, в которых частотное распределение слов наиболее близко
к ожидаемому, т. е. демонстрирует сильные позиции для неизменяемых
служебных слов и слабые позиции для форм полнозначных лексем. Соот-
ветственно, в случае, когда мы наблюдаем обратную ситуацию, это будет
служить для нас основанием видеть в тексте дисбаланс. При этом, разу-
меется, дело не только и не столько в распределении словоформ. Мы ис-
ходим из гипотезы, что если диспропорция возникает в частотном словаре,
составленном на основе какой-то коллекции текстов, то и данные по еди-
ницам других уровней языка могут быть (и даже скорее всего являются)
не вполне корректными для произвольного текста на данном языке.
С этих позиций мы попробуем рассмотреть в сравнительном аспек-
те сначала википедию на русском языке, а затем несколько пар википедий
на других языках народов России.
Верхняя часть частотного списка словоформ русской википедии
(на момент исследования ее объем составляет 1 059 783 статьи) выглядит
следующим образом:
Таблица 2. Первый десяток из частотного списка
словоформ русской википедии
№
Словоформа
Встречаемость
1
в
10859129
2
и
5761105
3
на
3214393
4
с
2439469
5
года
1637221
6
по
1555831
7
году
1249646
8
из
1055953
9
был
940992
10
к
900353
Как легко удостовериться, в основном этот список соответствует ана-
логичным позициям частотного словаря, составленного на материалах
сбалансированного корпуса, так как состоит в основном из предлогов,
союзов и глагола «быть», используемого в качестве связки.
Однако 5 и 7 позиции интересны тем, что на них попадают формы пол-
нозначного слова год. Это единственный случай нарушения естественного
распределения словоформ в соответствии с критерием «полнозначные сло-
ва — неполнозначные слова» в верхней части частотного списка русской вики-
педии. Он вызван, как нетрудно догадаться, жанровой спецификой энциклопе-
К оценке Википедии как лингвистического источника…
313
дического текста и структурой словника, в котором большое место занимают
отдельные статьи, посвященные отдельным годам в мировой истории.
Второй десяток словоформ в частотном списке также составляют
главным образом предлоги, местоимения и союзы, что вполне ожидаемо
для частотного распределения в сбалансированном текстовом корпусе.
Полнозначные слова в этом диапазоне не фиксируются.
Таблица 3. Второй десяток из частотного списка
словоформ русской википедии
№
Словоформа
Встречаемость
11
не
843697
12
от
804136
13
а
754425
14
для
718569
15
что
676643
16
его
665984
17
до
637904
18
как
633286
19
он
611867
20
за
590437
Насколько мы можем судить, тексты русской википедии с поправкой
на соответствующий жанр, если опираться на наши диагностические
критерии, вполне могут быть использованы для компьютерных лингви-
стических исследований.
Однако для русского языка проблема отбора материала как раз
не стоит остро. В свободном доступе в интернете представлены милли-
арды страниц с текстами на русском языке, и при сравнительно неболь-
ших затратах лингвист может получить сверхбольшой корпус в десятки
миллионов (а с применением некоторых инженерных решений и в десят-
ки миллиардов) словоупотреблений. При этом тексты будут относиться
к разным жанрам, отражать разную тематику.
В орбите русского языка и русской культуры, а конкретно — на тер-
ритории Российской Федерации расположены ареалы обитания десятков
народов, говорящих на собственных языках, которые располагают гораз-
до меньшим количеством оцифрованных текстов. Однако Википедия как
престижный ресурс, претендующий на то, чтобы свободно распростра-
нять информацию на всех языках, имеет свои разделы и на многих языках
народов России. Мы остановимся на нескольких примерах таких языко-
вых разделов. В нашу выборку попали некоторые тюркские и финно-
угорские языки и написанные на них википедии.
Из тюркских языков мы рассмотрим татарский и башкирский,
а из финно-угорских — марийские, мордовские и два языка коми — зы-
314
Б. В. Орехов, К. Ю. Решетников
рянский и пермяцкий. Такая структура выборки обусловлена тем, что нам
представляется интересным проанализировать национальные википедии,
составляющие друг с другом некие пары, внутри каждой из которых идет
речь, с одной стороны, о максимально близком языковом родстве, с дру-
гой — о специфическом сходстве соответствующих энциклопедических
ресурсов. Башкирская википедия очевидным образом близка к татарской,
причем дело здесь не только в единстве башкирского и татарского языков
как членов поволжско-кыпчакской общности (носящей, согласно разным
трактовкам, либо генетический, либо ареальный характер), но и в том, что
авторы этих википедий пользуются при создании контента схожими спец-
ифическими приемами. При детальном изучении татарского и башкирско-
го разделов Википедии можно также отследить соревновательный момент.
Аналогичные и даже еще более тесные википедийные пары составля-
ют лугово-восточный марийский и горно-марийский, эрзя-мордовский
и мокша-мордовский, а также коми-зырянский и коми-пермяцкий. В каж-
дом из этих случаев мы имеем дело с двумя литературными языками, осно-
ванными на разных диалектах одного диалектного континуума, и с двумя
родственными народами, которые, несмотря на тесную историческую связь
друг с другом, имеют разные традиции и разное национальное самосозна-
ние. Сравнение соответствующих википедий дает не менее любопытные
результаты, чем сравнение башкирского и татарского разделов.
Порядок, в котором будут рассмотрены верхние части частотных
списков, соответствует иерархии википедий по количеству статей.
Самой большой по названному параметру национально-регио-
нальный раздел Википедии — это раздел на татарском языке, относя-
щемся к тюркской семье. В настоящее время татарская википедия содер-
жит 50 893 статьи. Вот верхняя часть частотного списка, составленного
на основе этого ресурса:
Таблица 4. Первый десяток из частотного списка
словоформ татарской википедии
№ Словоформа
Перевод/значение
Встречаемость
1
елга
“река”
132567
2
бассейны
“бассейн”
75706
3
су
“вода”
54689
4
буенча
“по”
48838
5
Русия
“Россия”
48722
6
урнашкан
“расположенный”
38043
7
км
“километр”
36962
8
Һəм
“и”
27231
9
кече
“малый”
27203
10
дəүлəт
“государство”
26888
К оценке Википедии как лингвистического источника…
315
Если не считать действительно высокочастотного соединительного
союза и предлога со значением “по”, все слова, попавшие в этот пере-
чень, относятся к категории полнозначных. Особенно интригует высокая
встречаемость слова елга; в русском частотном словаре река находится
на 916 месте.
Замечательным образом похож на этот список и частотный словарь
башкирской википедии (30 724 статьи). Башкирский язык, как уже от-
мечалось, по отношению к татарскому является близкородственным
(а республики, в которых эти языки являются титульными, расположены
по соседству одна с другой на территории России).
Таблица 5. Первый десяток
из частотного списка словоформ башкирской википедии
№
Словоформа
Перевод/значение
Встречаемость
1
йылға
“река”
122849
2
бассейны
“бассейн”
85709
3
һыу
“вода”
64261
4
км
“километр”
38644
5
Рəсəй
“Россия”
33245
6
йылғаһы
“река”
30299
7
тиклем
“до”
28871
8
буйынса
“по”
25968
9
урынлашҡан
“расположенный”
23200
10
Дəүлəт
“государство”
20786
Здесь только послелоги тиклем и буйынса, располагающиеся на 7 и 8
местах, могут претендовать на частотные позиции в естественном
распределении словоформ. Зато полнозначные слова со значением
“река”, “бассейн”, “вода”, “Россия”, “расположенный”, “государство”
присутствуют среди самых частотных и в татарской, и в башкирской
википедиях.
Такой дисбаланс в сторону определенных словоформ «водной» те-
матики объясняется способом пополнения татарской и башкирской ви-
кипедий. Большая часть статей для разделов на этих языках не написана
людьми, а сформирована автоматически из текстового шаблона на соот-
ветствующем языке, в который при программной обработке вставлены
количественные данные. Абсолютное большинство такого рода статей
посвящено рекам России, а данные о них взяты, по всей видимости,
из Государственного водного реестра РФ.
Разумеется, совсем иным образом выглядит верхняя часть частот-
ного словаря башкирского языка, составленного на корпусе научных тек-
стов [Сиразитдинов 1997: 227].
316
Б. В. Орехов, К. Ю. Решетников
Таблица 6. Первые десять лемм
из частотного словаря башкирского языка
[номер лексемы
в списке]
Һүҙ [слово]
F [частотность]
[1]
һəм
4936
[2]
бул
4787
[3]
менəн
3003
[4]
бер
2425
[5]
ул
2336
[6]
был
2235
[7]
ит
1666
[8]
улар
1523
[9]
кил
1408
[10]
ти
1404
Можно обнаружить, что пересечений с башкирской википедией в первой
десятке самых частотных слов не наблюдается.
Описанный способ автоматического наполнения статей Википе-
дии на жаргоне активистов интернет-энциклопедии называется «ботоза-
ливкой», т. е. совершаемой (ро)ботом «заливкой» новых текстов на сайт
ресурса. На сайте Википедии есть специальная техническая страница,
которая фиксирует статистику автоматического создания статей для 120
наиболее развитых википедий. Эта страница сообщает, что если для рус-
ской википедии доля статей-заготовок, созданных «ботами», сравнитель-
но невелика и равняется 15 %, то для татарской википедии этот показа-
тель составляет 73 %, а для башкирской 89 %. Статистика «ботозаливок»,
отмеченная в башкирском разделе, может показаться рекордной, однако
это не так: в данном отношении башкирская википедия уступает еще как
минимум восьми аналогичным ресурсам, гораздо активнее использую-
щим роботизированное создание статей. Википедии на финно-угорских
языках России в этой статистике не приводятся.
В самой обширной из рассматриваемых финно-угорских википе-
дий, горно-марийской (5 110 статей), мы видим смешанный случай в пла-
не «естественности» и «неестественности» наполнения верхней части
частотного списка:
Таблица 7. Первый десяток из частотного списка
словоформ википедии на горно-марийском языке
№
Словоформа
Перевод/значение
Встречаемость
1
Ин
“года” (род. падеж)
3694
2
дӓ
“и; а”
3351
3
эдем
“человек”
2606
4
ӹлен
“жил”
2173
К оценке Википедии как лингвистического источника…
317
№
Словоформа
Перевод/значение
Встречаемость
5
тӹштӹ
“там”
2053
6
гӹц
“из; от; через; по”
1441
7
доно
“с, при помощи”
1402
8
пырышы
“вошедший”
1347
9
йыхыш
“в род”
1263
10
ӹдӹрӓмӓш
“женский”
1152
С одной стороны, слова дӓ, тӹштӹ, гӹц, доно вполне могли бы оказать-
ся на первых позициях в частотном словаре горно-марийского языка, со-
ставленном на материале сбалансированного корпуса. С другой стороны,
в этом перечне присутствуют и слова, обладающие специфически высокой
именно для горно-марийской википедии частотностью. К таким можно
отнести форму род. п. слова со значением “год” (ин), слова со значением
“человек” (эдем), “жить” (ӹлен), “женский” (ӹдӹрӓмӓш), причастие пы-
рышы (“вошедший”). Присутствие в этом списке существительного йы-
хыш, означающего “в род” (т. е. слова со значением “род”, представленного
в одной из падежных форм) имеет особое объяснение, которое мы дадим
ниже. В верхней части извлеченных из Википедии и ранжированных по ча-
стотности лексических перечней на финно-угорских языках вообще часто
встречаются слова со значением “род”, “категория”, “семья”.
В лугово-восточном марийском (3 814 статьи) мы видим приблизи-
тельно ту же картину.
Таблица 8. Первый десяток из частотного списка
словоформ википедии на лугово-восточном марийском языке
№
Словоформа
Перевод/значение
Встречаемость
1
да
“и; а”
2808
2
марий
“мариец”
2270
3
дене
“с; от, из-за; по”
2243
4
ийыште
“в году”
1566
5
гыч
“из; от; через; по”
1559
6
тыгак
“так”
1360
7
ий
“год”
1205
8
лийын
“будучи; из-за”
1157
9
ончо
“смотри”
1092
Трудно ожидать от википедии на русском языке, что на второй позиции
по частотности в ней окажется слово «русский» (и выше мы убедились,
что в русской википедии ничего подобного не происходит). Зато форма
от слова со значением “год” (ийыште) говорит о некотором лексическом
единстве жанра русской и горно-марийской википедии. Однако сомни-
тельно, чтобы ончо “смотри” (аналог русского «см.») попало бы на та-
кую высокую позицию в какой-нибудь более развитой википедии. То,
318
Б. В. Орехов, К. Ю. Решетников
что это слово, пусть и частотное, но не самое частотное, находится так
высоко, можно считать одним из признаков неразвитости википедии:
если бы контент был более равномерным и богатым, это слово ушло бы
далеко вниз.
В коми-зырянском (3 971 статья), опять же, встречаются слова
со значением “род, порода”, “принадлежащий к роду”, а также обязатель-
ное “год”.
Таблица 9. Первый десяток из частотного списка
словоформ википедии на коми-зырянском языке
№
Словоформа
Перевод/значение
Встречаемость
1 да
“и; но; так как”
2781
2 коми
“коми”
1328
3 кыв
“язык, речь”
1325
4 км
“километр”
1058
5 тайö
“этот, это”
917
6 во
“год”
916
7 И
“и”
628
8 воын
“в году”
606
9 увтыр
“род, порода”
551
10 котырса
“принадлежащий
к роду, к семье”
543
Частотный список словоформ коми-пермяцкой википедии (3 427 статей)
также во многом схож с уже приведенными. Как и в других википедиях
на языках народов России, в верхней части перечня доминируют служеб-
ные слова.
Таблица 10. Первый десяток из частотного списка
словоформ википедии на коми-пермяцком языке
№
Словоформа
Перевод/значение
Встречаемость
1
да
“и”
2470
2
коми
“коми”
1380
3
котырись
“из рода, из семьи”
1243
4
вид
“вид”
1226
5
пантасьӧ
“встречается”
1130
6
район
“район”
1070
7
и
“и”
818
8
увтыр
“род, порода”
779
9
морт
“человек”
709
10
кыв
“язык, речь”
660
В эрзя-мордовский википедии (1 582 статьи) сходная ситуация. Здесь
доминируют слова, входящие в состав ссылок на другие статьи или
группы статей (категории) википедии («см.» и «также» из выражения
«см. также»).
К оценке Википедии как лингвистического источника…
319
Таблица 11. Первый десяток из частотного списка
словоформ википедии на эрзя-мордовском языке
№
Словоформа
Перевод/значение
Встречаемость
1
Истяжо
“также”
1470
2
категория
“категория”
1453
3
Вн
“смотри”, “см.”
(ваномс “смотреть”)
1452
4
Чи
“день”
1121
5
Ды
“и; но”
898
6
Ие
“год”
770
7
Иенть
“года” (род. падеж)
742
8
покшчить
“праздники”
729
9
Те
“этот”
545
10
Ульнесь
“был”
502
В мокша-мордовской википедии (1 154 статьи) выборка выглядит наи-
более экстравагантно. Хотя наверху списка находятся вполне законные
для этой позиции служебные слова, но уже с третьей строчки начинаются
странные для частотного перечня слова ботанической тематики.
Таблица 12. Первый десяток из частотного списка
словоформ википедии на мокша-мордовском языке
№
Словоформа
Перевод/значение
Встречаемость
1
Ди
“и”
514
2
И
“и”
474
3
тъналста
“из семьи”
385
4
касыкссь
“растение”
376
5
Панчф
“цветок”
361
6
орхидея
“орхидея”
358
7
мокшень
“мокшанский”
328
8
васьфневихть
“встречается”
250
9
кизоня
“в году”
248
10
Сонь
“его, ее”
241
Разгадка проста: аналогично тому, как в вышеприведенных тюрк-
ских википедиях «ботозаливки» делаются с помощью данных Госу-
дарственного водного реестра, в мордовских разделах автоматически
создаются статьи о цветах. Едва ли не большая часть эрзянской и мок-
шанской википедий состоит из статей про растения, прежде всего про
многолетние травянистые растения из семейства орхидных. Статьи
ботанической тематики составляют преобладающий процент раздела
на мордовских языках, и именно с этим связана высокая частотность
слов со значением “род, семья, порода”, которые следует отнести
к терминологии классификации видов. Мы предлагаем называть этот
феномен «синдромом орхидеи».
320
Б. В. Орехов, К. Ю. Решетников
Таким образом, мы обнаруживаем в википедиях на региональных
языках России большое количество коротких статей-заготовок, создан-
ных роботами и не наполненных текстами, которые были бы написаны
людьми. В таких заготовках большую роль играют слова-ссылки (вроде
«см. также...») и тематическая лексика из той области, к которой отно-
сятся статьи. Чтобы учесть этот аспект, мы посчитали среднюю длину
статьи в словах для каждой из рассматриваемых википедий. Получились
следующие данные:
Таблица 13. Средняя длина статьи
для разных википедий
Википедия
Средняя длина
статьи в словах
русская
184.47
татарская
58.47
башкирская
56.84
горно-марийская
36.74
лугово-марийская
47.43
коми-зырянская
29.58
коми-пермяцкая
35.45
эрзя-мордовская
34.46
мокша-мордовская
34.90
Из приведенных сведений видно, что развитая википедия с большой
средней длиной статьи дает более качественные тексты, которые можно
было бы использовать для лингвистических исследований.
Это один из возможных маркеров релевантности википедии, хотя
релевантность в целом должна оцениваться по целому ряду признаков.
Как следует из сказанного выше, одним из важных критериев является
степень тематической сбалансированности. Если в том или ином нацио-
нальном разделе Википедии более или менее пропорционально представ-
лены разные тематические категории (подобно тому, как это имеет место
в русской википедии), то релевантность такого ресурса можно оценить
как высокую. Отсутствие больших статистических перекосов в употре-
блении лексики и относительное лексико-статистическое сходство с не-
энциклопедическим корпусом демонстрируется адекватностью соответ-
ствующего частотного списка.
В свою очередь, вышеназванные качества того или иного нацио-
нального раздела Википедии, обуславливающие степень его лингви-
стической релевантности, зависят от социального бэкграунда и условий
создания этого раздела. Ключевую роль играют такие факторы, как боль-
шое количество активных пользователей и присутствие независимых
активистов-аналитиков, которые могут выполнять редакторские функции,
К оценке Википедии как лингвистического источника…
321
противодействуя как автоматическому порождению статей, так и необо-
снованному доминированию какой-либо одной тематики.
Национально-региональные википедии — по крайней мере, те
из них, которые были рассмотрены здесь, — пока что создаются, по всей
видимости, в основном небольшими сообществами энтузиастов, и пото-
му в отношении этих википедий отсутствует практика массового редак-
тирования и многостороннего взаимоконтроля. Однако вполне возможно,
что со временем ситуация изменится, и усилия авторов, культивирующих
национальные языки России в интернете, приведут к созданию более
адекватных энциклопедических разделов, которые смогут служить до-
статочно релевантным лингвистическим источником.
Литература
Ляшевская О. Н., Шаров С. А. Частотный словарь современного русского языка (на материа-
ле Национального корпуса русского языка). М., 2009.
Сиразитдинов З. А. Частотный словарь башкирского языка. Т. 1 (наука). Уфа, 1997.
Авторы сборника
Ахапкина Яна Эмильевна
Национальный исследовательский университет «Высшая школа
экономики», г. Москва
Бердичевский Александр Сергеевич
Университет Тромсе — Норвежский арктический университет
Бонч-Осмоловская Анастасия Александровна
Национальный исследовательский университет «Высшая школа
экономики», г. Москва
Буйлова Надежда Николаевна
Национальный исследовательский университет «Высшая школа
экономики», г. Москва
Выналек Елена Александровна
Башкирский государственный педагогический университет им. М. Ак-
муллы, г. Уфа.
Галямина Юлия Евгеньевна
Московский государственный университет им. М. В. Ломоносова
Геккина Елена Николаевна
Институт лингвистических исследований Российской академии
наук, г. Санкт-Петербург
Занадворова Анна Владимировна
Институт русского языка им. В. В. Виноградова Российской акаде-
мии наук, г. Москва
Зевахина Наталья Александровна
Национальный исследовательский университет «Высшая школа
экономики», г. Москва
Иомдин Борис Леонидович
Институт русского языка им. В. В. Виноградова Российской акаде-
мии наук; Национальный исследовательский университет «Высшая
школа экономики», г. Москва
324
Авторы сборника
Иткин Илья Борисович
Институт востоковедения Российской академии наук; школа «Муми-
Тролль»; Национальный исследовательский университет «Высшая
школа экономики», г. Москва
Кувшинская Юлия Михайловна
Национальный исследовательский университет «Высшая школа
экономики», г. Москва
Летучий Александр Борисович
Национальный исследовательский университет «Высшая школа
экономики»; Институт русского языка им. В. В. Виноградова Рос-
сийской академии наук, г. Москва;
Ляшевская Ольга Николаевна
Национальный исследовательский университет «Высшая школа
экономики»; Институт русского языка им. В. В. Виноградова Рос-
сийской академии наук, г. Москва
Магомедова Варвара Дмитриевна
Санкт-Петербургский государственный университет
Орехов Борис Валерьевич
Национальный исследовательский университет «Высшая школа
экономики», г. Москва
Оскольская Софья Алексеевна
Институт лингвистических исследований Российской академии
наук, г. Санкт-Петербург
Пенская Елена Наумовна
Национальный исследовательский университет «Высшая школа
экономики», г. Москва
Переверзева Светлана Игоревна
Российский государственный гуманитарный университет, г. Мо-
сква
Плисецкая Анна Дмитриевна
Национальный исследовательский университет «Высшая школа
экономики», г. Москва
Резникова Татьяна Исидоровна
Национальный исследовательский университет «Высшая школа
экономики», г. Москва
Авторы сборника
325
Решетников Кирилл Юрьевич
Институт языкознания Российской академии наук, г. Москва
Северская Ольга Игоревна
Институт русского языка им. В. В. Виноградова Российской акаде-
мии наук, г. Москва
Слюсарь Наталья Анатольевна
Санкт-Петербургский государственный университет
Таратынов Павел Алексеевич
Национальный исследовательский университет «Высшая школа
экономики», г. Москва
Худякова Мария Викторовна
Национальный исследовательский университет «Высшая школа
экономики», г. Москва
Научное издание
СОВРЕМЕННЫЙ РУССКИЙ ЯЗЫК В ИНТЕРНЕТЕ
Редактор
Я. Э. Ахапкина
Корректоры
Ю. Е. Галямина, С. С. Джакупова
Художественное оформление обложки
Надя Плунгян
Верстка
С. С. Белоусов
Подписано в печать 17.03.2014. Формат 60×90
1
/
16
.
Бумага офсетная № 1. Печать офсетная. Гарнитура Таймс.
Усл. п. л. 20,5. Тираж 500. Заказ №
Издательство «Языки славянской культуры».
№ госрегистрации 1037739918449.
Phone: +7 495 959-52-60 E-mail: lrc.phouse@gmail.com
Site: http://www.lrc-press.ru, http://www.lrc-lib.ru
Оптовая и розничная реализация — магазин «Гнозис».
117342, Москва, ул. Бутлерова, 17Б, офис 313
Тел.: 8 (499) 793-57-01, e-mail: gnosis@pochta.ru
Костюшин Павел Юрьевич (с 10 до 18 ч.)
Достарыңызбен бөлісу: |