Книга публикуется под лицензией Creative Commons cc-by-nd печатается по решению ученого совета



Pdf көрінісі
бет27/28
Дата02.02.2017
өлшемі3,41 Mb.
#3238
түріКнига
1   ...   20   21   22   23   24   25   26   27   28
часть запроса состоит в утверждении, что существует контент, обладающий 
определенными признаками. Иллокутивная (невыражаемая) часть запроса 
состоит в директиве к поисковой системе выдать этот контент.
Собственно языковое выражение запроса, объединяющее его локу-
тивное и иллокутивное содержание, мы будем называть интентом. Ас-
сертивную часть запроса будем называть контентной пропозицией.
Максимы Грайса
Принцип кооперации, сформулированный Полом Грайсом [Грайс 1985], 
имеет  в  презумпции  обоюдное  искреннее  стремление  коммуникантов 
к успеху их коммуникации: участники диалога знают об интересах друг 
друга и предполагают, что их интересы совпадают. Эта презумпция безу-
словно верна и для ситуации веб-запроса: главный интерес пользователя 
состоит в том, чтобы получить максимально точный ответ на свой запрос, 
«интерес» поисковой системы — такой ответ предоставить. Следуя прин-
ципу кооперации, пользователь строит свой запрос в соответствии с мак-
симами Грайса: максимой количества (не говорить меньше, чем требуется, 
не говорить больше, чем требуется), максимой релевантности, максимой 
ясности (избегать двусмысленности).
Как будет показано ниже, структура запроса может быть представ-
лена в виде фасетов с заполненными или незаполненными слотами. В об-
щем случае заполнение или пропуск слота, или, иначе говоря, экспликация 
характеристик контента, могут быть объяснены именно на уровне максим 
Грайса:  говорящий  сообщает  только  то,  что  действительно  необходимо 
для соблюдения условия релевантности и однозначности сообщения.
Понятие референтности
Референциальная соотнесенность контентной пропозиции является весь-
ма  важным  свойством  для  понимания  природы  высказывания-запроса. 

300 
А. А. Бонч-Осмоловская
Вопрос  о  том,  является  ли  контент, — например,  электронная  статья, 
сайт  интернет-магазина,  файлообменник,  каталог  ссылок,  социальная 
сеть, — объектом действительности материального мира, лежит скорее 
в плоскости философии. Однако важно, что интенты пользователя могут 
быть  обращены  к  некоторому  «единственному»,  конкретному  контенту, 
существующему,  тем  не  менее,  во  множестве  ипостасей  электронного 
представления  и  соотносящемуся  с  неопределенным  и  нереферентным 
множеством  реальных  объектов.  Например,  пользователя  могут  интере-
совать часы работы конкретного учреждения:
(1) 
часы работы сбербанка в подольске
Пользователь ожидает получить в качестве ответа информацию именно 
про  часы  работы  этого  учреждения,  при  этом  ему  совершенно  не  важ-
но,  на  каких  и  на  скольких  сайтах  этот  контент  размещен.  Не  имеется 
в виду и какой-то конкретный банк из множества сбербанков в Подольске. 
Важно лишь то, что пользователь знает совершенно определенно, какую 
информацию  он  хочет  получить,  и  сам  формулирует  ее  условия  истин-
ности, а они в данном случае напрямую связаны с релевантностью выда-
чи, т. е. с успехом коммуникации. Такой тип интентов мы будем называть 
референтными, отдавая себе отчет в том, что в данном случае термин 
«референция» используется здесь не вполне традиционно.
Другой тип интентов — те, в которых пользователь запрашивает ин-
формацию про генерализованный класс объектов:
(2) 
шумоизоляция автомобиля
Их мы будем называть нереферентными.
Как будет показано ниже, референтные и нереферентные интенты, 
как правило, связаны с разными морфо-синтаксическими структурами.
Структура запроса
Структурные элементы запроса
В работе [Li 2010] был предложен анализ составляющих элементов запро-
са. Li предлагает выделять в запросе два компонента: intent head и intent 
modifier. Предполагается, что каждый запрос соотносится с определенным 
онтологическим  классом  объектов  (в  статье — с  семантическим  концеп-
том): ФИЛЬМЫ, ЛЕКАРСТВА, ПРОДУКТЫ и т. д. Тогда часть intent head 
является незаполненным атрибутом соответствующего класса, и его запол-
нение как раз и является целью запроса. Так, в запросе «alice in worderland 
2010 cast» часть cast определяется как intent head. Все объекты типа Movie 

Кормить свинью online бесплатно: язык запросов… 
301
имеют  атрибут cast.  Директивой  запроса  является  получение  значения 
этого атрибута. Li отмечает, что часто intent head остается невыраженным, 
а это значит, что запрос относится к дефолтной информации общего харак-
тера. Напротив, компонент intent modifier, — это уже заполненный атрибут 
той же категории. Например, в приведенном выше примере запроса содер-
жатся значения атрибутов название и год. Каждый класс может иметь свои 
списки атрибутов, функционирующих как intent modifier.
На наш взгляд, предложенный в [Li 2010] анализ недостаточен для 
того,  чтобы  объяснить  особенности  синтаксиса  и  семантики  запросов, 
по крайней мере, на русском материале. Поэтому мы предлагаем более 
сложную структуру. При этом мы отталкиваемся от сформулированной 
в [Li 2010] идеи  соотнесения  контентной  пропозиции  с  определенным 
онтологическим  классом  объектов  (cat)  и  зависимости  от  этого  класса 
списка  возможных  атрибутов.  Ключевым  (однако  не  всегда  эксплицит-
но выражаемым) элементом контентной пропозиции является собствен-
но обозначение категории (класса) рассматриваемых объектов (headcat). 
Наиболее  часто  встречающийся  атрибут  большинства  категорий — это 
название объекта (name). В частности, наличие атрибута name отличает 
референтные запросы от нереферентных.
Приведем ниже примеры запросов с выраженными составляющими 
headcat и name:
(3) 
компания ан-реал
(4) 
охота на лис фильм
(5) 
подшипник 7345 RB
Схематически  примеры (3–5) можно  было  бы  представить  следующим 
образом:
(6) 
[
intent
[
cat
[
headcat
компания] [
name
ан-реал]]]
(7) 
[
intent
[
cat
[
name
охота на лис][
headcat
фильм]]
(8) 
[
intent
[
cat
 [
headcat
подшипник][
name
7345 RB]]]
Кроме атрибута name, в контентной пропозиции могут содержаться и дру-
гие  атрибуты  основной  категории,  имеющие  конкретное  лексическое 
наполнение  (значение  атрибута)  или  же  выраженные  с  помощью  обоб-
щенного  названия  атрибута  (незаполненный  атрибут).  Так,  часто  встре-
чающимися атрибутами разных категорий являются место (place) и дата 
(date) , см. примеры ниже с прилагаемыми схемами разбора:
(9) 
изумрудный город пенза
 
[
intent
[
cat
[
name
изумрудный город][
place
пенза]]]
(10)  выставка кошек петербург 2009
 
[
intent
[
cat
[
name
выставка кошек][
place
петербург][
date
2009]]]

302 
А. А. Бонч-Осмоловская
Атрибутный состав запроса определяется экстралингвистическими знания-
ми пользователя о существенных свойствах категории. Атрибут, находящий-
ся в фокусе запроса (т. е. вводящий ту часть контента, на которую направлен 
директив запроса ) остается незаполненным. В примере 11 не заполнен атри-
бут автор. В примере 12 заполнен атрибут место, но не заполнен телефон:
(11)  приходите в мой дом автор
 
[
intent
[
cat
[
name
приходите в мой дом][
author
 ]]]
(12)  мосэнергосбыт ювао телефон
 
[
intent
[
cat
[
name 
мосэнергосбыт][
place
 ювао][
tel
]]]
Наконец,  необходимо  определить  еще  два  типа  семантических  состав-
ляющих  контентной  пропозиции  запроса.  Во-первых,  это  рестрикторы 
(restr), функция которых состоит в том, чтобы специфицировать подкласс 
основной категории. Рестрикторы определяют вершину категории и вхо-
дят с ней в одну составляющую:
(13)  портальная автомойка для грузовых машин
 
[
intent
[
cat
[[
restr1
портальная]
headcat
автомойка[
restr2
для грузовых машин]]]
(14)  игры с хомяками
 
[
intent
[
cat
[
headcat
игры[
restr
с хомяками]]]
Во-вторых,  важным  элементом  запроса  является  спецификация  формата 
контента, определяющая возможность специального действия пользователя, 
направленного на получение контента, и являющаяся по сути модификато-
ром интента (im). Иначе говоря, в контентную пропозицию, кроме указания 
на  категориальную  принадлежность  контента  и  заполненность  или  неза-
полненность ряда атрибутов этой категории, входит также и сообщение, что 
контент должен быть такого формата, чтобы было возможно совершить дей-
ствие P (например, скачатьсмотреть, слушать, заказать и т. д.). Интент-
ные модификаторы, как правило, используются в референтных интентах:
(15)  скачать стихотворение весна, студент, любовь
 
[
intent
[
im
 скачать[
cat
[
headcat
стихотворение][
name
 весна, студент, любовь]]]]
(16)  якитория заказать
 [[[[
name
 якитория]
cat
]
im
заказать]
intent
]
Иногда интентные модификаторы реализуются как инфинитив и ад-
верб (скачать бесплатно), более того, инфинитив может вовсе опускать-
ся (онлайн, без регистирации и т. д.):
(17)  совместимость знаков зодиака бесплатно
 [[[[[
theme
совместимость знаков зодиака]
cat
]
im
:бесплатно]intent]
(18)  американский оборотень в париже в хорошем качестве
 [[[[
name
 американский оборотень в париже]
cat
]
im
 в хорошем качестве]
intent
]

Кормить свинью online бесплатно: язык запросов… 
303
Структура запроса и грамматика языка
Подведем итог рассмотрения семантической структуры запроса и посмо-
трим, каким образом она соотносится с синтаксисом естественного язы-
ка. Итак, в контентной пропозиции могут быть выражены три основных 
типа семантических элементов:
вершина  категории  (
• 
headcategory),  определяющая,  к  какому  типу 
(онтологическому узлу) принадлежит контент,
атрибуты категории — свойства и отношения, свойственные контен-
• 
ту как представителю типа категории, имеющие эксплицитно выра-
женное значение или же, наоборот, находящиеся в фокусе запроса;
модификатор  интента,  определяющий  «форматные»  требования 
• 
к контенту: как именно пользователь хочет использовать контент.
Каждый  из  этих  элементов  является,  по  сути,  отдельной  пропозицией 
с невыраженными предикатами существования и принадлежности:
существует категория 
• 
Headcategory, которой принадлежит контент с;
существует  значение 
• 
х  атрибута  Atr  категории  Headcategory,  кото-
рому принадлежит контент с;
существует  формат  представления  контента 
• 
с,  модифицирующий 
базовый интент.
Каждый из этих элементов может быть выражен в соответствии с грамма-
тикой естественного языка в виде полных предикаций или, чаще, в виде 
свернутых  предикаций  (small-clause),  представленных  только  именной 
группой. Интентные модификаторы выражаются, как было сказано выше, 
глагольной группой, состоящей из инфинитива и / или адъюнкта.
Ключевое свойство языка запроса состоит в том, что семантические 
предикативные элементы могут оставаться не связанными между собой 
на синтаксическом уровне и выступать в виде отдельных мини-клауз. Со-
держательное единство интента обеспечивается его единой внутренней 
семантической структурой, определенной выше (см. раздел «Иллокутив-
ная сила запроса»). Таким образом, нарушение синтаксической связности 
не  является  для  носителей  признаком  грамматической  неправильности 
предложения,  порожденного  в  рамках  языка  запроса.  Рассмотрим  не-
сколько  примеров,  иллюстрирующих  описываемое  явление.  Почти  все 
эти примеры, кроме (19), содержат новые типы атрибутов, которые не об-
суждались раньше. Набор возможных атрибутов категории, как уже гово-
рилось, зависит от онтологических свойств категории:
(19)  Таганрог Гарантия кооператив
 
вместо: кооператив Гарантия в Таганроге
 
[
intent
[
cat
[
place
Таганрог][
name
Гарантия][
headcat
кооператив]]]

304 
А. А. Бонч-Осмоловская
(20)  коврижка рецепт
 
вместо: рецепт коврижки
 
[
intent
[
cat
 [
theme
коврижка][
headcat
рецепт]]
(21)  Зарубежный опыт управления качеством, ученые
 
вместо: ученые, работающие в области зарубежного опыта управления 
качеством
 
[
intent
[
cat
 [
activity
Зарубежный опыт управления качеством][
headcat
 ученые]]]
(22)  отзывы часный сектор г. Черноморское
 
вместо: отзывы о частном секторе в г.Черноморском
 
[
intent
[
cat
 [
headcat
отзывы] [
theme
частный сектор] [
place
г. Черноморское]]]
(23)  платеж из-за границы физ лицо
 
вместо: платеж из-за границы, совершенный физ лицом
 
[
intent
[
cat
 [
headcat
платеж из-за границы][
agent
физ лицо]]]
(24)  музыка скачать бесплатно
 
вместо: скачать музыку бесплатно
 
[
intent
[
cat
[
headcat
музыка]][
im
скачать бесплатно]]
Можно  предположить,  что  на  отсутствие  падежного  согласования 
влияют  следующие  факторы:  а)  слишком  сложные  (специальные) 
отношения  между  вершиной  категории  и  атрибутами;  б)  инверсия 
семантических  элементов  относительно  их  нормального  порядка 
в  синтаксически  правильном  предложении.  Чем  более  лексически 
предопределенными (тесными) являются отношения между вершиной 
категории и атрибутами, тем более естественным является выражение 
их с помощью синтаксиса. Так, аналог примера 20 встречается в виде 
нормальной  именной  группы — рецепт  окрошки,  рецепт  шашлыка
Значение категории оказывается слишком слабо определено без атри-
бута  темы,  более  того,  в  самом  значении  слова  рецепт  есть  валент-
ность  на  его  содержание.  Так  же  устроена  вершина  расписание,  она 
практически  не  встречается  без  объектного  генитивного  дополнения 
(расписание  электричек / поездов / вылетов).  Ср,  например,  предло-
жение (25), в  котором  синтаксические  отношения  выражены  только 
для  объектного  отношения  вершины  расписание,  но  разрушены  для 
других атрибутов:
(25)  Санкт-Петербург аэровлот расписание вылетов
 
вместо: расписание вылетов аэрофлота в Санкт-Петербурге
Еще один существенный фактор, влияющий на отсутствие синтаксиче-
ского оформления, — это инверсия. Базовым порядком является первая 
позиция  вершины  категории  в  контентной  пропозиции.  Если  группы 
атрибутов оказываются левее, то они, как правило, не имеют маркиро-
вания  зависимости  (падежом  или  предложной  конструкцией)  от  вер-
шины  категории  (см,  например,  предложения (19), (20), (24), (26)). 

Кормить свинью online бесплатно: язык запросов… 
305
Если  в  пропозиции  имеется  инфинитивный  интентный  модификатор 
(скачать),  то  при  сохранении  базового  порядка  слов  будет  сохранять-
ся и аккузативное управление (скачать музыку), но в случае инверсии 
допускается отсутствие маркирования зависимой ИГ (музыка скачать). 
Показательными  в  данном  случае  являются  примеры  типа (27), в  ко-
тором  атрибут  автора  в  препозиции  вершины  теряет  генитив,  но  сама 
вершина расположена после интентного инфинитива и поэтому сохра-
няет аккузатив:
(26)  настя кочеткова скачать песню ты для меня
 
вместо: скачать песню насти кочетковой ты для меня
Наконец, следует отметить, что сохранение нормального синтаксического 
оформления связано с нереферентностью запроса (см. раздел «Понятие 
референтности») — интент пользователя направлен не на один конкрет-
ный объект, а на множество объектов:
(27)  сруб деревянного дома
(28)  гостиницы в Ижевске
(29)  поздравление с днем рождения
(30)  Генотип мужчины
(31)  редкие записи песен Нирваны
Ситуативные контентные пропозиции
Существует ряд запросов, в которых пользователь не может отнести кон-
тент к типовой категории и определяет его через ситуацию: в данном слу-
чае можно говорить не о ключевых словах, но о «ключевой предикации». 
Заметим, что, как правило, содержательно такие запросы обычно связаны 
с неприятными ситуациями для пользователя:
(32)  Двигатель КИА Спектра стучит на холодную
(33)  пропала языковая панель после вируса csrsc
(34)  сгорел блок питания
При этом аналогом атрибутов выступают параметрические характеристи-
ки ситуации: параметр в фокусе запроса может оформляться с помощью 
нормального вопроса, как в (35–36), или же оставаться незаполненным, 
как в (37–38). В последнем случае, предикация получается семантически 
аномальной или незавершенной:
(35)  к чему снится стадо белок
(36)  как нужно кормить свинью
(37)  батарейка загрязняет кубометр
(38)  показатели которые получают в результате каких либо расчетов называют

306 
А. А. Бонч-Осмоловская
С помощью нормальной предикации может быть выражена не только вся 
категория целиком, но и один из ее параметров, как в (39–40):
(39)  любовь в большом городе спб где идет
(40)  г.Первоуральск проспект ильича 29, что там
Эмпирические данные
Для  сбора  эмпирических  данных  была  произведена  разметка  выборки, 
состоящей  из 1052 случайных  запросов.  Во-первых,  были  отмечены  те 
запросы, которые содержат в себе отклонения от стандарта русской грам-
матики, в частности, учитывалась инверсия относительно нейтрального 
порядка  слов,  отсутствие  падежного  маркирования,  отсутствие  предло-
га, эллипсис категориального слова (там, где это мешает семантической 
связности). Так, например, в (41) наблюдаются две инверсии, отсутству-
ют предлог и падежное маркирование зависимого существительного:
(41)  кирпич полнотелый гост (вместо: гост для полнотелого кирпича)
Следует  отметить,  что  далеко  не  всегда  мы  можем  выявить  отсутствие 
падежного  маркирования.  Например,  интентный  модификатор  скачать 
требует  винительного  падежа.  Однако  отсутствие  маркирования  вини-
тельным падежом может быть установлено только для существительных 
женского рода (музыка скачать), но не для мужского или среднего родов 
либо  для  несклоняемого  имени  (кино  скачать).  Кроме  того,  часто  в  за-
просах используются заимствования из английского (или других языков), 
которые в принципе не изменяются по падежам (paint.net скачать). Таким 
образом,  поскольку  мы  можем  ориентироваться  только  на  наличие  или 
отсутствие поверхностного маркирования, представленные ниже резуль-
таты носят предварительный характер.
Из 1053 запросов  могут  быть  отнесены  к  группе  «нормальных» 
809 (это  запросы,  которые  не  содержат  отклонений  от  стандартного 
русского  языка),  а 244 запроса  были  отмечены  как  «нестандартные». 
Тем не менее, надо учитывать, что по нашим критериям мы не можем 
оценить  качество  запросов,  состоящих  из  одного  слова  или  неделимо-
го словосочетания (например, в контакте) — ни инверсия, ни падеж-
ное маркирование зависимого, ни опущенный предлог в данном случае 
не  релевантны.  Если  отфильтровать  такого  рода  запросы,  то  доля  не-
стандратных  заметно  возрастет  и  будет  составлять  около  трети  от  об-
щей выборки. Ниже на диаграмме 1 представлены результаты разметки 
нестандартных запросов для всех запросов выборки и для подвыборки, 
не включающей в себя запросы из одного слова или неделимых слово-
сочетаний (многочленные запросы):

Кормить свинью online бесплатно: язык запросов… 
307
Диаграмма 1
Группа нестандартных запросов была размечена по признакам, характери-
зующим нарушения нормы. Ниже представлена таблица, иллюстрирующая 
каждый тип нарушения, примеры и пояснения. В последней колонке пред-
ставлены сведения о том, насколько часто встретилось каждое нарушение 
в процентном соотношении к общему числу запросов в группе.
Таблица 1. Типы нарушений в нестандартных запросах
нарушение
пример
стандартный
прототип
частотность
нарушения
инверсия
duck stories слова 
песни скачать
скачать слова 
песни duck stories
64%
нет маркирования 
зависимого
журнал Финансы 
телефон
телефон журнала 
Финансы
37%
пропущен предлог
детский ортодонт 
в мурманске
детский ортодонт 
в Мурманске
32%
нет сочинения
перила ограждения
перила 
и ограждения
3%
не выражена 
главная кате-
гория headcat
2
 
(в том случае, 
когда это нарушает 
синтаксическую 
связность)
гороскоп 
на куличках
гороскоп на сайте 
на куличках
30%
2
 В  случае,  когда  нарушение  связано  с  опущением  главной  категории,  отсутствие 
предлога и маркирования лексемы, которая должна была выражать эту категорию, не учи-
тывались. Так, в приведенном примере считалось только одно нарушение, а не три.

308 
А. А. Бонч-Осмоловская
В выборке запросов были также размечены референтные и нерефе-
рентные запросы. Была проверена выдвинутая выше гипотеза о том, что 
нестандартное  выражение  запроса  более  часто  встречается  с  референт-
ными запросами. Данные представлены в таблице ниже:
Таблица 2. Референтность запросов и нарушения структуры
нормальные
нестандартные
всего
референтные
452
162
614
нереферентные
357
82
439
всего
809
244
1053
Как  следует  из  таблицы,  вероятность  нестандартного  референтного  за-
проса в общем множестве запросов равна 0,26
p
=
162
614
=0,26
Вероятность  нестандартного  нереферентного  запроса  в  общем  множе-
стве запросов равна 0,19
p
=
82
439
=0, 19
С помощью теста на равенство вероятностей можно показать, что эти ве-
роятности не равны: их равенство является очень редким событием, ве-
роятность такого события равна 0,0035, что существенно ниже стандарт-
ного  уровня  ошибки  в 0,05, используемого  в  подобных  исследованиях. 
Таким образом, на основании представленных данных можно утверждать, 
что имеется, взаимосвязь между референтностью запроса и использова-
нием пользователем языковой подсистемы интернет-запросов.
Литература
Белов А. А., Волович М. М. Автоматическое распознавание тематики сверхкоротких текстов // 
Материалы международной конференции «Диалог-2007». М., 2007.
Грайс Г. П. Логика и речевое общение // Новое в зарубежной лингвистике. Вып. 16. 1985. 
С. 217–238.
Серль Д. Классификация иллокутивных актов // Новое в зарубежной лингвистике. Вып. 17. 
1986. С. 170–195.
Barr C., Jones R., Regelson M. The linguistic structure of English web-search queries // Proceed-
ings of the conference on empirical methods in natural language processing. Association 
for Computational Linguistics. 2008 . P. 1021–1030.
Grice H. P. Logic and conversation. Syntax and Semantics. Vol. 3. l975. P. 41–58.
Manshadi M., Li X. Semantic tagging of web search queries // Proceedings of the Joint Confer-
ence of the 47th Annual Meeting of the ACL and the 4th International Joint Conference 

Кормить свинью online бесплатно: язык запросов… 
309
on Natural Language Processing of the AFNLP. Association for Computational Linguistics. 
Volume 2. 2009. P. 861–869.
Li X. Understanding the semantic structure of noun phrase queries // Proceedings of the 48th An-
nual Meeting of the Association for Computational Linguistics. 2010. P. 1337–1345.
Pasca M., Van Durme B. What you seek is what you get: Extraction of class attributes from query 
logs // Proceedings of the 20th International Joint Conference on Artificial Intelligence 
(IJCAI-07). 2007. P. 2832–2837.
Searle J. R. A classification of illocutionary acts // Language in society. 5(01). 1976. P. 1–23. 

Б. В. Орехов, К. Ю. Решетников
К оценке Википедии 
как лингвистического источника: 
сравнительное исследование
1
В статье затрагивается один из главных практических вопросов корпус-
ной лингвистики — наличие / отсутствие лингвистически представитель-
ных оцифрованных текстов на том или ином языке. Очевидным «канди-
датом»  на  роль  релевантного  лингвистического  источника  оказывается 
Википедия
2
, в связи с чем проводится частотный анализ лексики русского 
раздела этого ресурса в сравнении с википедиями, написанными на не-
которых других языках РФ.
Ключевые слова: компьютерная обработка текста, частотный анализ 
лексики, Википедия
Специалисты,  занимающиеся  компьютерной  обработкой  текстов  на  есте-
ственном языке, сталкиваются с необходимостью подбора материалов для 
создания своих корпусов. У этой задачи много специфических сложностей, 
связанных с дороговизной оцифровки текстов, ограничениями, которые на-
кладывает система авторского права и др. Когда речь идет о больших пись-
менных  традициях,  представители  которых  уже  успели  перевести  в  элек-
тронную форму часть своего наследия (как это, например, уже произошло 
с  русской  культурой,  хорошо  представленной  в  интернете),  эти  трудности 
не  ощущаются  в  полной  мере,  потому  что  в  открытом  доступе  в  сети  ис-
следователь может найти большой массив текстов, пригодных для его задач. 
Википедия, на первый взгляд, представляет собой удобный ресурс для извле-
чения текстов, которые должны послужить материалом для лингвистическо-
го исследования. С одной стороны, это интернет-энциклопедия, основным 
принципом которой создатели провозгласили свободу распространения ин-
формации, поэтому тексты ее статей не охраняются авторским правом и с са-
мого  начала  перешли  во  всеобщее  пользование.  С  другой  стороны,  энци-
клопедия по своей сути содержит разностороннюю информацию и в идеале 
1
 Проект выполнен при поддержке Центра исследований интернета и общества РЭШ 
и Лаборатории исследования социальных отношений и многообразия общества РЭШ.
2
 «Википедия» пишется в статье с прописной буквы в том случае, если речь идет 
об интернет-энциклопедии и соответствующем портале в целом. Строчная буква использу-
ется для обозначения языковых разделов

К оценке Википедии как лингвистического источника… 
311
должна представлять тематически сбалансированный набор текстов. Сюда 
же  можно  добавить  предусмотренную  создателями  техническую  легкость, 
с которой все тексты Википедии можно извлечь и проанализировать. Осо-
бенно актуально наличие такого источника для тех языковых и письменных 
традиций,  в  случае  которых  оцифровка  текстов  пока  является  скорее  про-
ектом,  нежели  реализованной  программой.  К  таким  слабо  оцифрованным 
языкам можно отнести все языки народов России, из-за чего компьютерная 
лингвистика почти не имеет возможности работать с этими языками.
Цель  нашей  работы — с  помощью  простейших  лексико-статисти-
ческих методов проверить пригодность текстов википедий на некоторых 
языках народов России (включая русский) для использования их в каче-
стве лингвистического источника.
В  нашем  исследовании  мы  будем  оперировать  нестрогим  понятием 
«естественности»  частотного  распределения  словоформ  в  словаре,  состав-
ленном  на  основе  какого-то  текста  или  коллекции  текстов.  Суть  этого  по-
нятия  в  следующем.  И  из  общих  соображений,  и  из  практики  частотной 
лексикографии следует, что в текстах на языках флективного и агглютина-
тивного  строя  наиболее  частотными  оказываются  служебные  части  речи: 
союзы, предлоги, частицы, местоимения. Если корпус, на котором составлен 
частотный словарь, сбалансирован, т. е. включает в более-менее равном соот-
ношении тексты разной тематики и коммуникативной направленности (и та-
ким образом отражает соотношение, в котором естественный язык обычно 
фигурирует в жизни носителя), то полнозначная лексика появляется в таком 
словаре только в третьем-четвертом десятке (конкретные позиции будут за-
висеть от языка). Вот, например, первая десятка лемм из частотного словаря, 
составленного О. Н. Ляшевской и С. А. Шаровым на материале текстового 
фонда Национального корпуса русского языка [Ляшевская, Шаров 2009]:
Таблица 1. Первые десять лемм
из частотного словаря русского языка

Лемма


Достарыңызбен бөлісу:
1   ...   20   21   22   23   24   25   26   27   28




©emirsaba.org 2024
әкімшілігінің қараңыз

    Басты бет