часть запроса состоит в утверждении, что существует контент, обладающий
определенными признаками. Иллокутивная (невыражаемая) часть запроса
состоит в директиве к поисковой системе выдать этот контент.
Собственно языковое выражение запроса, объединяющее его локу-
тивное и иллокутивное содержание, мы будем называть интентом. Ас-
сертивную часть запроса будем называть контентной пропозицией.
Максимы Грайса
Принцип кооперации, сформулированный Полом Грайсом [Грайс 1985],
имеет в презумпции обоюдное искреннее стремление коммуникантов
к успеху их коммуникации: участники диалога знают об интересах друг
друга и предполагают, что их интересы совпадают. Эта презумпция безу-
словно верна и для ситуации веб-запроса: главный интерес пользователя
состоит в том, чтобы получить максимально точный ответ на свой запрос,
«интерес» поисковой системы — такой ответ предоставить. Следуя прин-
ципу кооперации, пользователь строит свой запрос в соответствии с мак-
симами Грайса: максимой количества (не говорить меньше, чем требуется,
не говорить больше, чем требуется), максимой релевантности, максимой
ясности (избегать двусмысленности).
Как будет показано ниже, структура запроса может быть представ-
лена в виде фасетов с заполненными или незаполненными слотами. В об-
щем случае заполнение или пропуск слота, или, иначе говоря, экспликация
характеристик контента, могут быть объяснены именно на уровне максим
Грайса: говорящий сообщает только то, что действительно необходимо
для соблюдения условия релевантности и однозначности сообщения.
Понятие референтности
Референциальная соотнесенность контентной пропозиции является весь-
ма важным свойством для понимания природы высказывания-запроса.
300
А. А. Бонч-Осмоловская
Вопрос о том, является ли контент, — например, электронная статья,
сайт интернет-магазина, файлообменник, каталог ссылок, социальная
сеть, — объектом действительности материального мира, лежит скорее
в плоскости философии. Однако важно, что интенты пользователя могут
быть обращены к некоторому «единственному», конкретному контенту,
существующему, тем не менее, во множестве ипостасей электронного
представления и соотносящемуся с неопределенным и нереферентным
множеством реальных объектов. Например, пользователя могут интере-
совать часы работы конкретного учреждения:
(1)
часы работы сбербанка в подольске
Пользователь ожидает получить в качестве ответа информацию именно
про часы работы этого учреждения, при этом ему совершенно не важ-
но, на каких и на скольких сайтах этот контент размещен. Не имеется
в виду и какой-то конкретный банк из множества сбербанков в Подольске.
Важно лишь то, что пользователь знает совершенно определенно, какую
информацию он хочет получить, и сам формулирует ее условия истин-
ности, а они в данном случае напрямую связаны с релевантностью выда-
чи, т. е. с успехом коммуникации. Такой тип интентов мы будем называть
референтными, отдавая себе отчет в том, что в данном случае термин
«референция» используется здесь не вполне традиционно.
Другой тип интентов — те, в которых пользователь запрашивает ин-
формацию про генерализованный класс объектов:
(2)
шумоизоляция автомобиля
Их мы будем называть нереферентными.
Как будет показано ниже, референтные и нереферентные интенты,
как правило, связаны с разными морфо-синтаксическими структурами.
Структура запроса
Структурные элементы запроса
В работе [Li 2010] был предложен анализ составляющих элементов запро-
са. Li предлагает выделять в запросе два компонента: intent head и intent
modifier. Предполагается, что каждый запрос соотносится с определенным
онтологическим классом объектов (в статье — с семантическим концеп-
том): ФИЛЬМЫ, ЛЕКАРСТВА, ПРОДУКТЫ и т. д. Тогда часть intent head
является незаполненным атрибутом соответствующего класса, и его запол-
нение как раз и является целью запроса. Так, в запросе «alice in worderland
2010 cast» часть cast определяется как intent head. Все объекты типа Movie
Кормить свинью online бесплатно: язык запросов…
301
имеют атрибут cast. Директивой запроса является получение значения
этого атрибута. Li отмечает, что часто intent head остается невыраженным,
а это значит, что запрос относится к дефолтной информации общего харак-
тера. Напротив, компонент intent modifier, — это уже заполненный атрибут
той же категории. Например, в приведенном выше примере запроса содер-
жатся значения атрибутов название и год. Каждый класс может иметь свои
списки атрибутов, функционирующих как intent modifier.
На наш взгляд, предложенный в [Li 2010] анализ недостаточен для
того, чтобы объяснить особенности синтаксиса и семантики запросов,
по крайней мере, на русском материале. Поэтому мы предлагаем более
сложную структуру. При этом мы отталкиваемся от сформулированной
в [Li 2010] идеи соотнесения контентной пропозиции с определенным
онтологическим классом объектов ( cat) и зависимости от этого класса
списка возможных атрибутов. Ключевым (однако не всегда эксплицит-
но выражаемым) элементом контентной пропозиции является собствен-
но обозначение категории (класса) рассматриваемых объектов ( headcat).
Наиболее часто встречающийся атрибут большинства категорий — это
название объекта ( name). В частности, наличие атрибута name отличает
референтные запросы от нереферентных.
Приведем ниже примеры запросов с выраженными составляющими
headcat и name:
(3)
компания ан-реал
(4)
охота на лис фильм
(5)
подшипник 7345 RB
Схематически примеры (3–5) можно было бы представить следующим
образом:
(6)
[
intent
[
cat
[
headcat
компания] [
name
ан-реал]]]
(7)
[
intent
[
cat
[
name
охота на лис][
headcat
фильм]]
(8)
[
intent
[
cat
[
headcat
подшипник][
name
7345 RB]]]
Кроме атрибута name, в контентной пропозиции могут содержаться и дру-
гие атрибуты основной категории, имеющие конкретное лексическое
наполнение (значение атрибута) или же выраженные с помощью обоб-
щенного названия атрибута (незаполненный атрибут). Так, часто встре-
чающимися атрибутами разных категорий являются место ( place) и дата
( date) , см. примеры ниже с прилагаемыми схемами разбора:
(9)
изумрудный город пенза
[
intent
[
cat
[
name
изумрудный город][
place
пенза]]]
(10) выставка кошек петербург 2009
[
intent
[
cat
[
name
выставка кошек][
place
петербург][
date
2009]]]
302
А. А. Бонч-Осмоловская
Атрибутный состав запроса определяется экстралингвистическими знания-
ми пользователя о существенных свойствах категории. Атрибут, находящий-
ся в фокусе запроса (т. е. вводящий ту часть контента, на которую направлен
директив запроса ) остается незаполненным. В примере 11 не заполнен атри-
бут автор. В примере 12 заполнен атрибут место, но не заполнен телефон:
(11) приходите в мой дом автор
[
intent
[
cat
[
name
приходите в мой дом][
author
]]]
(12) мосэнергосбыт ювао телефон
[
intent
[
cat
[
name
мосэнергосбыт][
place
ювао][
tel
]]]
Наконец, необходимо определить еще два типа семантических состав-
ляющих контентной пропозиции запроса. Во-первых, это рестрикторы
( restr), функция которых состоит в том, чтобы специфицировать подкласс
основной категории. Рестрикторы определяют вершину категории и вхо-
дят с ней в одну составляющую:
(13) портальная автомойка для грузовых машин
[
intent
[
cat
[[
restr1
портальная]
headcat
автомойка[
restr2
для грузовых машин]]]
(14) игры с хомяками
[
intent
[
cat
[
headcat
игры[
restr
с хомяками]]]
Во-вторых, важным элементом запроса является спецификация формата
контента, определяющая возможность специального действия пользователя,
направленного на получение контента, и являющаяся по сути модификато-
ром интента ( im). Иначе говоря, в контентную пропозицию, кроме указания
на категориальную принадлежность контента и заполненность или неза-
полненность ряда атрибутов этой категории, входит также и сообщение, что
контент должен быть такого формата, чтобы было возможно совершить дей-
ствие P (например, скачать, смотреть, слушать, заказать и т. д.). Интент-
ные модификаторы, как правило, используются в референтных интентах:
(15) скачать стихотворение весна, студент, любовь
[
intent
[
im
скачать[
cat
[
headcat
стихотворение][
name
весна, студент, любовь]]]]
(16) якитория заказать
[[[[
name
якитория]
cat
]
im
заказать]
intent
]
Иногда интентные модификаторы реализуются как инфинитив и ад-
верб ( скачать бесплатно), более того, инфинитив может вовсе опускать-
ся ( онлайн, без регистирации и т. д.):
(17) совместимость знаков зодиака бесплатно
[[[[[
theme
совместимость знаков зодиака]
cat
]
im
:бесплатно]intent]
(18) американский оборотень в париже в хорошем качестве
[[[[
name
американский оборотень в париже]
cat
]
im
в хорошем качестве]
intent
]
Кормить свинью online бесплатно: язык запросов…
303
Структура запроса и грамматика языка
Подведем итог рассмотрения семантической структуры запроса и посмо-
трим, каким образом она соотносится с синтаксисом естественного язы-
ка. Итак, в контентной пропозиции могут быть выражены три основных
типа семантических элементов:
вершина категории (
•
headcategory), определяющая, к какому типу
(онтологическому узлу) принадлежит контент,
атрибуты категории — свойства и отношения, свойственные контен-
•
ту как представителю типа категории, имеющие эксплицитно выра-
женное значение или же, наоборот, находящиеся в фокусе запроса;
модификатор интента, определяющий «форматные» требования
•
к контенту: как именно пользователь хочет использовать контент.
Каждый из этих элементов является, по сути, отдельной пропозицией
с невыраженными предикатами существования и принадлежности:
существует категория
•
Headcategory, которой принадлежит контент с;
существует значение
•
х атрибута Atr категории Headcategory, кото-
рому принадлежит контент с;
существует формат представления контента
•
с, модифицирующий
базовый интент.
Каждый из этих элементов может быть выражен в соответствии с грамма-
тикой естественного языка в виде полных предикаций или, чаще, в виде
свернутых предикаций (small-clause), представленных только именной
группой. Интентные модификаторы выражаются, как было сказано выше,
глагольной группой, состоящей из инфинитива и / или адъюнкта.
Ключевое свойство языка запроса состоит в том, что семантические
предикативные элементы могут оставаться не связанными между собой
на синтаксическом уровне и выступать в виде отдельных мини-клауз. Со-
держательное единство интента обеспечивается его единой внутренней
семантической структурой, определенной выше (см. раздел «Иллокутив-
ная сила запроса»). Таким образом, нарушение синтаксической связности
не является для носителей признаком грамматической неправильности
предложения, порожденного в рамках языка запроса. Рассмотрим не-
сколько примеров, иллюстрирующих описываемое явление. Почти все
эти примеры, кроме (19), содержат новые типы атрибутов, которые не об-
суждались раньше. Набор возможных атрибутов категории, как уже гово-
рилось, зависит от онтологических свойств категории:
(19) Таганрог Гарантия кооператив
вместо: кооператив Гарантия в Таганроге
[
intent
[
cat
[
place
Таганрог][
name
Гарантия][
headcat
кооператив]]]
304
А. А. Бонч-Осмоловская
(20) коврижка рецепт
вместо: рецепт коврижки
[
intent
[
cat
[
theme
коврижка][
headcat
рецепт]]
(21) Зарубежный опыт управления качеством, ученые
вместо: ученые, работающие в области зарубежного опыта управления
качеством
[
intent
[
cat
[
activity
Зарубежный опыт управления качеством][
headcat
ученые]]]
(22) отзывы часный сектор г. Черноморское
вместо: отзывы о частном секторе в г.Черноморском
[
intent
[
cat
[
headcat
отзывы] [
theme
частный сектор] [
place
г. Черноморское]]]
(23) платеж из-за границы физ лицо
вместо: платеж из-за границы, совершенный физ лицом
[
intent
[
cat
[
headcat
платеж из-за границы][
agent
физ лицо]]]
(24) музыка скачать бесплатно
вместо: скачать музыку бесплатно
[
intent
[
cat
[
headcat
музыка]][
im
скачать бесплатно]]
Можно предположить, что на отсутствие падежного согласования
влияют следующие факторы: а) слишком сложные (специальные)
отношения между вершиной категории и атрибутами; б) инверсия
семантических элементов относительно их нормального порядка
в синтаксически правильном предложении. Чем более лексически
предопределенными (тесными) являются отношения между вершиной
категории и атрибутами, тем более естественным является выражение
их с помощью синтаксиса. Так, аналог примера 20 встречается в виде
нормальной именной группы — рецепт окрошки, рецепт шашлыка.
Значение категории оказывается слишком слабо определено без атри-
бута темы, более того, в самом значении слова рецепт есть валент-
ность на его содержание. Так же устроена вершина расписание, она
практически не встречается без объектного генитивного дополнения
(расписание электричек / поездов / вылетов). Ср, например, предло-
жение (25), в котором синтаксические отношения выражены только
для объектного отношения вершины расписание, но разрушены для
других атрибутов:
(25) Санкт-Петербург аэровлот расписание вылетов
вместо: расписание вылетов аэрофлота в Санкт-Петербурге
Еще один существенный фактор, влияющий на отсутствие синтаксиче-
ского оформления, — это инверсия. Базовым порядком является первая
позиция вершины категории в контентной пропозиции. Если группы
атрибутов оказываются левее, то они, как правило, не имеют маркиро-
вания зависимости (падежом или предложной конструкцией) от вер-
шины категории (см, например, предложения (19), (20), (24), (26)).
Кормить свинью online бесплатно: язык запросов…
305
Если в пропозиции имеется инфинитивный интентный модификатор
( скачать), то при сохранении базового порядка слов будет сохранять-
ся и аккузативное управление ( скачать музыку), но в случае инверсии
допускается отсутствие маркирования зависимой ИГ ( музыка скачать).
Показательными в данном случае являются примеры типа (27), в ко-
тором атрибут автора в препозиции вершины теряет генитив, но сама
вершина расположена после интентного инфинитива и поэтому сохра-
няет аккузатив:
(26) настя кочеткова скачать песню ты для меня
вместо: скачать песню насти кочетковой ты для меня
Наконец, следует отметить, что сохранение нормального синтаксического
оформления связано с нереферентностью запроса (см. раздел «Понятие
референтности») — интент пользователя направлен не на один конкрет-
ный объект, а на множество объектов:
(27) сруб деревянного дома
(28) гостиницы в Ижевске
(29) поздравление с днем рождения
(30) Генотип мужчины
(31) редкие записи песен Нирваны
Ситуативные контентные пропозиции
Существует ряд запросов, в которых пользователь не может отнести кон-
тент к типовой категории и определяет его через ситуацию: в данном слу-
чае можно говорить не о ключевых словах, но о «ключевой предикации».
Заметим, что, как правило, содержательно такие запросы обычно связаны
с неприятными ситуациями для пользователя:
(32) Двигатель КИА Спектра стучит на холодную
(33) пропала языковая панель после вируса csrsc
(34) сгорел блок питания
При этом аналогом атрибутов выступают параметрические характеристи-
ки ситуации: параметр в фокусе запроса может оформляться с помощью
нормального вопроса, как в (35–36), или же оставаться незаполненным,
как в (37–38). В последнем случае, предикация получается семантически
аномальной или незавершенной:
(35) к чему снится стадо белок
(36) как нужно кормить свинью
(37) батарейка загрязняет кубометр
(38) показатели которые получают в результате каких либо расчетов называют
306
А. А. Бонч-Осмоловская
С помощью нормальной предикации может быть выражена не только вся
категория целиком, но и один из ее параметров, как в (39–40):
(39) любовь в большом городе спб где идет
(40) г.Первоуральск проспект ильича 29, что там
Эмпирические данные
Для сбора эмпирических данных была произведена разметка выборки,
состоящей из 1052 случайных запросов. Во-первых, были отмечены те
запросы, которые содержат в себе отклонения от стандарта русской грам-
матики, в частности, учитывалась инверсия относительно нейтрального
порядка слов, отсутствие падежного маркирования, отсутствие предло-
га, эллипсис категориального слова (там, где это мешает семантической
связности). Так, например, в (41) наблюдаются две инверсии, отсутству-
ют предлог и падежное маркирование зависимого существительного:
(41) кирпич полнотелый гост (вместо: гост для полнотелого кирпича)
Следует отметить, что далеко не всегда мы можем выявить отсутствие
падежного маркирования. Например, интентный модификатор скачать
требует винительного падежа. Однако отсутствие маркирования вини-
тельным падежом может быть установлено только для существительных
женского рода (музыка скачать), но не для мужского или среднего родов
либо для несклоняемого имени (кино скачать). Кроме того, часто в за-
просах используются заимствования из английского (или других языков),
которые в принципе не изменяются по падежам (paint.net скачать). Таким
образом, поскольку мы можем ориентироваться только на наличие или
отсутствие поверхностного маркирования, представленные ниже резуль-
таты носят предварительный характер.
Из 1053 запросов могут быть отнесены к группе «нормальных»
809 (это запросы, которые не содержат отклонений от стандартного
русского языка), а 244 запроса были отмечены как «нестандартные».
Тем не менее, надо учитывать, что по нашим критериям мы не можем
оценить качество запросов, состоящих из одного слова или неделимо-
го словосочетания (например, в контакте) — ни инверсия, ни падеж-
ное маркирование зависимого, ни опущенный предлог в данном случае
не релевантны. Если отфильтровать такого рода запросы, то доля не-
стандратных заметно возрастет и будет составлять около трети от об-
щей выборки. Ниже на диаграмме 1 представлены результаты разметки
нестандартных запросов для всех запросов выборки и для подвыборки,
не включающей в себя запросы из одного слова или неделимых слово-
сочетаний (многочленные запросы):
Кормить свинью online бесплатно: язык запросов…
307
Диаграмма 1
Группа нестандартных запросов была размечена по признакам, характери-
зующим нарушения нормы. Ниже представлена таблица, иллюстрирующая
каждый тип нарушения, примеры и пояснения. В последней колонке пред-
ставлены сведения о том, насколько часто встретилось каждое нарушение
в процентном соотношении к общему числу запросов в группе.
Таблица 1. Типы нарушений в нестандартных запросах
нарушение
пример
стандартный
прототип
частотность
нарушения
инверсия
duck stories слова
песни скачать
скачать слова
песни duck stories
64%
нет маркирования
зависимого
журнал Финансы
телефон
телефон журнала
Финансы
37%
пропущен предлог
детский ортодонт
в мурманске
детский ортодонт
в Мурманске
32%
нет сочинения
перила ограждения
перила
и ограждения
3%
не выражена
главная кате-
гория headcat
2
(в том случае,
когда это нарушает
синтаксическую
связность)
гороскоп
на куличках
гороскоп на сайте
на куличках
30%
2
В случае, когда нарушение связано с опущением главной категории, отсутствие
предлога и маркирования лексемы, которая должна была выражать эту категорию, не учи-
тывались. Так, в приведенном примере считалось только одно нарушение, а не три.
308
А. А. Бонч-Осмоловская
В выборке запросов были также размечены референтные и нерефе-
рентные запросы. Была проверена выдвинутая выше гипотеза о том, что
нестандартное выражение запроса более часто встречается с референт-
ными запросами. Данные представлены в таблице ниже:
Таблица 2. Референтность запросов и нарушения структуры
нормальные
нестандартные
всего
референтные
452
162
614
нереферентные
357
82
439
всего
809
244
1053
Как следует из таблицы, вероятность нестандартного референтного за-
проса в общем множестве запросов равна 0,26
p
=
162
614
=0,26
Вероятность нестандартного нереферентного запроса в общем множе-
стве запросов равна 0,19
p
=
82
439
=0, 19
С помощью теста на равенство вероятностей можно показать, что эти ве-
роятности не равны: их равенство является очень редким событием, ве-
роятность такого события равна 0,0035, что существенно ниже стандарт-
ного уровня ошибки в 0,05, используемого в подобных исследованиях.
Таким образом, на основании представленных данных можно утверждать,
что имеется, взаимосвязь между референтностью запроса и использова-
нием пользователем языковой подсистемы интернет-запросов.
Литература
Белов А. А., Волович М. М. Автоматическое распознавание тематики сверхкоротких текстов //
Материалы международной конференции «Диалог-2007». М., 2007.
Грайс Г. П. Логика и речевое общение // Новое в зарубежной лингвистике. Вып. 16. 1985.
С. 217–238.
Серль Д. Классификация иллокутивных актов // Новое в зарубежной лингвистике. Вып. 17.
1986. С. 170–195.
Barr C., Jones R., Regelson M. The linguistic structure of English web-search queries // Proceed-
ings of the conference on empirical methods in natural language processing. Association
for Computational Linguistics. 2008 . P. 1021–1030.
Grice H. P. Logic and conversation. Syntax and Semantics. Vol. 3. l975. P. 41–58.
Manshadi M., Li X. Semantic tagging of web search queries // Proceedings of the Joint Confer-
ence of the 47th Annual Meeting of the ACL and the 4th International Joint Conference
Кормить свинью online бесплатно: язык запросов…
309
on Natural Language Processing of the AFNLP. Association for Computational Linguistics.
Volume 2. 2009. P. 861–869.
Li X. Understanding the semantic structure of noun phrase queries // Proceedings of the 48th An-
nual Meeting of the Association for Computational Linguistics. 2010. P. 1337–1345.
Pasca M., Van Durme B. What you seek is what you get: Extraction of class attributes from query
logs // Proceedings of the 20th International Joint Conference on Artificial Intelligence
(IJCAI-07). 2007. P. 2832–2837.
Searle J. R. A classification of illocutionary acts // Language in society. 5(01). 1976. P. 1–23.
Б. В. Орехов, К. Ю. Решетников
К оценке Википедии
как лингвистического источника:
сравнительное исследование
1
В статье затрагивается один из главных практических вопросов корпус-
ной лингвистики — наличие / отсутствие лингвистически представитель-
ных оцифрованных текстов на том или ином языке. Очевидным «канди-
датом» на роль релевантного лингвистического источника оказывается
Википедия
2
, в связи с чем проводится частотный анализ лексики русского
раздела этого ресурса в сравнении с википедиями, написанными на не-
которых других языках РФ.
Ключевые слова: компьютерная обработка текста, частотный анализ
лексики, Википедия
Специалисты, занимающиеся компьютерной обработкой текстов на есте-
ственном языке, сталкиваются с необходимостью подбора материалов для
создания своих корпусов. У этой задачи много специфических сложностей,
связанных с дороговизной оцифровки текстов, ограничениями, которые на-
кладывает система авторского права и др. Когда речь идет о больших пись-
менных традициях, представители которых уже успели перевести в элек-
тронную форму часть своего наследия (как это, например, уже произошло
с русской культурой, хорошо представленной в интернете), эти трудности
не ощущаются в полной мере, потому что в открытом доступе в сети ис-
следователь может найти большой массив текстов, пригодных для его задач.
Википедия, на первый взгляд, представляет собой удобный ресурс для извле-
чения текстов, которые должны послужить материалом для лингвистическо-
го исследования. С одной стороны, это интернет-энциклопедия, основным
принципом которой создатели провозгласили свободу распространения ин-
формации, поэтому тексты ее статей не охраняются авторским правом и с са-
мого начала перешли во всеобщее пользование. С другой стороны, энци-
клопедия по своей сути содержит разностороннюю информацию и в идеале
1
Проект выполнен при поддержке Центра исследований интернета и общества РЭШ
и Лаборатории исследования социальных отношений и многообразия общества РЭШ.
2
«Википедия» пишется в статье с прописной буквы в том случае, если речь идет
об интернет-энциклопедии и соответствующем портале в целом. Строчная буква использу-
ется для обозначения языковых разделов
К оценке Википедии как лингвистического источника…
311
должна представлять тематически сбалансированный набор текстов. Сюда
же можно добавить предусмотренную создателями техническую легкость,
с которой все тексты Википедии можно извлечь и проанализировать. Осо-
бенно актуально наличие такого источника для тех языковых и письменных
традиций, в случае которых оцифровка текстов пока является скорее про-
ектом, нежели реализованной программой. К таким слабо оцифрованным
языкам можно отнести все языки народов России, из-за чего компьютерная
лингвистика почти не имеет возможности работать с этими языками.
Цель нашей работы — с помощью простейших лексико-статисти-
ческих методов проверить пригодность текстов википедий на некоторых
языках народов России (включая русский) для использования их в каче-
стве лингвистического источника.
В нашем исследовании мы будем оперировать нестрогим понятием
«естественности» частотного распределения словоформ в словаре, состав-
ленном на основе какого-то текста или коллекции текстов. Суть этого по-
нятия в следующем. И из общих соображений, и из практики частотной
лексикографии следует, что в текстах на языках флективного и агглютина-
тивного строя наиболее частотными оказываются служебные части речи:
союзы, предлоги, частицы, местоимения. Если корпус, на котором составлен
частотный словарь, сбалансирован, т. е. включает в более-менее равном соот-
ношении тексты разной тематики и коммуникативной направленности (и та-
ким образом отражает соотношение, в котором естественный язык обычно
фигурирует в жизни носителя), то полнозначная лексика появляется в таком
словаре только в третьем-четвертом десятке (конкретные позиции будут за-
висеть от языка). Вот, например, первая десятка лемм из частотного словаря,
составленного О. Н. Ляшевской и С. А. Шаровым на материале текстового
фонда Национального корпуса русского языка [Ляшевская, Шаров 2009]:
Таблица 1. Первые десять лемм
из частотного словаря русского языка
№
Лемма
Достарыңызбен бөлісу: |