261
(ср.: принц Чарльз, но Карл V); во-вторых, в современном языке уже есть
группа подобных слов, аналогия с которыми интуитивно ощущается но-
сителями языка (ср.: экшн/экшен, поул-позишн/поул-позиция и позишен-
трейдинг). По-видимому, будущее все же за формой ресепшен, уже осво-
енной, что доказывает начало ее изменения по числу, роду и падежам:
именно склонение заставляет сдать позиции неудобопроизносимую
в косвенных падежах форму без огласовки, хотя варианты на ресепшне,
с ресепшна пока еще можно встретить в сети. Что тоже не удивительно:
для интернета характерна новая, промежуточная форма существования
языка «между речью и письмом» [Кронгауз 2013: 44], и в данном случае
именно письменная форма позволяет не обращать внимания на трудно-
сти произношения.
Однако появление смысловых дублетов типа стойка ресепш(е)н или
прием на ресепш(е)н говорит о том, что данное заимствование испытыва-
ет на себе влияние и другой обозначившейся тенденции функционирова-
ния иноязычных слов: в последнее время отмечается значительный рост
числа плеонастических словосочетаний (ср.: перспективы на будущее,
саммит на высшем уровне), в которых значение заимствования оказыва-
ется «стертым» и требует перевода на родной язык [Северская 2004: 56].
Отсюда — попытки найти эквивалент пресловутому reception.
Попытки эти, надо признать, не слишком успешны. Это объясня-
ется тем, что определение смысла слова требует обращения к контексту:
стойка (предмет офисной мебели) может быть рабочим местом админи-
стратора, регистратора, секретаря, в зависимости от типа учрежде-
ния «зона приема» может быть, как уже говорилось, приемной, столом
справок, регистратурой, стойкой дежурного администратора. Если
попытаться использовать в качестве единой синонимической замены
подразумеваемое значением reception слово прием, все равно потребуют-
ся уточняющие определения: прием клиентов/посетителей/пациентов/
покупателей/гостей и т. д.
Как показывает исследовательская практика, современные носите-
ли русского языка не вполне готовы к признанию равноправия встре-
чающихся в узусе вариантов и стремятся выбрать из них «наиболее
правильный» [Северская 2011], и случай с обозначениями понятия recep-
tion — не исключение, что доказывает (о чем и шла речь выше) множе-
ство обнаруживаемых в сети вопросов о «предпочтительном» и «грамот-
ном» их использовании.
Возврат к более раннему заимствованию рецепция, как представля-
ется, и позволил бы избежать споров: слово вписывается в систему языка
(ср.: революция, демонстрация, концепция) и происходит от того же ла-
тинского корня, что и его европейские эквиваленты, развившие новые зна-
чения. Именно этот вариант, как уже отмечалось, склонны рекомендовать
262
О. И. Северская
языковеды, а произведенное от него слово рецепционист уже закреплено
в номенклатурном списке профессий. Кроме того, рецепция оказывает-
ся столь же емкой в смысловом отношении, как и ресепш(е)н, поскольку
может указывать как на «место приема посетителей», так и на «рабочее
место сотрудника, ведущего прием посетителей», не требуя дополнитель-
ных определений. Интернет-сообщество, как было показано, к выбору
этого варианта готово. Дело теперь за лексикографами.
Литература
Кронгауз М. А. Самоучитель олбанского. М., 2013.
Крысин Л. П. Толковый словарь иноязычных слов. М., 2005.
Левонтина И. Б. Шум словаря // Знамя. 2006. №8. С. 197–207 / электронная версия: http://
magazines.russ.ru/znamia/2006/8/le12.html.
Северская О. И. Говорим по-русски с Ольгой Северской. М., 2004.
Северская О. И. Конфликт «своего» и «чужого», «старого» и «нового» (об отношении обще-
ства к основным тенденциям нормообразования) // Конфликт в языке и коммуника-
ции. Сб. статей. М., 2011. С. 271–282.
В. Д. Магомедова, Н. А. Слюсарь
Расшатывание исторических
чередований согласных на примере
ненормативных форм компаратива
Разрушение исторических чередований согласных, система которых ос-
тается неизменной в нормативном языке, но расшатывается в не нормативных
формах, особенно широко представленных в языке современного интернета,
рассмотрено на примере форм компаратива (ср.: упругее, дерзше, моложее
и др.). В статье проанализированы способы образования нормативных
и ненормативных форм современного русского компаратива, выявлены
относительные частоты этих форм и установлены факторы, которые могут
влиять на расшатывание чередований.
Ключевые слова: компаратив, согласные, исторические чередования,
оптимизация поиска
Введение
Со времен великих открытий XIX века мы многое узнали о том, как меня-
ется язык. Но обычно мы получаем доступ к очень ограниченному объе-
му данных об исследуемых языковых процессах. Взрывообразный рост
количества опубликованных в интернете текстов, большая часть которых
не подвергалась никакой редактуре, дает современным исследователям
уникальную возможность наблюдать за жизнью языка и детально ее изу-
чать. Это крайне важно для понимания языковых изменений как с точки
зрения языковой системы, так и с точки зрения ментального лексикона
отдельных носителей.
Однако воспользоваться этой возможностью не так просто. Во-первых,
с приходом массовой грамотности многие процессы языковых изменений
значительно замедлились. К счастью, в русском языке есть, по крайней мере,
одно явление, которое можно плодотворно изучать, опираясь на данные, по-
лученные из интернет-текстов. Это процесс разрушения исторических че-
редований согласных, система которых остается неизменной в нормативном
языке, но явно расшатывается в целом ряде ненормативных форм. В работе
это явление рассматривается на примере форм компаратива.
264
В. Д. Магомедова, Н. А. Слюсарь
Во-вторых, при использовании данных из интернета возникает
ряд проблем, связанных со сбором и обработкой материала. Например,
статистика по результатам поиска, которую дают поисковые машины,
получается очень неточной, что существенно затрудняет оценку частот-
ности появления форм. При этом просматривание результатов вручную
осложняется тем, что их невозможно сохранить в удобной для работы
форме. Мы разработали набор программных инструментов и методик,
которые позволяют обойти подобные проблемы, а также решают не-
которые другие задачи. Они могут быть полезны и другим исследова-
телям. Прежде всего, это программа «Lingui-Pingui», которая работает
с Yandex.API и помогает собирать, сортировать и обрабатывать данные,
полученные из интернета.
Таким образом, в этой статье мы ставим перед собой две цели:
проанализировать расшатывание исторических чередований согласных
в различных формах сравнительной степени, которые можно найти в ин-
тернете, и представить разработанную нами программу «Lingui-Pingui».
Статья имеет следующую структуру. После краткого обзора форм с че-
редованиями согласных мы разбираем работу [Slioussar, Kholodilova
2013] по расшатыванию таких чередований в глагольных формах. Затем
мы очерчиваем круг явлений для последующего анализа, рассматривая
различные способы образования нормативных и ненормативных форм
компаратива. Далее мы анализируем относительную частотность форм
и устанавливаем, какие факторы могут влиять на расшатывание чередо-
ваний. Наконец, мы очерчиваем общие принципы и основные сложно-
сти работы с данными поисковых машин, а также описываем разрабо-
танную нами программу, показывая, как мы использовали ее для сбора
и анализа данных.
Предыдущие исследования
Исторические чередования согласных ( к // ч, к // ц, г // ж, г // з и др.)
изначально использовались при формо- и словообразовании шире, чем
в современном русском языке. Сейчас в парадигмах существительных
их практически не осталось (за исключением единичных форм вроде
боже), но они сохраняются в ряде глагольных классов (например, пи-
сать — пишу, возить — вожу), в некоторых формах компаратива (напри-
мер, сухой — суше), а также перед определенными суффиксами (напри-
мер, скользить — скольжение).
Однако анализ ненормативных форм, которые можно в изобилии
найти в интернете, показывает, что система чередований в той или иной
степени расшатывается и в этих категориях слов. Особенно это замет-
Расшатывание исторических чередований согласных…
265
но при образовании форм или дериватов от неологизмов, которые (еще)
не являются частью литературного русского языка. Например, дими-
нутив от слова блог — это не только бложик, но и блогик или блочик.
Во второй форме чередование отсутствует, а в третьей имеется чередова-
ние, которое не встречается в нормативном русском языке. Это явление
представляется крайне любопытным в свете того, что парадигматиче-
ское выравнивание давно и активно обсуждается в рамках самых разных
лингвистических направлений, например, в [Albright 2002, 2010; Anttila
1977; Benua 1997; Bybee 1985; Kiparsky 1982, 2002; Kuryłowicz 1949;
Mańczak 1958; McCarthy 2005].
Н. А. Слюсарь и М. А. Холодилова [Slioussar, Kholodilova 2013] изу-
чили этот процесс на примере ненормативных глагольных форм, и в дан-
ной статье мы продолжаем начатую ими работу, обратившись к компа-
ративам. Чередования встречаются в следующих глагольных классах
(классификация по «Русской грамматике» [Русская грамматика 1982]):
V класс 1 подкласс (писал — пишу, пишешь), VI класс 1 подкласс (жег —
жгу, жжешь), X класс 1 подкласс (возил — вожу, возишь), X класс 2 под-
класс (летел — лечу, летишь). Из них только X класс 1 подкласс явля-
ется продуктивным, и в последнее время в нем появилось много новых
глаголов, не ставших частью литературного русского языка: френдить,
флеймить, оффтопить и пр.
Слюсарь и Холодиловой удалось установить, что ярко выражен-
ные проблемы с чередованиями наблюдаются у этих глаголов, а так-
же у глаголов VI класса 1 подкласса. Они показали, что процесс па-
радигматического выравнивания зачастую идет в двух направлениях
одновременно: избавление от чередований в тех формах, где они были,
и появление чередований в тех, где их не было. Однако избавление
от чередований более распространено, в том числе в 1 подклассе
VI класса, у которого в парадигме настоящего / будущего времени есть
четыре формы с чередованиями и две без них. Интересно заметить,
что эти данные идут вразрез с популярной сейчас моделью парадиг-
матического выравнивания, предложенной в работе [McCarthy 2005],
и лучше согласуются, например, с предсказаниями теории А. Олбрайта
[Albright 2002, 2010].
На примере различных групп глаголов 1 подкласса X класса было
установлено, что на сохранность чередований влияют следующие фак-
торы: частотность глагола (у редких глаголов возникает больше проблем
с чередованиями), его нормативность и конечный согласный основы.
Чередования сохраняются лучше всего у глаголов с основами на губ-
ные согласные и хуже всего у глаголов с основами, заканчивающимися
группами шумных согласных. Кроме того, были проанализированы типы
чередований, не встречающихся в нормативном русском языке.
266
В. Д. Магомедова, Н. А. Слюсарь
Формы компаратива и их свойства
Способы образования компаратива, а также те случаи,
когда оно затруднено или невозможно
Категория степени сравнения присуща прилагательным и наречиям. Для
данной работы не имеет значения, от какой из этих двух частей речи образо-
ваны интересующие нас формы компаратива с чередованием согласных. Так
как наречия, у которых есть такие формы, в абсолютном большинстве слу-
чаев являются производными от прилагательных, в дальнейшем, составляя
списки слов для анализа, мы будем ориентироваться на прилагательные.
Формы сравнительной степени делятся на неизменяемые синтети-
ческие (например, больше, моложе), изменяемые синтетические (напри-
мер, больший) и аналитические (например, более большой, более молодой).
Многие прилагательные имеют формы первого и третьего типа, которые
различаются прежде всего своими синтаксическими функциями (синте-
тические формы не могут играть роль определений, но обычно предпо-
чтительны в предикативной функции). Эти и другие различия подробно
рассмотрены Ю. П. Князевым [2007]. Формы второго типа крайне редки.
Так как чередование согласных встречается только в формах перво-
го типа, рассмотрим те случаи, когда их образование затруднено или не-
возможно. Эти случаи можно разделить на две группы. Есть прилагатель-
ные, от которых образование компаратива проблематично в принципе,
а есть такие, у которых имеются только аналитические формы. Запрет
первого типа связан с семантикой прилагательного и часто не является
абсолютным, так как оно может быть употреблено в непрямом значении.
Приведем два примера, отобранных Ю. П. Князевым:
(1)
Поэтому и у самого полковника, который, чем больше он пил, становился
все стеклянней, и у других офицеров было отчаянное настроение (Алек-
сандр Фадеев).
(2)
Это уже более по-французски (Виктор Некрасов).
В связи с этим А. А. Зализняк в предисловии к «Грамматическому сло-
варю русского языка» обращает внимание только на запрет второго типа,
причем перечисляет только группы слов с определенными морфологи-
ческими характеристиками, не имеющие синтетических компаративов,
не останавливаясь на отдельных случаях [Зализняк 1977]. В «Русской
грамматике» избран смешанный подход: выделяются группы слов, объе-
диненные и семантическими, и морфологическими признаками, а также
перечисляются отдельные слова-исключения [Русская грамматика 1982].
Итак, согласно «Грамматическому словарю русского языка», синтетиче-
ских компаративов нет у следующих групп слов:
Расшатывание исторических чередований согласных…
267
Большая часть прилагательных на
•
не-, полу-, сверх- и т. п.
Прилагательные с суффиксами
•
-ск-, -цк-, -еньк-, -оньк-.
Сложные прилагательные на
•
-кий, -гий, -хий (например, длиннору-
кий, зимостойкий)
Запрет в первой группе связан со значением прилагательных: они обо-
значают признак, выраженный наполовину, в высшей степени или же
не выраженный вовсе, что невозможно совместить с семантикой сте-
пени сравнения. От таких прилагательных нельзя образовать не только
синтетические, но и аналитические компаративы. Однако не все слова
на не- отвечают этому условию: например, незаметный может значить
не только «тот, который невозможно заметить», но и «тот, который трудно
заметить». Второе значение совместимо с компаративом, и существует
синтетическая форма незаметнее.
Многие слова во второй группе также имеют семантику, несовмести-
мую со степенью сравнения, — это относительные прилагательные. Однако
это относится далеко не ко всем словам в этой группе, и, кроме того, как мы
показали выше, относительные прилагательные могут быть употреблены
в переносном значении. Тем не менее, образование синтетических компара-
тивов все равно невозможно, от слов в этой группе можно образовать только
аналитические формы. Для прилагательных, попавших в третью группу, во-
обще не характерны какие-либо семантические особенности, которые пре-
пятствовали бы образованию компаратива. Все они имеют аналитические
формы степени сравнения (если не в основном, то в переносном значении, как,
например, в случае прилагательного безрукий), но не имеют синтетических.
Во всех тех случаях, когда образование компаратива допустимо
с точки зрения семантики, носители русского языка с большей или мень-
шей вероятностью будут употреблять не только аналитические, но и син-
тетические формы, даже если они ненормативны. Например, в случаях,
аналогичных приведенному в примере (2), могут быть использованы
формы французскее, французче или француже. Наша задача будет заклю-
чаться в том, чтобы проанализировать распределение форм различных
прилагательных с чередованиями и без них.
Компаративы с чередованиями согласных и без них:
нормативные и ненормативные формы
Неизменяемые синтетические формы сравнительной степени образуются
с помощью трех суффиксов: -е, -ее/ей и -ше. Чередования согласных встре-
чаются только в формах с суффиксом -е. За редкими исключениями вроде де-
шевый — дешевле он присоединяется к основам двух типов: на заднеязычные
согласные и на -т, -д. У некоторых прилагательных и наречий при присоеди-
268
В. Д. Магомедова, Н. А. Слюсарь
нении этого суффикса выпадает суффикс -к (-ок), и чередование захватывает
предшествующий ему корневой согласный: д // ж, т // ч, з // ж, с // ш. Более
подробную информацию об особенностях форм на -е можно найти, например,
в работах [Зализняк 1977; Князев 2007; Русская грамматика 1982 и др.].
Мы проанализировали все прилагательные с основами на заднея-
зычные согласные и на -т, -д, представленные в «Грамматическом слова-
ре русского языка» [Зализняк 1977]. В дальнейшем эти две группы были
взяты за основу при отборе слов для нашего исследования (об этом пой-
дет речь ниже). В Таблице 1 показано, какие формы компаратива могут
быть образованы от таких прилагательных. Очевидно, что эти две группы
обладают различными свойствами. В случае основ на -г, -к, -х прилага-
тельные либо имеют форму с чередованием, либо вообще не имеют син-
тетического компаратива (кроме того, несколько прилагательных имеют
формы с суффиксом -ше). В случае основ на -т, -д большая часть синте-
тических форм сравнительной степени имеет суффикс -ее, лишь некото-
рые прилагательные образуют компаратив с чередованием.
Таблица 1. Компаративы от прилагательных с основами на -г, -к, -х и на -т, -д,
представленных в «Грамматическом словаре русского языка»
Основы на -г, -к, -х
Основы на -т, -д
Компаративы
на -е
113 прилагательных, образующих
формы с чередованиями (напри-
мер, крепкий), из них 60, от ко-
торых образование компаратива
затруднено (например, ёмкий).
10 прилагательных (частый,
богатый, чистый, толстый,
твердый, простой, молодой, гу-
стой, крутой, худой в значении
«плохой»).
Компаративы
на -ше
3 прилагательных (тонкий,
далекий, долгий), а также случай-
исключение маленький.
Компаративы
на -ее
Только форма мерзее с выпавшим
суффиксом -к- (наравне с мерзче).
Ни одной формы на -гее, -кее,
-хее.
Более 1000 прилагательных,
как простых (например, жел-
тый), так и сложных (напри-
мер, толстомордый)
6
.
Нет
синтетического
компаратива
Более 3500 прилагательных с суф-
фиксами -ск-, -цк, -еньк-, -оньк-.
Около 140 сложных прилагатель-
ных (например, длинноногий).
Около 40 прилагательных типа
слабехонек, у которых есть только
краткая форма.
Благой, великий, качкий, нагой,
пегий.
Гордый, занятый, приподня-
тый, принятый, чуждый.
Сложные прилагательные,
обозначающие цвет (бледно-
желтый, светло-желтый,
ярко-желтый).
1
У части этих прилагательных образование сравнительной степени маловероятно
в силу их семантических свойств, однако только про одно прилагательное, холостой, сказа-
но, что у него затруднено образование компаратива.
Расшатывание исторических чередований согласных…
269
Очертим круг интересующих нас явлений на основании представ-
ленных выше данных. Мы неоднократно упоминали о том, что в формах
сравнительной степени наблюдается тенденция к разрушению чередова-
ний согласных. Одновременно идет и другой процесс: замена суффикса
-е на более новый суффикс -ее/ей. Так как суффикс -ее/ей не предполага-
ет чередования согласных, казалось бы, эти два процесса должны идти
рука об руку (как, например, в форме молодее от молодой). Однако анализ
встречающихся в интернете нестандартных форм компаратива показыва-
ет, что это не так: в некоторых формах на -ее/ей сохраняются чередова-
ния (например, моложее). Насколько мы можем судить, обратное невоз-
можно: формы с суффиксом -е, но без чередований (например, молоде)
не встречаются.
Учитывая это, а также тот факт, что все синтетические формы срав-
нительной степени могут быть использованы с приставкой по-, для всех
прилагательных, отобранных для нашего исследования, мы искали по де-
сять форм, проиллюстрированных на примере прилагательного упругий
в примере (3). От прилагательных с суффиксом -к (-ок) может быть об-
разовано больше разнообразных форм, так как этот суффикс может вы-
падать или сохраняться в форме компаратива.
(3)
упруже, поупруже (правильные формы), упругее, упругей, поупругее, по-
упругей (формы без чередований с суффиксом -ее/ей), упружее, упружей,
поупружее, поупружей (формы с чередованиями с суффиксом -ее/ей)
Несмотря на то, что суффикс -ше представлен лишь в единичных ком-
паративах, он иногда используется в ненормативных формах (например,
дерзше). В данной работе мы не исследуем это явление подробно, однако
вернемся к нему в конце статьи. В отличие от глагольных форм, о которых
шла речь в начале статьи, мы не обнаружили в компаративах каких-либо
нестандартных чередований.
Дистрибуция форм компаратива с чередованиями
и без них
Отбор прилагательных для дальнейшего анализа
Мы сосредоточили свое внимание на прилагательных с основами на -г,
-к, -х и на -т, -д, так как именно от этих слов возможно образование
компаративов с чередованиями согласных. Прилагательные, вошедшие
в наше исследование, можно разделить на два типа. У первых есть нор-
мативная форма сравнительной степени с чередованием, однако от них
могут быть образованы и ненормативные формы, кратко представленные
270
В. Д. Магомедова, Н. А. Слюсарь
в предыдущем разделе. Вторые не имеют нормативных синтетических
компаративов, однако носители языка все равно пытаются образовать
от них ненормативные формы.
Для первой группы мы изначально отобрали все прилагательные,
у которых есть компаратив с чередованием, из «Грамматического словаря
русского языка» [Зализняк 1977]. Как показывает Таблица 1, таких при-
лагательных 123: 113 с основами на -г, -к, -х и 10 с основами на -т, -д.
Нестандартные формы от многих из них довольно редки.
2
Поэтому, если
мы просто начнем искать их в интернете, результаты поиска могут содер-
жать огромное количество «мусора»: явных опечаток, посторонних слов
и других нерелевантных данных. В связи с этим мы сократили список
прилагательных, которые собирались анализировать, при помощи сле-
дующей процедуры.
Для каждого из 123 прилагательных мы осуществили поиск одной
(основной) ненормативной формы: компаратива без чередований с суф-
фиксом -ее. Если результаты поиска содержали более 4% релевантных
данных (т. е. форм компаратива от нужного прилагательного, а не опеча-
ток и пр.), мы оставляли прилагательное для дальнейшего анализа. Кроме
того, мы не стали брать прилагательное мерзкий, у которого форма мерзее
является нормативной наравне с мерзче. Таким образом были отобраны
23 прилагательных с основами на -г, -к, -х и девять с основами на -т, -д
(здесь мы изначально исключили прилагательное худой в значении «пло-
хой», так как форма хуже используется в качестве компаратива не только
от этого прилагательного, но и от намного более частотного плохой):
(4) a.
близкий, веский, высокий, глубокий, глухой, громоздкий, жестокий,
жуткий, лихой, низкий, одинокий, плоский, пологий, скользкий, стойкий,
строгий, сухой, тугой, тяжкий, убогий, упругий, хлипкий, яркий
b.
богатый, густой, крутой, молодой, простой, твердый, толстый, ча-
стый, чистый
Для второй группы мы отобрали некоторое количество прилагательных,
у которых нет нормативных синтетических компаративов. Прежде все-
го это были 14 сложных прилагательных с основами на -г, -к, -х (напри-
мер, близорукий). К ним мы добавили два слова с суффиксами -ск- и -цк-.
Кроме того, мы включили в эту группу слово великий — единственное
прилагательное, не имеющее нормативного синтетического компаратива,
но не относящееся к первым двум типам, для которого в интернете мож-
но найти достаточное количество ненормативных синтетических форм
2
Как Н. А. Слюсарь и М. А. Холодилова показывают в работе [Slioussar, Kholodilova
2013], похожая ситуация наблюдается и с глагольными формами: ненормативные формы
от глаголов, относящихся к литературному русскому языку, довольно редки.
Расшатывание исторических чередований согласных…
271
(у прилагательных благой, качкий, нагой, пегий, которые, как показывает
Таблица 1, обладают такими же характеристиками, в интернете встреча-
ются лишь единичные формы сравнительной степени).
(5) a.
безрукий, близорукий, дальнозоркий, длинноногий, длиннорукий, жизне-
стойкий, износостойкий, легкоплавкий, лопоухий, морозостойкий, тер-
мостойкий, трудоемкий, тугоплавкий, энергоемкий
b.
адский, дурацкий, великий
Факторы, влияющие на распределение форм
Принципы, на которые мы опирались при сборе данных в интернете,
а также программа «Lingui-Pingui», которой мы пользовались, описаны
в финале работы. В этом разделе мы расскажем о результатах анализа
данных. Распределение различных форм у прилагательных первой и вто-
рой группы представлено ниже в Таблицах 2 и 3. Данные о частотности
прилагательных взяты из «Частотного словаря современного русского
языка» [Ляшевская, Шаров 2009], у тех прилагательных, которые не вош-
ли в этот словарь, соответствующая графа пустует.
Формы с суффиксами -ее и -ей, а также формы с приставкой по-
и без нее для краткости приведены вместе. Заметим, что в среднем фор-
мы с суффиксом -ее примерно в два раза частотней, чем с суффиксом -ей,
но их соотношение очень отличается у разных прилагательных (в част-
ности, в некоторых случаях форм с суффиксом -ей больше). Формы с при-
ставкой по- в среднем встречаются в девять раз реже, чем без нее, но их
соотношение также сильно варьирует. Так, у прилагательного тугой око-
ло четверти форм с приставкой по-.
Таблица 2. Распределение форм компаратива у прилагательных первой группы
Прилага-
тельное
Частот-
ность
Кол-во
результатов
после
фильтрации
Формы
на -е
Формы
на -ее/ей
Формы на -ее/ей
с чередованиями
близкий
206,8
986
99,9%
0,0%
0,1%
богатый
85,0
1873
99,7%
0,3%
0,0%
веский
4,9
257
89,5%
0,0%
10,5%
высокий
483,3
1502
99,9%
0,0%
0,1%
глубокий
137,3
1172
99,8%
0,0%
0,2%
глухой
40,7
766
99,7%
0,0%
0,3%
громоздкий
–
262
80,2%
14,5%
5,3%
густой
47,2
500
98,0%
1,6%
0,4%
жестокий
37,5
581
84,5%
2,4%
13,1%
272
В. Д. Магомедова, Н. А. Слюсарь
Прилага-
тельное
Частот-
ность
Кол-во
результатов
после
фильтрации
Формы
на -е
Формы
на -ее/ей
Формы на -ее/ей
с чередованиями
жуткий
26,1
832
84,2%
1,7%
14,1%
крутой
43,4
1809
99,9%
0,0%
0,1%
лихой
10,3
1
0,0%
0,0%
100,0%
молодой
414,1
1006
99,5%
0,5%
0,0%
низкий
160,7
1605
100,0%
0,0%
0,0%
одинокий
44,5
162
48,8%
29,0%
22,2%
плоский
29,1
686
99,3%
0,6%
0,2%
пологий
5,0
294
98,6%
0,7%
0,7%
простой
275,3
1622
97,1%
0,2%
2,7%
скользкий
11,8
54
70,4%
5,6%
24,1%
стойкий
10,1
494
92,9%
0,2%
6,9%
строгий
62,8
693
99,9%
0,1%
0,0%
сухой
83,0
475
95,2%
0,0%
4,8%
твердый
59,5
615
99,0%
1,0%
0,0%
толстый
84,4
1087
99,0%
0,5%
0,6%
тугой
11,9
492
100,0%
0,0%
0,0%
тяжкий
26,0
349
97,1%
1,7%
1,2%
убогий
11,7
342
48,8%
32,8%
18,4%
упругий
10,7
588
68,9%
27,0%
4,1%
хлипкий
2,4
705
97,9%
0,4%
1,7%
частый
114,6
1308
100,0%
0,0%
0,0%
чистый
159,0
1574
99,6%
0,3%
0,1%
яркий
2,2
1701
100,0%
0,0%
0,0%
Важно заметить, что в исследование не были включены ненормативные
формы типа низее или скользее — мы планируем добавить их на следую-
щем этапе. Анализ данных не выявил статистически значимой зависи-
мости между количеством форм без чередований и такими факторами,
как частотность или конечный согласный основы, которые оказались
значимыми в исследовании глагольных форм, описанном выше. Видно,
что проблемы с чередованиями свойственны отдельным прилагательным,
которые не объединяет какое-то общее свойство. Возможно, это связано
с тем, что интересующая нас группа глаголов на данном этапе развития
русского языка активно пополняется, а группа прилагательных — нет.
Заметим, что, хотя у многих прилагательных компаративов без чередо-
ваний в процентном отношении совсем немного, например, 1,6% форм без
чередований от такого частотного прилагательного, как молодой, — это не-
сколько тысяч результатов. Интересно также отметить, что формы с суффик-
Расшатывание исторических чередований согласных…
273
сом -ее/ей и чередованиями встречаются даже чаще, чем формы с этими суф-
фиксами и без чередований. Перейдем ко второй группе прилагательных.
Таблица 3. Распределение форм компаратива у прилагательных второй группы
Прилага-
тельное
Частот-
ность
Кол-во
результатов
после
фильтрации
Формы
на -е
Формы
на -ее/ей
Формы на -ее/ей
с чередованиями
адский
–
25
12,0%
88,0%
0,0%
безрукий
–
18
0,0%
88,9%
11,1%
близорукий
–
26
15,4%
73,1%
11,5%
великий
276,3
87
6,9%
20,7%
72,4%
длинноволосый
–
32
0,0% 100,0%
0,0%
длинноногий
–
114
2,6%
80,7%
16,7%
длиннорукий
–
19
0,0%
73,7%
26,3%
дурацкий
23,9
198
39,4%
42,4%
18,2%
жизнестойкий
–
16
81,3%
12,5%
6,3%
износостойкий
–
65
70,8%
15,4%
13,9%
легкоплавкий
–
24
83,5%
4,0%
12,5%
лопоухий
–
53
1,9%
84,9%
13,2%
морозостойкий
–
22
54,6%
18,2%
27,3%
термостойкий
–
21
42,9%
33,3%
23,8%
трудоемкий
–
287
74,6%
19,2%
6,3%
тугоплавкий
–
43
76,7%
16,3%
7,0%
энергоемкий
–
132
89,4%
6,8%
3,8%
Сразу бросается в глаза, что во второй группе значительно больше форм
без чередований. Здесь значимое влияние на распределение форм оказал
такой фактор: прилагательные стойкий, емкий и зоркий и существуют
сами по себе и образуют компаративы с чередованиями, а прилагательных
*рукий, *ногий и *ухий нет. Несмотря на то, что варианты соответствую-
щих корней с чередованиями согласных высоко частотны и должны быть
на слуху (ножка, ручка, уши, ушко и пр.), люди предпочитают не образо-
вывать от этих сложных прилагательных компаративы с чередованиями.
Наконец, интересно посмотреть, появляются ли хотя бы ино-
гда чередования в тех формах, где их в принципе быть не должно. Мы
смогли найти такие примеры, как бородаче и горбаче, но они единич-
ны (в принципе, от прилагательных бородатый и горбатый нет нор-
мативных синтетических компаративов). От сложных прилагательных,
аналогичных вошедшим во вторую группу (например, толстомордый,
желторотый, большеротый и пр.), не удалось обнаружить ни одной
такой формы.
274
В. Д. Магомедова, Н. А. Слюсарь
Сбор данных в интернете
Основные принципы и проблемы
Основная задача, которую надо было решить в нашем исследовании, за-
ключалась в оценке относительной частотности различных форм ком-
паратива, встречающихся в интернете. Так как самая популярная в рус-
скоязычной части интернета поисковая машина принадлежит компании
«Яндекс», мы работали именно с ней. В поисковике «Яндекса» есть
встроенный язык запросов, который позволяет осуществлять различные
виды поиска. Тем не менее, поскольку изначальные задачи поисковой ма-
шины не предполагали лингвистических исследований, работать с ней
напрямую неудобно и часто неэффективно.
В связи с этим мы разработали программу «Lingui-Pingui» (https://
sites.google.com/site/varyamagomedova/lingui_yandex)
3
для облегчения
задач лингвистического поиска, которая работает через API поисковой
машины «Яндекса» (http://api.yandex.ru/) с использованием встроенного
языка запросов. Эта программа может быть полезна любому лингвисту,
перед которым стоят такого рода задачи. В этом разделе мы проиллюстри-
руем принципы ее работы на примере проведенного нами исследования.
Напомним, что для каждого прилагательного мы должны были оце-
нить относительные частотности десяти различных форм. Однако пред-
ставим для начала, что мы сравниваем всего две формы, скажем, суше
и сухее. Почему мы не можем просто задать поисковику два запроса
и сравнить те числа, которые он выдает на первой странице? Во-первых,
потому, что эти числа крайне неточные. Во-вторых, потому, что в резуль-
татах будет содержаться много нерелевантных данных, которые необхо-
димо отсеять. Например, суше — это не только компаратив, но и форма
от существительного суша.
Поэтому правильнее задать поисковику запрос, как в примере (6),
предполагающий одновременный поиск двух форм, просмотреть какое-
то количество полученных результатов и оценить, какова в них относи-
тельная частотность этих форм после отсева нерелевантных данных.
(6)
"суше" | "сухее"
Поисковая машина позволяет пользователю просматривать только пер-
вую тысячу результатов, однако М. А. Холодилова разработала алгоритм,
который дает возможность обойти это ограничение [Холодлова 2013:
3
Мы выражаем благодарность Ивану Антонову за неоценимую помощь в разработ-
ке и отладке программы, а также Марии Холодиловой за предоставленный алгоритм и по-
мощь в разработке требований к программе.
Расшатывание исторических чередований согласных…
275
20–21]. Он воплощен и в нашей программе. Тем не менее, часто первой
тысячи результатов оказывается вполне достаточно для того, чтобы оце-
нить относительную частотность различных форм
4
.
Проблема заключается в том, что просмотр результатов — крайне
трудоемкое занятие. Их нельзя загрузить в удобном формате и затем под-
вергнуть первичной автоматической обработке. В следующем разделе мы
покажем, как созданная нами программа решает эти проблемы.
Программа «Lingui-Pingui»
Программа «Lingui-Pingui» автоматически формирует запросы по задан-
ным параметрам, отсылает их поисковой машине, сохраняет полученные
данные и представляет их в удобном для исследователя формате. Кроме
того, производится грубая фильтрация данных и считается статистика
(общее количество результатов, относительные частотности). Встроенные
фильтры и сортировка не заменяют полностью ручной обработки данных,
но все же существенно облегчают эту задачу. Перед использованием про-
граммы необходимо связаться со службой поддержки Yandex.API, чтобы
получить возможность отсылать определенное количество поисковых
запросов за день (информацию можно получить на странице http://xml.
yandex.ru/ и у службы поддержки). Более подробную информацию о про-
грамме можно найти в работе [Magomedova 2013].
Данные на входе
До начала работы программа состоит из скриптов на языке Perl и папки
Input, содержащей файл настроек и текстовые файлы с входными данны-
ми. Рассмотрим работу программы на примере поиска форм компаратива
от прилагательных сухой и упругий.
В первую очередь нам необходимо создать запросы. Выше мы писа-
ли о том, что для каждого прилагательного искали по десять возможных
форм. Все запросы однотипны, и «Lingui-Pingui» позволяет автоматизи-
ровать их создание. Папка Input содержит три текстовых файла со спи-
ском морфов для формирования запросов: файл «Prefixes.txt» со всеми
необходимыми приставками, «Stems.txt» со всеми необходимыми кор-
нями и «Suffixes.txt» со всеми необходимыми суффиксами и окончания-
ми. В Таблице 4 показано, как будет выглядеть содержимое этих файлов
в случае поиска компаративов от прилагательных сухой и упругий.
4
Как нам подтвердили в службе поддержки «Яндекса», все документы сразу сорти-
руются по релевантности независимо от того, какое слово стоит в запросе первым, а какое
последним. Поэтому соотношение найденного соответствует тому, что есть в сети и про-
индексировано поисковой системой.
276
В. Д. Магомедова, Н. А. Слюсарь
Таблица 4. Пример списка морфов в файлах
для формирования поисковых запросов
Prefixes.txt
Stems.txt
Suffixes.txt
по
сух
суш
упруг
упруж
е
ее
ей
Пустая строка в файле с приставками обозначает нулевую приставку (т. е. то,
что нас интересуют как формы с приставкой по-, так и без приставок). Воз-
можно также задать нулевой суффикс или окончание. Файл «Stems.txt» со-
держит по два варианта каждого корня (с чередованием и без него). Пустые
строки разделяют разные корни и, соответственно, разные запросы.
Из этих начальных данных программа формирует по одному запро-
су на каждый корень, включая туда все возможные комбинации заданных
морфов. На этом этапе сформированный запрос будет выглядеть следую-
щим образом:
(7)
"сухе" | "сухее" | "сухей" | "посухе" | "посухее" | "посухей" | "суше" | "сушее" |
"сушей" | "посуше" | "посушее" | "посушей"
После формирования запроса к нему можно добавить исключения. Слова,
которые не должны попасть в результаты поиска, указываются в файле
«No_words.txt». Исключения для каждого запроса задаются в отдельной
строке и должны идти в той же очередности, что и запросы. Скажем, в на-
шем примере компаратив суше совпадает с фамилией известного актера
Дэвида Суше, а также с формами существительного суша. Можно отфиль-
тровать нерелевантные данные такого рода, просматривая результаты
вручную, однако лучше позаботиться об этом заранее. Для этого в файле
«No_words.txt» в первой строке необходимо указать, например:
(8)
"Дэвид Суше" "на суше" "по суше"
В результате автоматически сформированный запрос будет иметь сле-
дующий вид:
(9)
(
"сухе" | "сухее" | "сухей" | "посухе" | "посухее" | "посухей" | "суше" | "сушее" |
"сушей" | "посуше" | "посушее" | "посушей") ~ "Дэвид Суше" ~ "на суше" ~
"по суше"
Если в других запросах (в нашем примере это компаративы от прилага-
тельного упругий) исключений нет, знак ~ в конце всё равно появится,
однако это никак не повлияет на результаты поиска.
(10) (
"упруге" | "упругее" | "упругей" | "поупруге" | "поупругее" | "поупругей" | "упру-
же
" | "упружее" | "упружей" | "поупруже" | "поупружее" | "поупружей") ~
Расшатывание исторических чередований согласных…
277
Сформированные запросы записываются в файл «List.txt», лежащий
в одном каталоге с исполняемыми файлами программы. Пользователь
может задавать там запросы и вручную, а также редактировать то, что
было создано автоматически. Например, в приведенных выше примерах
некоторые комбинации морфов (сухе, посухе) не используются в качестве
форм компаратива даже в ненормативном языке. Это артефакты, которые
пока необходимо собственноручно исключать из созданных запросов.
Представление результатов поиска
Сбор данных при поиске ведется по заголовкам страниц, найденных «Ян-
дексом», и по фрагментам текста с этих страниц, которые также выда-
ются поисковиком. Поэтому в первой тысяче результатов поиска часто
получается больше тысячи строк употреблений искомых форм. Все по-
вторяющиеся строки отсеиваются.
Собранные данные записываются в виде текстовых файлов в папку
«Raw_Data». Для каждого запроса создается два файла. Первый содер-
жит все найденные строки по запросу (причем число в начале каждой
строки — количество повторов данного фрагмента текста среди резуль-
татов поиска), второй — статистику. В файле настроек программы можно
задать то количество слов, расположенных до и после искомой формы,
которое мы берем из исходного фрагмента текста, предоставленного по-
исковиком. По умолчанию все фрагменты сохраняются целиком.
Файл со статистикой появляется в подкаталоге «Summary». Там со-
держится следующая информация:
количество результатов по версии «Яндекса» («Яндекс» выдает три
•
таких оценки, выбранная нами является наиболее точной и, по край-
ней мере в случае, когда количество найденных результатов меньше
тысячи и можно посчитать их вручную, совпадает с номером по-
следней найденной страницы);
количество неповторяющихся фраз;
•
количество результатов после исключения повторов и отсеивания
•
нестрогих соответствий;
количество результатов, где одновременно встречаются несколько
•
искомых форм;
сведения о каждой искомой форме (сколько раз она встретилась
•
и какой это составляет процент от общего числа форм).
Сейчас программа настроена таким образом, что сумма процентов может
быть немного больше ста, так как фразы, содержащие две и более формы,
считаются несколько раз при подсчете употреблений каждой отдельной
формы, но только один раз при подсчете общего количества строк. Если
программа используется для поиска какой-то одной формы (или слова,
278
В. Д. Магомедова, Н. А. Слюсарь
или словосочетания), а не для одновременного поиска нескольких, файл
со статистикой будет содержать только общее количество найденных ре-
зультатов до и после обработки.
Сортировка результатов
Вкрапления нерелевантных данных в результаты поиска практически не-
избежны даже при самом тщательном подходе к формированию запросов.
Отфильтровывать такие данные вручную — крайне трудоемкая задача.
Автоматическая сортировка результатов не решает ее полностью, но су-
щественно ее облегчает.
Параметры сортировки задаются в файлах «Sorter_yes.txt» и «Sort-
er_no.txt». В первый можно внести слова, совместная встречаемость
с которыми практически гарантирует, что найденная форма относится
к нужным нам результатам, а во второй — слова, которые почти навер-
няка являются индикаторами нерелевантных данных. В наших примерах
с компаративами в первый файл нужно занести слова чем, тем, гораздо,
еще и пр., а во второй — более, менее, совсем и т. д. (они почти безоши-
бочно указывают на то, что найденная форма — не компаратив, а форма
положительной степени с опечаткой). Таким образом, после сортировки
данные распадутся на три группы: почти наверняка нужные, почти на-
верняка ненужные и «спорные». Первые две группы можно просмотреть
очень быстро, а на третью все же придется потратить время.
Результаты сортировки сохраняются в виде трех файлов, содержа-
щих строки с данными, и одного файла со статистикой, где все показате-
ли пересчитаны отдельно для каждой из групп. Все эти файлы будут ле-
жать в папке «Sorted_Data», которая создается в момент сортировки (если
не была создана ранее).
Заключение
В этой статье мы рассмотрели расшатывание системы исторических че-
редований согласных в русском языке на материале собранных в интер-
нете нормативных и ненормативных форм компаратива. В предыдущей
работе Н. А. Слюсарь и М. А. Холодиловой [Slioussar, Kholodilova 2013]
этот процесс рассматривался на материале глагольных форм. Было вы-
явлено влияние таких факторов, как — прежде всего — нормативность
глагола, а также его частотность и конечный согласный основы.
В целом ситуацию с глаголами можно обрисовать так: если у гла-
гола есть нормативная форма с чередованием, за некоторыми исключе-
ниями люди будут образовывать ее без особых проблем. Однако от новых
глаголов, которые не относятся к литературному русскому языку (напри-
Расшатывание исторических чередований согласных…
279
мер, френдить, оффтопить, флеймить), формы с чередованиями часто
образуются с трудом, несмотря на то, что это высоко частотная, продук-
тивная и единственная доступная в нормативном русском языке модель
образования форм для слов такого типа. Так мы становимся свидетелями
того, как модель теряет продуктивность, причем, что любопытно, это ока-
зывается не связано с продуктивностью глагольного класса, в котором
она используется — этот класс активно пополняется новыми глаголами.
Также интересно отметить формы с чередованиями, не встречающимися
в нормативном русском языке. Получается, что в ментальном лексиконе
носителя присутствует информация о том, что в форме нужно чередова-
ние, однако нет уверенности, какое именно, что крайне необычно.
Так как группа прилагательных, от которых образуются компара-
тивы с чередованиями, не пополняется новыми словами, мы ожидаемо
обнаруживаем здесь меньше проблем. Тем не менее, интересно заметить,
что у некоторых прилагательных до трети найденных в интернете форм
не имеют чередований (это убогий и упругий, в меньшей степени громозд-
кий, лихой, одинокий и т. д.). Проблемы с чередованиями проявляются
в полную силу, когда люди пытаются образовать синтетический компа-
ратив от прилагательных, у которых нет соответствующих нормативных
форм. Мы выбрали для анализа группу таких прилагательных с основами
на заднеязычные. Единственное прилагательное с такой основой, у кото-
рого есть нормативный компаратив без чередований, — это мерзкий (ком-
паративы мерзее и мерзче). В русском нет ни одной нормативной формы
на - хее, - гее или -кее. Тем не менее, люди образовывают очень много не-
нормативных форм такого рода.
В частности, в группе сложных прилагательных типа длинноногий
и трудоемкий решающим фактором оказалось то, существует ли вторая
Достарыңызбен бөлісу: |