Информация о значении слов и их семантической сочетаемости необходима во многих областях как теоретической, так и прикладной лингвистики. В теории это один из важных элементов описания системы и лексикона языка, на практике же подобные сведения могут пригодиться для разных задач, к примеру, машинный перевод, информационный поиск, выделение темы текста и др. Во всех случаях необходим ресурс, содержащий сведения о семантике слов. Для русского языка существует достаточное количество толковых словарей, описывающих значения и оттенки значений слов и частично – их сочетаемость, но, к сожалению, подобные словари почти бесполезны при автоматической обработке текста. Таким образом, возникает потребность в словаре другого типа, словаре, который можно было бы использовать в компьютерных технологиях. Подобный словарь должен содержать объективную, формализованную информацию о значении слова, его рамках валентности (и синтаксической, и семантической), о словах, часто встречающихся в его окружении, возможных идиомах.
На настоящее время создано и/или находится в разработке большое количество электронных ресурсов, полностью или частично отвечающих нашим целям. Для русского языка можно упомянуть Толково-комбинаторный словарь [7], семантический словарь Тузова1, проекты RussNet [1], FrameBank2. В данной работе мы решили воспользоваться опытом и методами создания словаря Pattern Dictionary of English Verbs3. На данный момент в словаре описана семантическая сочетаемость и значения около 2000 английский глаголов. Словарь составляется на основе метода корпусно-структурного анализа (Corpus Pattern Analysis, CPA), который в свою очередь опирается на теорию норм и эксплуатация (Theory of Norms and Exploitations, TNE). Можно выделить главные особенности данного подхода:
• выделение значений на основе семантического контекста глаголов;
• анализ нормативных употреблений глагола.
Корпусно-структурный анализ позволяет по выборке из корпуса описать различные семантические валентности глагола, сопоставить их с его значениями, определить их относительную частоту. При этом итоговое описание легко представляется в форме, пригодной для автоматического анализа.
Целью данного исследования является адаптация для русского языка методики выделения значений и семантической валентности глаголов по корпусным данным путём создания прототипа словаря.
Для достижения поставленной цели было необходимо решить следующие теоретические и практические задачи:
описать основные понятия и теоретические основы корпусно-структурного анализа;
Объектом исследования являются семантика глаголов русского языка. Предмет исследования – семантическая валентность глаголов и её связь с их значениями. Материалом исследования является корпус Araneum Russicum Minus4 и Национальный корпус русского языка5.
Теоретическая значимость работы определяется подробным описанием методики, не используемой ранее на материале русского языка, и анализом её эффективности. Практическая значимость данного исследования заключается в том, что полученные результаты могут составить основу для создания словаря валентностей русского языка, пригодного для использования как в теоретических, так и в практических целях.
Данная работа состоит из введения, трёх глав, заключения, списка литературы из 40 названий и 2 приложений. В первой главе описываются теоретические вопросы, связанные с описанием семантики глаголов русского языка и существующие ресурсы для английского, чешского и русского языков. Вторая глава посвящена теоретическим основам корпусно-структурного анализа, его главным понятиям и «Словарю паттернов английских глаголов». В третьей главе описан эксперимент по составлению словарных статей методами корпусно-структурного анализа, отмечены основные особенности, связанные с системой русского языка, и представлена оценка полученных результатов.