Описание и реализация методики
на примере системы РЕФЕРАТ
В этом разделе на примере системы РЕФЕ-
РАТ приводится компьютерная реализация опи-
санного выше подхода реферирования научно-
технической информации. Система РЕФЕРАТ,
архитектура которой дана на рис.1, предназначена
для предметной области математического модели-
рования.
Подъязык рефератов по математическому мо-
делированию отражает требования ГОСТа [7] к
структуре реферата как такового и специфику
предметной области математического моделиро-
вания.
По требованиям ГОСТа в тексте реферата сле-
дует четко и ясно излагать основные положения
статьи, избегая сложных языковых структур и со-
блюдая единство терминологии. Это требование
объясняется тем, что неправильное или сложное
языковое оформление реферата даже при корректно
отобранном содержании может привести к непра-
вильному пониманию реферата и ошибкам при его
переводе на иностранный язык. Длинные придаточ-
ные предложения, вставленные в основное предло-
жение, причастные и деепричастные обороты и т. д.
усиливают присущую естественному языку неодно-
значность, добавляя к лексической омонимии омо-
нимию синтаксическую. Поэтому система оформ-
ляет реферат статьи в форме предложений с про-
стой синтаксической структурой и терминологией,
использованной в исходной статье.
Специфика предметной области математиче-
ского моделирования отражена в содержании лин-
гвистической базы знаний системы, которая по-
строена на основе анализа русского корпуса статей
по математическому моделированию, опублико-
ванных в «Вестнике ЮУрГУ» в 2008–2012 гг. и
англоязычных статей сходной тематики, найден-
ных в Интернете. Основная часть лингвистических
знаний представлена в лексиконе системы.
Лексикографический компонент системы РЕ-
ФЕРАТ содержит русско-английский лексикон с
информацией, необходимой для а) формальной
фиксации знаний, б) алгоритмов анализа и синтеза
текстов рефератов на русском языке, в) алгорит-
мов перевода одно- и многокомпонентной лексики
(рис. 1).
Алгоритмический компонент содержит: а) ал-
горитмы обращения к лексикону, б) алгоритмы
анализа научно-технической документации, пре-
дусматривающие перевод текстовой информации
на формальный язык смыслов, в) алгоритмы син-
теза текстов рефератов на русском языке и г) алго-
ритмы перевода одно- и многокомпонентной лек-
сики на английский язык.
Для взаимодействия с пользователем разрабо-
тан интерактивный модуль извлечения знаний.
Система РЕФЕРАТ повторно использует в ка-
честве отдельных блоков некоторые модули про-
граммного обеспечения, ранее разработанного для
английского языка [8, 9]. Эти модули были адап-
тированы для обработки русского языка в соответ-
ствии с задачами описываемого приложения.
В целом в систему РЕФЕРАТ входят следую-
щие компоненты:
предметно-ориентированная база знаний,
которая включает лексикографический и алгорит-
мический компоненты
предметно-ориентированный анализатор
русских текстов, состоящий
o
из автоматических модулей, выделяю-
щих в тексте статьи именную (ИГ) и глагольную
(ГГ)
1
[10] терминологию. На выходе этого модуля
выдается текст статьи в интерактивном формате,
размеченный на именную терминологию и пре-
дикаты;
o
интерактивного модуля синтаксического
анализа генерируемого реферата, который пред-
ставляет отобранное автором содержание реферата
в виде формальных структур представления зна-
ний;
1
ИГ – именная группа; ГГ – глагольная группа.
|