271
Д.Ш. СУЛЕЙМАНОВ, А.Р. ГАТИАТУЛЛИН, Р.А. ГИЛЬМУЛЛИН,
М.М. АЮПОВ
НИИ “Прикладная Семиотика” Академии наук Республики Татарстан
К РАЗРАБОТКЕ ТАТАРСКО-ТУРЕЦКОГО МАШИННОГО ПЕРЕВОДЧИКА
6
Введение
В настоящее время большинство систем машинного перевода, особенно для языков индо-
европейской группы, основано на статистическом подходе. Это объясняется, как рядом
очевидных преимуществ такого подхода, таких как, возможность «самообучения», гладкость
перевода, переносимость технологии на любые языковые пары, так и, главным образом,
наличием достаточного количества параллельных корпусов. Собственно, наличие
паралельных корпусов является важным и непременным условием для эффективного
применения статистического
метода перевода. Ситуация для языков тюркской группы в
настоящее время совершенно иная - для большинства языков этой группы практически не
имеется параллельных национальных корпусов. Как показывает анализ электронных
корпусов языков в сети Интернет, только электронные параллельные корпуса для турецкого
и уйгурского языков (уйгурско-китайский параллельный корпус) обладают достаточным
объемом параллельных текстов, которые могут быть использованы для создания машинных
переводчиков на основе статистического подхода.
С середины 90-х годов началась активная работа по созданию машинных переводчиков
для тюркских языков. В частности, в Интернете сегодня доступен целый ряд таких
переводчиков - русско-узбекский (www.spells.uz), русско-казахский, казахско-русский
(www.sanasoft.kz), азербайджано-английский, азербайджано-турецкий (www.dilmanc.az),
уйгурско-китайский (www.jofcis.com/downloadpaper.aspx
?), уйгурско-японский [Muhtar M.,
1994] и турецко-крымско-татарский [Altıntas, 2000] переводчики. Вместе с тем, в списке
языков перевода, осуществляемых системой Google, из тюркских языков представлены
только турецкий и азербайджанский языки.
В двух из этих систем машинного перевода производится перевод для близкородственных
языков: азербайджано-турецкий [Fatullayev, 2008] и турецко-крымско-татарский
[Altıntas,
2000]. В обоих проектах используется RBMT (Rule Based Machine Translation) подход, где
для решения задач морфологического
анализа и синтеза словоформ тюркских языков
использованы
фонологические
и
морфотактические
правила
автоматического
морфологического анализа в двухуровневой модели морфологии, реализованной в системе
PC KIMMO. PC KIMMO – это компьютерная программа, которая использует
лингвистическое описание фонологии и морфологии естественного языка и специальным
образом размеченный словарь (Лексикон) для распознавания и генерации слов на этом
языке. Использование RBMT подхода, скорее всего, объясняется тем, что статистический
подход плохо справляется с
анализом агглютинативных конструкций морфологии тюркских
языков.
Хотя RBMT подход тоже имеет свои слабые стороны, среди которых можно отметить
трудоемкость и длительность разработки, а также необходимость постоянно поддерживать и
актуализировать лингвистические базы данных, для реализации систем татарско-турецкого и
татарско-казахского машинного перевода в НИИ Прикладная семиотика был выбран именно
6
Исследование выполнено в рамках научно-исследовательского проекта РФФИ («Математические модели,
методы, технологии и системы обработки многоязыковых текстов тюркских языков для
задач машинного
перевода»), проект № 12-07-97015
272
RBMT метод, в первую очередь, в силу отсутствия базы параллельных текстов, а также
исходя из желания добиться наибольшей точности перевода.
Система перевода для близкородственных языков строится на основе прагматически-
ориентированного подхода к разработке лингвистических моделей [Сулейманов, 1998].
Прагматически-ориентированный подход позволяет более детально прорабатывать модели
определенного языкового уровня в зависимости от целевой ориентированности
разрабатываемой системы и определять минимальный набор средств для решения
определенного круга лингвистических задач. Эффективность системы перевода,
разрабатываемая на основе этого подхода, может быть обеспечена на уровне формирования
лингвистических моделей разного уровня, за счет учета близости структурных и типовых
характеристик языков внутри одной языковой группы.
Языки внутри одной тюркской языковой группы, в число которых входят татарский,
казахский и турецкий, обладают большим сходством на всех языковых уровнях. Поэтому
нами выдвинута гипотеза, что при разработке систем перевода внутри тюркских языков
основную часть перевода будут обеспечивать лингвистические модели морфологического и
морфо-синтаксического уровней. Исходя из этой гипотезы и в соответствии с
прагматически-ориентированным подходом разработана общая архитектура системы
машинного перевода (рис.1).
Рис.1. Общая архитектура работы СМП для близкородственных языков
Как правило, благодаря практической идентичности синтаксической структуры
предложений,
при
переводе
между
близкородственными
языками
имеющиеся
неоднозначности в исходном тексте в том же виде переходят в переводной текст на другом
языке. Такая же ситуация со словоформами, в которых имеет место совпадение
многозначности в корневых и аффиксальных морфемах. На рис.2 приведен пример
перевода
словоформы с казахского языка на татарский, при котором в результате перевода
неоднозначность, изначально содержащаяся в казахской словоформе, сохраняется и в
татарском.
Рис 2. Совпадающие варианты перевода
273
Тем не менее, на уровне слов, словосочетаний, а также на уровне соответствия
аффиксальных морфем, а в ряде случаев и на уровне синтаксических структур, возникают
несоотвествия в интерпретации их значений, и тем самым, возникают нетождественные
неоднозначности, что требует создания соотвествующих схем их разрешения.
Такая система, реализующая схемы разрешения, и показанная на рис.1 – система перевода
конструкций с одного языка на другой, осуществляет перевод на трех уровнях в зависимости
от результатов анализа: перевод морфемы в морфему, словоформы в словоформу,
многословной конструкции в многословную конструкцию.
В том случае, когда применение простых конструкций не дает однозначного перевода,
осуществляется перевод с помощью более сложных языковых конструкций. Такая ситуация
может возникнуть в случае несовпадения порядка следования морфем в словоформе. В
качестве примера приведем перевод словоформ татарского и турецкого языков, когда в
турецком языке морфема персональности следует справа от модальной вопросительной
морфемы, а в
татарском наоборот:
тур.:
Ben biliyor mu-yum? ‘Я знаю?’
тат.:
Мин белә-м-ме? ‘Я знаю?’
В этом случае перевод морфемы в морфему невозможен.
Достарыңызбен бөлісу: