Атты І халықаралық конференция ЕҢбектері

МАШИНАЛЫҚ АУДАРУ ЖҮЙЕЛЕРІ

жүктеу/скачать 8,57 Mb.

Pdf көрінісі

бет	263/326
Дата	07.01.2022
өлшемі	8,57 Mb.
	#19269

1 ... 259 260 261 262 263 264 265 266 ... 326

Байланысты:
Болатбек М. (1)

МАШИНАЛЫҚ АУДАРУ ЖҮЙЕЛЕРІ
СИСТЕМЫ МАШИННОГО ПЕРЕВОДА
MACHINE TRANSLATION SYSTEMS

271

Д.Ш. СУЛЕЙМАНОВ, А.Р. ГАТИАТУЛЛИН, Р.А. ГИЛЬМУЛЛИН,
М.М. АЮПОВ

НИИ “Прикладная Семиотика” Академии наук Республики Татарстан

К РАЗРАБОТКЕ ТАТАРСКО-ТУРЕЦКОГО МАШИННОГО ПЕРЕВОДЧИКА
6

Введение
В настоящее время большинство систем машинного перевода, особенно для языков индо-
европейской  группы,  основано  на  статистическом  подходе.  Это  объясняется,  как  рядом
очевидных преимуществ такого подхода, таких как, возможность «самообучения», гладкость
перевода,  переносимость  технологии  на  любые  языковые  пары,  так  и,  главным  образом,
наличием  достаточного  количества  параллельных  корпусов.  Собственно,  наличие
паралельных  корпусов  является  важным  и  непременным  условием  для  эффективного
применения  статистического  метода  перевода.  Ситуация  для  языков  тюркской  группы  в
настоящее  время  совершенно  иная  -  для  большинства  языков  этой  группы  практически  не
имеется  параллельных  национальных  корпусов.  Как  показывает  анализ  электронных
корпусов языков в сети Интернет, только электронные параллельные корпуса для турецкого
и  уйгурского  языков  (уйгурско-китайский  параллельный  корпус)  обладают  достаточным
объемом параллельных текстов, которые могут быть использованы для создания машинных
переводчиков на основе статистического подхода.
С  середины  90-х  годов  началась  активная  работа  по  созданию  машинных  переводчиков
для  тюркских  языков.  В  частности,  в  Интернете  сегодня  доступен  целый  ряд  таких
переводчиков  -  русско-узбекский  (www.spells.uz),  русско-казахский,  казахско-русский
(www.sanasoft.kz),  азербайджано-английский,  азербайджано-турецкий  (www.dilmanc.az),
уйгурско-китайский  (www.jofcis.com/downloadpaper.aspx?),  уйгурско-японский  [Muhtar  M.,
1994]  и  турецко-крымско-татарский  [Altıntas,  2000]  переводчики.  Вместе  с  тем,  в  списке
языков  перевода,  осуществляемых  системой  Google,  из  тюркских  языков  представлены
только турецкий и азербайджанский языки.
В двух из этих систем машинного перевода производится перевод для близкородственных
языков:  азербайджано-турецкий  [Fatullayev,  2008]  и  турецко-крымско-татарский

[Altıntas,
2000].  В  обоих  проектах  используется  RBMT  (Rule  Based  Machine  Translation)  подход,  где
для  решения  задач  морфологического  анализа  и  синтеза  словоформ  тюркских  языков
использованы
фонологические
и
морфотактические
правила
автоматического
морфологического  анализа  в  двухуровневой  модели  морфологии,  реализованной  в  системе
PC  KIMMO.  PC  KIMMO  –  это  компьютерная  программа,  которая  использует
лингвистическое  описание  фонологии  и  морфологии  естественного  языка  и  специальным
образом  размеченный  словарь  (Лексикон)  для  распознавания  и  генерации  слов  на  этом
языке.  Использование  RBMT  подхода,  скорее  всего,  объясняется  тем,  что  статистический
подход плохо справляется с анализом агглютинативных конструкций морфологии тюркских
языков.
Хотя  RBMT  подход  тоже  имеет  свои  слабые  стороны,  среди  которых  можно  отметить
трудоемкость и длительность разработки, а также необходимость постоянно поддерживать и
актуализировать лингвистические базы данных, для реализации систем татарско-турецкого и
татарско-казахского машинного перевода в НИИ Прикладная семиотика был выбран именно

6
Исследование выполнено в рамках научно-исследовательского проекта РФФИ («Математические модели,
методы, технологии и системы обработки многоязыковых текстов тюркских языков для задач машинного
перевода»), проект № 12-07-97015

272

RBMT  метод,  в  первую  очередь,  в  силу  отсутствия  базы  параллельных  текстов,  а  также
исходя из желания добиться наибольшей точности перевода.
Система  перевода  для  близкородственных  языков  строится  на  основе  прагматически-
ориентированного  подхода  к  разработке  лингвистических  моделей  [Сулейманов,  1998].
Прагматически-ориентированный  подход  позволяет  более  детально  прорабатывать  модели
определенного  языкового  уровня  в  зависимости  от  целевой  ориентированности
разрабатываемой  системы  и  определять  минимальный  набор  средств  для  решения
определенного  круга  лингвистических  задач.  Эффективность  системы  перевода,
разрабатываемая на основе этого подхода, может быть обеспечена на уровне формирования
лингвистических  моделей  разного  уровня,  за  счет  учета  близости  структурных  и  типовых
характеристик языков внутри одной языковой группы.
Языки  внутри  одной  тюркской  языковой  группы,  в  число  которых  входят  татарский,
казахский  и  турецкий,  обладают  большим  сходством  на  всех  языковых  уровнях.  Поэтому
нами  выдвинута  гипотеза,  что  при  разработке  систем  перевода  внутри  тюркских  языков
основную часть перевода будут обеспечивать лингвистические модели морфологического и
морфо-синтаксического  уровней.  Исходя  из  этой  гипотезы  и  в  соответствии  с
прагматически-ориентированным  подходом  разработана  общая  архитектура  системы
машинного перевода (рис.1).

Рис.1. Общая архитектура работы СМП для близкородственных языков

Как  правило,  благодаря  практической  идентичности  синтаксической  структуры
предложений,
при
переводе
между
близкородственными
языками
имеющиеся
неоднозначности в исходном тексте в том же виде переходят в переводной текст на другом
языке.  Такая  же  ситуация  со  словоформами,  в  которых  имеет  место  совпадение
многозначности в корневых и аффиксальных морфемах. На рис.2 приведен пример перевода
словоформы  с  казахского  языка  на  татарский,  при  котором  в  результате  перевода
неоднозначность,  изначально  содержащаяся    в  казахской  словоформе,  сохраняется  и  в
татарском.

Рис 2. Совпадающие варианты перевода

273

Тем  не  менее,  на  уровне  слов,  словосочетаний,  а  также  на  уровне  соответствия
аффиксальных  морфем,  а  в  ряде  случаев  и  на  уровне  синтаксических  структур,  возникают
несоотвествия  в  интерпретации  их  значений,  и  тем  самым,  возникают  нетождественные
неоднозначности, что требует создания соотвествующих схем их разрешения.
Такая система, реализующая схемы разрешения, и показанная на рис.1 – система перевода
конструкций с одного языка на другой, осуществляет перевод на трех уровнях в зависимости
от  результатов  анализа:  перевод  морфемы  в  морфему,  словоформы  в  словоформу,
многословной конструкции в многословную конструкцию.
В  том  случае,  когда  применение  простых  конструкций  не  дает  однозначного  перевода,
осуществляется перевод с помощью более сложных языковых конструкций. Такая ситуация
может  возникнуть  в  случае  несовпадения  порядка  следования  морфем  в  словоформе.  В
качестве  примера  приведем  перевод  словоформ  татарского  и  турецкого  языков,  когда  в
турецком  языке  морфема  персональности  следует  справа  от  модальной  вопросительной
морфемы, а в татарском наоборот:
тур.: Ben biliyor mu-yum? ‘Я знаю?’
тат.: Мин белә-м-ме? ‘Я знаю?’
В этом случае перевод морфемы в морфему невозможен.

жүктеу/скачать 8,57 Mb.

Достарыңызбен бөлісу:

1 ... 259 260 261 262 263 264 265 266 ... 326