Атты І халықаралық конференция ЕҢбектері


МАШИНАЛЫҚ АУДАРУ ЖҮЙЕЛЕРІ



Pdf көрінісі
бет32/39
Дата25.12.2016
өлшемі8,57 Mb.
#403
1   ...   28   29   30   31   32   33   34   35   ...   39

МАШИНАЛЫҚ АУДАРУ ЖҮЙЕЛЕРІ 
СИСТЕМЫ МАШИННОГО ПЕРЕВОДА 
MACHINE TRANSLATION SYSTEMS 

271 
 
Д.Ш. СУЛЕЙМАНОВ, А.Р. ГАТИАТУЛЛИН, Р.А. ГИЛЬМУЛЛИН, 
 М.М. АЮПОВ  
 
 
НИИ “Прикладная Семиотика” Академии наук Республики Татарстан 
 
 
К РАЗРАБОТКЕ ТАТАРСКО-ТУРЕЦКОГО МАШИННОГО ПЕРЕВОДЧИКА
6
 
 
Введение 
В настоящее время большинство систем машинного перевода, особенно для языков индо-
европейской  группы,  основано  на  статистическом  подходе.  Это  объясняется,  как  рядом 
очевидных преимуществ такого подхода, таких как, возможность «самообучения», гладкость 
перевода,  переносимость  технологии  на  любые  языковые  пары,  так  и,  главным  образом, 
наличием  достаточного  количества  параллельных  корпусов.  Собственно,  наличие 
паралельных  корпусов  является  важным  и  непременным  условием  для  эффективного 
применения  статистического  метода  перевода.  Ситуация  для  языков  тюркской  группы  в 
настоящее  время  совершенно  иная  -  для  большинства  языков  этой  группы  практически  не 
имеется  параллельных  национальных  корпусов.  Как  показывает  анализ  электронных 
корпусов языков в сети Интернет, только электронные параллельные корпуса для турецкого 
и  уйгурского  языков  (уйгурско-китайский  параллельный  корпус)  обладают  достаточным 
объемом параллельных текстов, которые могут быть использованы для создания машинных 
переводчиков на основе статистического подхода. 
С  середины  90-х  годов  началась  активная  работа  по  созданию  машинных  переводчиков 
для  тюркских  языков.  В  частности,  в  Интернете  сегодня  доступен  целый  ряд  таких 
переводчиков  -  русско-узбекский  (www.spells.uz),  русско-казахский,  казахско-русский 
(www.sanasoft.kz),  азербайджано-английский,  азербайджано-турецкий  (www.dilmanc.az), 
уйгурско-китайский  (www.jofcis.com/downloadpaper.aspx?),  уйгурско-японский  [Muhtar  M., 
1994]  и  турецко-крымско-татарский  [Altıntas,  2000]  переводчики.  Вместе  с  тем,  в  списке 
языков  перевода,  осуществляемых  системой  Google,  из  тюркских  языков  представлены 
только турецкий и азербайджанский языки. 
В двух из этих систем машинного перевода производится перевод для близкородственных 
языков:  азербайджано-турецкий  [Fatullayev,  2008]  и  турецко-крымско-татарский
 
[Altıntas, 
2000].  В  обоих  проектах  используется  RBMT  (Rule  Based  Machine  Translation)  подход,  где 
для  решения  задач  морфологического  анализа  и  синтеза  словоформ  тюркских  языков 
использованы 
фонологические 
и 
морфотактические 
правила 
автоматического 
морфологического  анализа  в  двухуровневой  модели  морфологии,  реализованной  в  системе 
PC  KIMMO.  PC  KIMMO  –  это  компьютерная  программа,  которая  использует 
лингвистическое  описание  фонологии  и  морфологии  естественного  языка  и  специальным 
образом  размеченный  словарь  (Лексикон)  для  распознавания  и  генерации  слов  на  этом 
языке.  Использование  RBMT  подхода,  скорее  всего,  объясняется  тем,  что  статистический 
подход плохо справляется с анализом агглютинативных конструкций морфологии тюркских 
языков. 
Хотя  RBMT  подход  тоже  имеет  свои  слабые  стороны,  среди  которых  можно  отметить 
трудоемкость и длительность разработки, а также необходимость постоянно поддерживать и 
актуализировать лингвистические базы данных, для реализации систем татарско-турецкого и 
татарско-казахского машинного перевода в НИИ Прикладная семиотика был выбран именно 
                                                 
6
 Исследование выполнено в рамках научно-исследовательского проекта РФФИ («Математические модели, 
методы, технологии и системы обработки многоязыковых текстов тюркских языков для задач машинного 
перевода»), проект № 12-07-97015 

272 
 
RBMT  метод,  в  первую  очередь,  в  силу  отсутствия  базы  параллельных  текстов,  а  также 
исходя из желания добиться наибольшей точности перевода.  
Система  перевода  для  близкородственных  языков  строится  на  основе  прагматически-
ориентированного  подхода  к  разработке  лингвистических  моделей  [Сулейманов,  1998]. 
Прагматически-ориентированный  подход  позволяет  более  детально  прорабатывать  модели 
определенного  языкового  уровня  в  зависимости  от  целевой  ориентированности 
разрабатываемой  системы  и  определять  минимальный  набор  средств  для  решения 
определенного  круга  лингвистических  задач.  Эффективность  системы  перевода, 
разрабатываемая на основе этого подхода, может быть обеспечена на уровне формирования 
лингвистических  моделей  разного  уровня,  за  счет  учета  близости  структурных  и  типовых 
характеристик языков внутри одной языковой группы.  
Языки  внутри  одной  тюркской  языковой  группы,  в  число  которых  входят  татарский, 
казахский  и  турецкий,  обладают  большим  сходством  на  всех  языковых  уровнях.  Поэтому 
нами  выдвинута  гипотеза,  что  при  разработке  систем  перевода  внутри  тюркских  языков 
основную часть перевода будут обеспечивать лингвистические модели морфологического и 
морфо-синтаксического  уровней.  Исходя  из  этой  гипотезы  и  в  соответствии  с 
прагматически-ориентированным  подходом  разработана  общая  архитектура  системы 
машинного перевода (рис.1).  
 
 
 
Рис.1. Общая архитектура работы СМП для близкородственных языков 
 
Как  правило,  благодаря  практической  идентичности  синтаксической  структуры 
предложений, 
при 
переводе 
между 
близкородственными 
языками 
имеющиеся 
неоднозначности в исходном тексте в том же виде переходят в переводной текст на другом 
языке.  Такая  же  ситуация  со  словоформами,  в  которых  имеет  место  совпадение 
многозначности в корневых и аффиксальных морфемах. На рис.2 приведен пример перевода 
словоформы  с  казахского  языка  на  татарский,  при  котором  в  результате  перевода 
неоднозначность,  изначально  содержащаяся    в  казахской  словоформе,  сохраняется  и  в 
татарском. 
 
 
 
Рис 2. Совпадающие варианты перевода 
 

273 
 
Тем  не  менее,  на  уровне  слов,  словосочетаний,  а  также  на  уровне  соответствия 
аффиксальных  морфем,  а  в  ряде  случаев  и  на  уровне  синтаксических  структур,  возникают 
несоотвествия  в  интерпретации  их  значений,  и  тем  самым,  возникают  нетождественные 
неоднозначности, что требует создания соотвествующих схем их разрешения. 
Такая система, реализующая схемы разрешения, и показанная на рис.1 – система перевода 
конструкций с одного языка на другой, осуществляет перевод на трех уровнях в зависимости 
от  результатов  анализа:  перевод  морфемы  в  морфему,  словоформы  в  словоформу,  
многословной конструкции в многословную конструкцию.  
В  том  случае,  когда  применение  простых  конструкций  не  дает  однозначного  перевода, 
осуществляется перевод с помощью более сложных языковых конструкций. Такая ситуация 
может  возникнуть  в  случае  несовпадения  порядка  следования  морфем  в  словоформе.  В 
качестве  примера  приведем  перевод  словоформ  татарского  и  турецкого  языков,  когда  в 
турецком  языке  морфема  персональности  следует  справа  от  модальной  вопросительной 
морфемы, а в татарском наоборот: 
тур.: Ben biliyor mu-yum? ‘Я знаю?’ 
тат.: Мин белә-м-ме? ‘Я знаю?’ 
В этом случае перевод морфемы в морфему невозможен. 
 
2. Лингвистические ресурсы 
Для  решения  задачи  создания  переводчика  требуется  большое  количество 
лингвистических  ресурсов,  соответственно,  нами  был  произведен  анализ  имеющегося  на 
сегодня  материала,  готового  для  использования  в  проекте.  Анализ  показал,  для  
использования  в  задачах  перевода  между  татарским  и  другими  тюркскими  языками  в 
настоящее время реально доступны только  татарско-турецкий и турецко-татарский словари 
объемом  около  20  000  словарных  статей.  Вместе  с  тем,  даже  эти  словари  изданные  в 
бумажном  виде,  не  представлены  в  Интернете  в  электронном  виде.  Из  этого  следует,  что 
необходимо активизировать работу по созданию многоязычного словаря тюркских языков. 
Авторами  предложена  структура  многоязычного  словаря,  в  соответствии  с  которой 
словарь  должен  содержать  в  себе  не  только  лексическую,  но  и  морфологическую 
информацию (рис.3).  
 
 
 
Рис.3. Архитектура базы данных с многоязычным словарем 

274 
 
Согласно этой модели база данных состоит из N взаимосвязанных компонент для каждого 
из  используемых  языков.
 
Каждая  из  компонент  имеет  независимую  структуру, 
обусловленную  языковой  спецификой.  Компоненты  взаимосвязаны между  собой  на  уровне 
лексических эквивалентов (семантический код) и морфологических категорий.  
Компонента  для  каждого  языка  содержит  как  лексическую,  так  и  морфологическую 
информацию.  Это  сделано  с  целью  оптимизации  поиска  в  базе  данных,  чтобы  в  одном 
словаре  базы  данных  производить  поиск  требуемой  компоненты  только  один  раз, 
одновременно вытаскивая из него как морфологическую информацию, так и информацию о 
лексических эквивалентах найденной лексемы. 
Структуру  словаря  основ  для  одного  языка  можно  видеть  в  таблице  1,  где  представлен 
фрагмент заполнения словаря основ для татарского языка. 
 
Таблица 1 
МТ 
Сем.код 
Словарная основа 
Неизменяемая часть 
МФТ 

734 
Арлекин (рус.: Арлекин) 
арлекин 


734 
Шамакай (Грязнуля) 
шамака 
15 

734 
мәзәкче (юморист) 
мәзәкче 


734 
балаганчы (балаганщик) 
балаганчы 


734 
кәмитче (карусельщик) 
кәмитче  


734 
мәсхәрәче (юморной) 
мәсхәрәче  

 
Рассмотрим содержание столбцов таблицы словаря основ. 
По  морфонологическим  правилам  татарского  языка,  после  присоединения  к  основе 
некоторых  алломорфов,  в  самой  основе  могут  происходить  определенные  изменения,  как 
правило,  это  чередования  или  пропуск  отдельных  букв.  Для  того,  чтобы  отразить  эти 
изменения  в  словарях,  в  словаре  основ  содержится  два  варианта  основ:  Словарная  форма, 
Наибольшая  неизменяемая  форма.  Сами  возможные  изменения  представлены  в  словаре 
окончаний.  
Все основы в словаре основ представляются в безаффиксальной форме, для глаголов это 
форма повелительного наклонения.  
Связь  лексем  в  разных  языковых  компонентах  словаря  осуществляется  с  помощью 
семантического кода, который содержится в поле Семантический код. Слова с одним и тем 
же значением имеют один и тот же семантический код. Так, на примере в таблице 1 приведен 
список  лексем  с  одинаковым  семантическим  кодом.  Это,  с  одной  стороны,  позволяет  в 
поисковых системах искать не только тексты с заданными словами, но и его синонимами, с 
другой  стороны,  невозможно  всегда  однозначно  определить  вариант  перевода,  поэтому  на 
этом  этапе  перевода  выдаются  все  возможные  варианты,  а  наиболее  вероятный  вариант 
перевода  уже  будет  выбираться  на  этапах  снятия  неоднозначности,  используя 
соответствующие синтаксические и семантические механизмы.  
В  таблицах  2-3  (Таблица  2  –  казахский  язык,  Таблица  3  –  турецкий  язык)  приведены 
фрагменты словарей основ тюркских языков с тем же самым семантическим кодом, что и во 
фрагменте  татарского  словаря.  Из  этих  примеров  видно,  что  словари  для  всех  тюркских 
языков имеют аналогичную структуру. Для каждого языка количество синонимичных основ 
может быть разное. 
 
Таблица 2 
МТ  Код 
Словарная основа 
Неизменяемая часть 
МФТ 
N   734 
арлекин 
арлекин 

N   734 
қуақы 
қуақы 

N   734 
масқарапаз 
масқарапаз 


275 
 
N   734 
қалжыңқой 
қалжыңқой 

N   734 
қылжақпас  
қылжақпас  

 
Таблица 3 
МТ  Код 
Словарная основа 
Неизменяемая часть 
МФТ 

734 
soytarı  
soytarı 


734 
arleken  
arleken  

 
Следующим лингвистическим ресурсом являются словари окончаний для каждого из этих 
языков. Процесс создания словарей окончаний состоит из двух этапов: 
1.
 
Сравнительный анализ аффиксальных морфем, используемых тюркских языков; 
2.
 
Определение морфонологических типов. 
Сравнительный  анализ  морфологических  категорий  татарского,  казахского  и  турецкого 
языков показал, что для именных конструкций системы морфологических категорий во всех 
этих языках очень близки и основная масса морфологических категорий и выражающих их 
аффиксальных  морфем  полностью  совпадают.  Между  ними  существует  только 
морфонологическая разница, как например количество алломорфов аффиксальных морфем.
 
Есть  только  небольшие  различия,  как  например  наличие  инструментального  падежа  в 
казахском и турецком языках, выражаемого с помощью аффикса, а в татарском аналогичная 
категория выражается с помощью послелога. 
Основное  различие  между  морфологическими  категориями  татарского,  казахского  и 
турецкого  языков  заключается  в  глагольных  категориях.  Результаты  этого  анализа  будут 
отражены в отдельной публикации.  
 
3.
 
Реализация системы в виде Web-ресурса 
Система  перевода  для  близкородственных  языков  реализуется  в  виде  отдельного  веб-
ресурса, рабочий вариант которого доступен в сети Интернет по адресу: 
http://sem.antat.ru/
.  
Рассмотрим  пользовательский  интерфейс  ресурса  на  данном  этапе.  Главная  страница 
состоит из 3 вкладок (рис.4): 
– «Перевод словоформы», 
– «Перевод предложений», 
– «Перевод текста из файла». 
 
 
 
Рис. 4. Главная страница сайта 
 
На вкладке «Перевод словоформы» (рис.4) сначала из списка «Язык перевода» выбирается 
язык исходной словоформы. Исходная словоформа может быть на татарском, казахском или 
турецком языке. Затем в поле «Перевод на языки» необходимо отметить языки, на которые 
следует перевести исходную словоформу. В поле «Введите слово для перевода» необходимо 
ввести  словоформу  для  перевода,  после  чего  нажать  на  кнопку  «Перевести».  Для  примера 

276 
 
возьмем  словоформу  на  татарском  языке  «өйдәге»  (рус.:  то,  что  в  доме)  и  выполним  его 
перевод. Результат перевода показан на рис.5. 
 
 
Рис. 5. Перевод словоформы 
 
На  вкладке  «Перевод  предложений»  (рис.6)  можно  перевести  целое  предложение.  Для 
этого  сначала  из  списка  «Язык  перевода»  выбирается  язык  исходного  текста.  Затем  в  поле 
«Перевод на языки» необходимо отметить языки, на которые следует перевести набранный 
текст.  В  поле  «Введите  текст  для  перевода»  вводится  текст,  и  нажимается  кнопка 
«Перевести».   
 
 
 
Рис. 6. Перевод предложений 
 
Для  примера  возьмем  предложение  на  татарском  языке  «Абый  авылдагы  дусларына 
кайтты»  (рус.:  Старший  брат  приехал  к  друзьям  в  деревню)  и  выполним  его  перевод. 
Результат показан на рис.7. 
Как видно из рис.7, на сегодняшний день реализация программы находится на начальном 
этапе  и  в  ней  предстоит  еще  реализовать  целый  ряд  планируемых  модулей,  в  частности, 
механизмы снятия возникающих многозначностей, и поэтому на каждом из целевых языков 
получается целый набор переводных вариантов. 
 

277 
 
 
 
Рис. 7. Пример перевода предложения 
 
Литература 
1.
 
[Muhtar  M.,  1994]  Muhtar,  M.,  Casablanca,  F.,  Toyama,  K.,  Inagaki,  Y.:  Particle-Based 
Machine  Translation  for  Altaic  Languages:  the  Japanese-Uighur  Case.  In:  Proceedings  of  the  3rd 
Pacific Rim International Conference on Artificial Intelligence, Beijing, China, vol. 2, pp. 725–731 
(1994). 
2.
 
[Altıntas, 2000] Kemal Altıntas Turkish to Crimean Tatar Machine Translation System. MSc 
Thesis, Bilkent University, Ankara, 2000. 
3.
 
[Fatullayev, 2008] Fatullayev R, Abbasov A, Fatullayev A. Dilmanc is the 1st MT system for 
Azerbaijani.  In: Proc. of SLTC-08, Stockholm, Sweden, 2008. pp.63-64. 
4.
 
[Сулейманов,  1998]  Сулейманов  Д.Ш.  Обработка  ЕЯ-текстов  на  основе 
прагматически-ориентированных  лингвистических  моделей  //  Обработка  текста  и 
когнитивные технологии. Вып.3., 1998. С.205-212. 
 
 
М.Х. ХАКИМОВ 
 
 
Национальный Университет Узбекистана им. Мирзо Улугбека,  
г. Ташкент, Республика Узбекистан 
 
 
МОДЕЛИРУЕМАЯ ТЕХНОЛОГИЯ МАШИННОГО ПЕРЕВОДА 
 
Осуществление  компьютерного  перевода  производится  с  помощью  специальной  среды, 
составляющими которой являются программы, реализующие алгоритм перевода, в которых 
разработана  последовательность  однозначно  и  строго  определенных  действий  над  текстом 
для  нахождения  переводных  соответствий  в  данной  паре  языков  L
1
  -  L
2
  при  заданном 

278 
 
направлении  перевода.  Система  компьютерного  перевода  включает  в  себя  двуязычные 
словари,  снабженные  необходимыми  грамматическими  информациями  (морфологической, 
синтаксической  и  семантической)  для  обеспечения  передачи  эквивалентных,  вариантных  и 
трансформационных  переводных  соответствий,  а  также  алгоритмические  средства  грамма-
тического анализа, реализующие какую-либо из принятых для автоматической переработки 
текста формальных грамматик. 
Коммуникативная  эквивалентность  текста  перевода  по  отношению  к  оригиналу  должна 
обеспечить выполнения трех основных требований:  

 
текст  перевода  должен  в  возможно  более  полном  объеме  передавать  содержание 
оригинала,  что  прежде  всего  означает  недопустимость  произвольного  опущения  или 
добавления информации; 

 
текст перевода должен соответствовать нормам языка перевода, так как их нарушение, 
по  меньшей  мере,  создает  помехи  для  восприятия  информации,  а  иногда  ведет  и  к  ее 
искажению; 

 
текст перевода должен быть примерно сопоставим с оригиналом по своему объему, чем 
обеспечивается  сходство  стилистического  эффекта  с  точки  зрения  лаконичности  или 
развернутости выражения. 
Машинный  перевод  (МП)  -  это  выполняемое  на  компьютере  действие  по преобразова-
нию текста с одного естественного языка в эквивалентный по содержанию текст на другом 
языке, а также результат такого действия. 
После  машинного  или  автоматического  перевода  с  помощью  редактора  осуществляется 
постредактирование, который исправляет ошибки и недочеты в переведенном на компьютере 
тексте. 
Действующие  системы  компьютерного  перевода  ориентированы  на  конкретные  пары 
языков  (например,  английский  и  русский  или  японский  и  английский)  и  используют,  как 
правило,  переводные  соответствия  либо  на  поверхностном  уровне,  либо  на  некотором 
промежуточном  уровне  между  входным  и  выходным  языком.  Качество  компьютерного 
перевода  зависит  от  объема  словаря,  объема  информации,  приписываемой  лексическим 
единицам, от тщательности составления и проверки работы алгоритмов анализа и синтеза, от 
эффективности программного обеспечения. Современные аппаратные и программные сред-
ства допускают использование словарей большого объема, содержащих подробную грамма-
тическую информацию. Информация может быть представлена как в декларативной (описа-
тельной), так и в процедурной (учитывающей потребности алгоритма) форме. 
Мощное  внедрение  новых  информационных  технологий  дал  новый  импульс  для 
дальнейшего  развития  теории  и  практики  машинного  перевода  (МП).  Мировая  индустрия 
МП объединяет исследователей, разработчиков программного обеспечения и пользователей. 
За последние несколько лет, отмечается небывалый рост интереса к МП, который в основном 
связывают  с  развитием  Интернета.  Никогда  ранее  МП  не  был  известен  столь  широкому 
кругу  пользователей.  И  никогда  еще  у  программного  обеспечения  этого  класса  не  было 
пользователей  с  таким  громадным  опытом  работы.  В  США  сложились  особые  отношения 
между  разработчиками  систем  МП  и  правительством,  которое  считает  МП  "ключом  в 
информационный  век".  Особенно  важным  считается  использование  систем  МП  в  научных 
исследованиях,  здравоохранении,  в  области  высоких  технологий,  охраны  окружающей 
среды. 
Перспективы  развития  компьютерного  перевода  связаны  с  дальнейшей  разработкой  и 
углублением  теории  и  практики  перевода,  как  компьютерного,  так  и  «человеческого».  Для 
развития теории важны результаты сопоставительного языкознания, общей теории перевода, 
теории  закономерных  соответствий,  способов  представления  знаний,  оптимизации  и 
совершенствования  лингвистических  алгоритмов.  Новые  и  более  эффективные  словари  с 
необходимой словарной информацией, строгие теории терминологизации лексики, теория и 
практика  работы  с  подъязыками помогут  повысить  качество  перевода  лексических  единиц. 
Формальные грамматики, ориентированные на перевод, дадут возможность оптимизировать 

279 
 
алгоритмы  нахождения  переводных  соответствий  в  данной  коммуникативной  ситуации, 
которая может быть описана в рамках соответствующих прикладных теорий представления 
знаний.  Наконец,  новые  возможности  программирования  и  вычислительной  техники  также 
будут  вносить  свой  вклад  в  совершенствование  и  дальнейшее  развитие  теории  и  практики 
машинного перевода. 
Современный  машинный  перевод  следует  отличать  от  использования  компьютеров  в 
помощь человеку-переводчику. В последнем случае имеется в виду автоматический словарь, 
помогающий  человеку  быстрее  подбирать  нужный  переводной  эквивалент.  В  содержание 
термина  «машинный  перевод»  входит  представление  о  том,  что  главную,  большую  часть 
работы машина берет на себя, оставляя человеку лишь контроль и исправление ошибок, в то 
время как компьютерный словарь в помощь человеку  - это чисто вспомогательное средство 
для  быстрого  нахождения  переводных  соответствий;  однако  при  этом,  такого  рода 
электронных  словарях  в  ограниченной  степени  могут  быть  реализованы  и  некоторые 
функции, присущие системам машинного перевода.  
Флективно-корневые языки, к которым относится, в частности русский язык, характеризу-
ются  по  словам  Н.С.  Трубецкого  «…неуловимыми  корнями,  постоянно  меняющими  свою 
огласовку и теряющимися среди префиксов и суффиксов», с трудом поддаются из-за своей 
идиоматичности модельному представлению и алгоритмизации. Но, тем не менее, в русском 
языковедении  на  сегодняшний  день  достаточно  широко  представлено  теоретическое 
описание  и  практическая  разработка  многих  сторон  русской  языковой  системы,  что  даёт 
возможность  широких  обобщений  и  сопоставлений  с  языками  другой  структуры  на 
конкретном и элементарном прикладном уровне. 
Между  тем  агглютинирующие  языки  (и  среди  них  особенно  узбекский  язык)  с 
прозрачным  построением  парадигм  и  относительно  регулярным  порождением  словоформ, 
представляющих  собой  синтагматические  цепочки  хорошо  ограниченных  друг  от  друга 
корневых  словообразующих  и  формообразующих  морфем,  гораздо  более  удобны  для 
применения приёмов современной прикладной лингвистики. Сожаление вызывает тот факт, 
что  в  узбекском  языковедении  всё  ещё  очень  мало  исследований  и  лексикографических 
произведений, которые так необходимы для нужд логическо-лингвистического моделирова-
ния и компьютерного перевода.  
Учёт  специфических  особенностей  каждого  языка  данной  пары  имеет  определяющее 
значение,  как  для  их  системного  изучения,  так  и  для  логическо-лингвистического  модели-
рования. Следует отметить, что теоретико-языковедческими и инженерно-лингвистическими 
вопросами индоевропейских и иноструктурных языков занимаются  – языковеды,    матема-
тики, программисты, историки, философы, социологи, психологи и психиатры. 
С одной стороны, этот интерес объясняется тем, что проблема человека становится одним 
из  центральных  вопросов  нашей  цивилизации,  а  исследование  его  языка  превращается  в 
одно  из  действенных  средств  изучения  мышления  человека,  его  индивидуального  и 
коллективного поведения, а одновременно и истории народа – носителя конкретного языка. 
С  другой  стороны,  внимание  к  языку  и  лингвистике  стимулирует  характерный  для  нашей 
эпохи  научно-технической  революции  –  интерес  к  нечётким,  но  хорошо  приспосабливаю-
щимся  к  любой  обстановке  и  надёжно  функционирующим  системам  большой  сложности. 
Классическим примером является система естественного языка. 
Сложные  и  нечёткие  системы  не  всегда  удаётся  до  конца  проанализировать,  а  затем  и 
смоделировать с помощью традиционного математического аппарата. Здесь нас интересуют 
два  вопроса:  пределы  применения  к  языку  современного  формального  аппарата,  а  также 
направление, в котором должен развиваться и совершенствоваться этот аппарат с тем, чтобы 
стать  эффективным  средством  изучения  и  моделирования  таких  хорошо  адаптирующихся 
нечётких  и  сложных  систем,  какими  являются  системы  разноструктурных  (например, 
русского и узбекского) языков. 
Для  построения  системы  компьютерного  перевода  должен  быть  решен  обширный  круг 
проблем: 

280 
 
1.  Лингвистические  проблемы  -  определение  состава  словника  для  выбранной  области, 
установление  запаса  сведений,  которые  должны  содержаться  в  словаре,  и  построение 
словаря, выбор типа грамматики и построение грамматической модели. 
2.  Математические  проблемы  -  разработка  общей  структуры  алгоритма  перевода.  Разра-
ботка  алгоритмов  отдельных  этапов,  разработка  формализмов  для  записи  лингвистических 
данных и для разработки алгоритма. 
3.  Проблемы  машинной  реализации  -  разработка  способов  хранения  данных,  создание 
системы  программирования,  разработки  комплекса  программ  реализующих  различные 
алгоритмы моделирования, а также разработка разного рода программ обслуживания. 
Математическое  описание  языка  основано  на  представлении  о  «правильных  текстах». 
Правильный  текст  определяется  как  последовательность  речевых  единиц,  подчиняющаяся 
определённым  закономерностям,  другими  словами,  правильный  текст  –  это  предложение, 
построенное по строго определённым правилам. Множеством  узлов этого предложения (П) 
служат  слова,  входящие  в  П.  Среди  узлов  –  один  корень,  не  подчинённый  никакому  узлу. 
Нельзя,  отправившись  из  какого-либо  узла  вдоль  стрелок,  вернуться  в  тот  же  узел.  Узлы 
дерева  подчинения  –  это  вхождения  слов  в  предложения.  Формально  для  каждого  (не 
слишком короткого) предложения можно построить много разных синтаксических структур 
любого  из  двух  видов,  но  среди  них  либо  одна  или  несколько  являются  правильными. 
Корнем правильного дерева подчинения служит обычно сказуемое. 
Более  совершенное  представление  синтаксической  структуры  предложения  (требующее, 
однако, более сложного математического аппарата) дают системы синтаксических групп, в 
которые  входят  как  словосочетания,  так  и  синтаксические  связи,  причём  не  только  между 
словами,  но  и  между  словосочетаниями.  Системы  синтаксических  групп  позволяют  совме-
щать строгость формального описания строения предложения с гибкостью, присущей тради-
ционным,  неформальным  описаниям.  Деревья  подчинения  и  системы  составляющих  явля-
ются предельными частными случаями систем синтаксических групп. 
Другой  раздел  математической  лингвистики,  занимающий  в  ней  центральное  место  - 
теория  формальных  грамматик,  начало  которой  было  положено  работами  Н.  Хомского  [1]. 
Она изучает способы описания закономерностей, характеризующих уже не отдельный текст, 
а всю совокупность правильных текстов того или иного языка. 
Современные  функционирующие  системы  МП  обеспечивают  лишь  40-55%  синтактико-
семантической  правильности  текста  перевода,  что  подтверждает  их все  еще  слабой  форма-
лизованности [2], т.к. именно строгая математическая формальность языка может обеспечить 
высокую  степень  в  точности  перевода.  Хотя  известно,  что  формализация  любого  естест-
венного  языка  относится  к  категории  трудно  решаемых  проблем.  Следует  отметить,  что 
особенно  актуальны  проблемы  формализации  узбекского  языка  и  внедрения  систем  МП  с 
включением узбекского языка в многоязычную ситуацию. В связи с этим проведение науч-
ных  исследований  в  области  формализации  естественных  языков,  разработка  и  внедрение 
многоязычных  систем  МП  требует  необходимых  теоретических  выкладок.  В  настоящей 
работе изложены основные понятия (аксиомы) для формальных систем МП в многоязычной 
ситуации. 

Достарыңызбен бөлісу:
1   ...   28   29   30   31   32   33   34   35   ...   39




©emirsaba.org 2024
әкімшілігінің қараңыз

    Басты бет