Атты І халықаралық конференция ЕҢбектері


Машинный  перевод  (МП)  -



Pdf көрінісі
бет268/326
Дата07.01.2022
өлшемі8,57 Mb.
#19269
1   ...   264   265   266   267   268   269   270   271   ...   326
Машинный  перевод  (МП)  -  это  выполняемое  на  компьютере  действие  по преобразова-
нию текста с одного естественного языка в эквивалентный по содержанию текст на другом 
языке, а также результат такого действия. 
После  машинного  или  автоматического  перевода  с  помощью  редактора  осуществляется 
постредактирование, который исправляет ошибки и недочеты в переведенном на компьютере 
тексте. 
Действующие  системы  компьютерного  перевода  ориентированы  на  конкретные  пары 
языков  (например,  английский  и  русский  или  японский  и  английский)  и  используют,  как 
правило,  переводные  соответствия  либо  на  поверхностном  уровне,  либо  на  некотором 
промежуточном  уровне  между  входным  и  выходным  языком.  Качество  компьютерного 
перевода  зависит  от  объема  словаря,  объема  информации,  приписываемой  лексическим 
единицам, от тщательности составления и проверки работы алгоритмов анализа и синтеза, от 
эффективности программного обеспечения. Современные аппаратные и программные сред-
ства допускают использование словарей большого объема, содержащих подробную грамма-
тическую информацию. Информация может быть представлена как в декларативной (описа-
тельной), так и в процедурной (учитывающей потребности алгоритма) форме. 
Мощное  внедрение  новых  информационных  технологий  дал  новый  импульс  для 
дальнейшего  развития  теории  и  практики  машинного  перевода  (МП).  Мировая  индустрия 
МП объединяет исследователей, разработчиков программного обеспечения и пользователей. 
За последние несколько лет, отмечается небывалый рост интереса к МП, который в основном 
связывают  с  развитием  Интернета.  Никогда  ранее  МП  не  был  известен  столь  широкому 
кругу  пользователей.  И  никогда  еще  у  программного  обеспечения  этого  класса  не  было 
пользователей  с  таким  громадным  опытом  работы.  В  США  сложились  особые  отношения 
между  разработчиками  систем  МП  и  правительством,  которое  считает  МП  "ключом  в 
информационный  век".  Особенно  важным  считается  использование  систем  МП  в  научных 
исследованиях,  здравоохранении,  в  области  высоких  технологий,  охраны  окружающей 
среды. 
Перспективы  развития  компьютерного  перевода  связаны  с  дальнейшей  разработкой  и 
углублением  теории  и  практики  перевода,  как  компьютерного,  так  и  «человеческого».  Для 
развития теории важны результаты сопоставительного языкознания, общей теории перевода, 
теории  закономерных  соответствий,  способов  представления  знаний,  оптимизации  и 
совершенствования  лингвистических  алгоритмов.  Новые  и  более  эффективные  словари  с 
необходимой словарной информацией, строгие теории терминологизации лексики, теория и 
практика  работы  с  подъязыками помогут  повысить  качество  перевода  лексических  единиц. 
Формальные грамматики, ориентированные на перевод, дадут возможность оптимизировать 


279 
 
алгоритмы  нахождения  переводных  соответствий  в  данной  коммуникативной  ситуации, 
которая может быть описана в рамках соответствующих прикладных теорий представления 
знаний.  Наконец,  новые  возможности  программирования  и  вычислительной  техники  также 
будут  вносить  свой  вклад  в  совершенствование  и  дальнейшее  развитие  теории  и  практики 
машинного перевода. 
Современный  машинный  перевод  следует  отличать  от  использования  компьютеров  в 
помощь человеку-переводчику. В последнем случае имеется в виду автоматический словарь, 
помогающий  человеку  быстрее  подбирать  нужный  переводной  эквивалент.  В  содержание 
термина  «машинный  перевод»  входит  представление  о  том,  что  главную,  большую  часть 
работы машина берет на себя, оставляя человеку лишь контроль и исправление ошибок, в то 
время как компьютерный словарь в помощь человеку  - это чисто вспомогательное средство 
для  быстрого  нахождения  переводных  соответствий;  однако  при  этом,  такого  рода 
электронных  словарях  в  ограниченной  степени  могут  быть  реализованы  и  некоторые 
функции, присущие системам машинного перевода.  
Флективно-корневые языки, к которым относится, в частности русский язык, характеризу-
ются  по  словам  Н.С.  Трубецкого  «…неуловимыми  корнями,  постоянно  меняющими  свою 
огласовку и теряющимися среди префиксов и суффиксов», с трудом поддаются из-за своей 
идиоматичности модельному представлению и алгоритмизации. Но, тем не менее, в русском 
языковедении  на  сегодняшний  день  достаточно  широко  представлено  теоретическое 
описание  и  практическая  разработка  многих  сторон  русской  языковой  системы,  что  даёт 
возможность  широких  обобщений  и  сопоставлений  с  языками  другой  структуры  на 
конкретном и элементарном прикладном уровне. 
Между  тем  агглютинирующие  языки  (и  среди  них  особенно  узбекский  язык)  с 
прозрачным  построением  парадигм  и  относительно  регулярным  порождением  словоформ, 
представляющих  собой  синтагматические  цепочки  хорошо  ограниченных  друг  от  друга 
корневых  словообразующих  и  формообразующих  морфем,  гораздо  более  удобны  для 
применения приёмов современной прикладной лингвистики. Сожаление вызывает тот факт, 
что  в  узбекском  языковедении  всё  ещё  очень  мало  исследований  и  лексикографических 
произведений, которые так необходимы для нужд логическо-лингвистического моделирова-
ния и компьютерного перевода.  
Учёт  специфических  особенностей  каждого  языка  данной  пары  имеет  определяющее 
значение,  как  для  их  системного  изучения,  так  и  для  логическо-лингвистического  модели-
рования. Следует отметить, что теоретико-языковедческими и инженерно-лингвистическими 
вопросами индоевропейских и иноструктурных языков занимаются  – языковеды,    матема-
тики, программисты, историки, философы, социологи, психологи и психиатры. 
С одной стороны, этот интерес объясняется тем, что проблема человека становится одним 
из  центральных  вопросов  нашей  цивилизации,  а  исследование  его  языка  превращается  в 
одно  из  действенных  средств  изучения  мышления  человека,  его  индивидуального  и 
коллективного поведения, а одновременно и истории народа – носителя конкретного языка. 
С  другой  стороны,  внимание  к  языку  и  лингвистике  стимулирует  характерный  для  нашей 
эпохи  научно-технической  революции  –  интерес  к  нечётким,  но  хорошо  приспосабливаю-
щимся  к  любой  обстановке  и  надёжно  функционирующим  системам  большой  сложности. 
Классическим примером является система естественного языка. 
Сложные  и  нечёткие  системы  не  всегда  удаётся  до  конца  проанализировать,  а  затем  и 
смоделировать с помощью традиционного математического аппарата. Здесь нас интересуют 
два  вопроса:  пределы  применения  к  языку  современного  формального  аппарата,  а  также 
направление, в котором должен развиваться и совершенствоваться этот аппарат с тем, чтобы 
стать  эффективным  средством  изучения  и  моделирования  таких  хорошо  адаптирующихся 
нечётких  и  сложных  систем,  какими  являются  системы  разноструктурных  (например, 
русского и узбекского) языков. 
Для  построения  системы  компьютерного  перевода  должен  быть  решен  обширный  круг 
проблем: 


280 
 
1.  Лингвистические  проблемы  -  определение  состава  словника  для  выбранной  области, 
установление  запаса  сведений,  которые  должны  содержаться  в  словаре,  и  построение 
словаря, выбор типа грамматики и построение грамматической модели. 
2.  Математические  проблемы  -  разработка  общей  структуры  алгоритма  перевода.  Разра-
ботка  алгоритмов  отдельных  этапов,  разработка  формализмов  для  записи  лингвистических 
данных и для разработки алгоритма. 
3.  Проблемы  машинной  реализации  -  разработка  способов  хранения  данных,  создание 
системы  программирования,  разработки  комплекса  программ  реализующих  различные 
алгоритмы моделирования, а также разработка разного рода программ обслуживания. 
Математическое  описание  языка  основано  на  представлении  о  «правильных  текстах». 
Правильный  текст  определяется  как  последовательность  речевых  единиц,  подчиняющаяся 
определённым  закономерностям,  другими  словами,  правильный  текст  –  это  предложение, 
построенное по строго определённым правилам. Множеством  узлов этого предложения (П) 
служат  слова,  входящие  в  П.  Среди  узлов  –  один  корень,  не  подчинённый  никакому  узлу. 
Нельзя,  отправившись  из  какого-либо  узла  вдоль  стрелок,  вернуться  в  тот  же  узел.  Узлы 
дерева  подчинения  –  это  вхождения  слов  в  предложения.  Формально  для  каждого  (не 
слишком короткого) предложения можно построить много разных синтаксических структур 
любого  из  двух  видов,  но  среди  них  либо  одна  или  несколько  являются  правильными. 
Корнем правильного дерева подчинения служит обычно сказуемое. 
Более  совершенное  представление  синтаксической  структуры  предложения  (требующее, 
однако, более сложного математического аппарата) дают системы синтаксических групп, в 
которые  входят  как  словосочетания,  так  и  синтаксические  связи,  причём  не  только  между 
словами,  но  и  между  словосочетаниями.  Системы  синтаксических  групп  позволяют  совме-
щать строгость формального описания строения предложения с гибкостью, присущей тради-
ционным,  неформальным  описаниям.  Деревья  подчинения  и  системы  составляющих  явля-
ются предельными частными случаями систем синтаксических групп. 
Другой  раздел  математической  лингвистики,  занимающий  в  ней  центральное  место  - 
теория  формальных  грамматик,  начало  которой  было  положено  работами  Н.  Хомского  [1]. 
Она изучает способы описания закономерностей, характеризующих уже не отдельный текст, 
а всю совокупность правильных текстов того или иного языка. 
Современные  функционирующие  системы  МП  обеспечивают  лишь  40-55%  синтактико-
семантической  правильности  текста  перевода,  что  подтверждает  их все  еще  слабой  форма-
лизованности [2], т.к. именно строгая математическая формальность языка может обеспечить 
высокую  степень  в  точности  перевода.  Хотя  известно,  что  формализация  любого  естест-
венного  языка  относится  к  категории  трудно  решаемых  проблем.  Следует  отметить,  что 
особенно  актуальны  проблемы  формализации  узбекского  языка  и  внедрения  систем  МП  с 
включением узбекского языка в многоязычную ситуацию. В связи с этим проведение науч-
ных  исследований  в  области  формализации  естественных  языков,  разработка  и  внедрение 
многоязычных  систем  МП  требует  необходимых  теоретических  выкладок.  В  настоящей 
работе изложены основные понятия (аксиомы) для формальных систем МП в многоязычной 
ситуации. 


Достарыңызбен бөлісу:
1   ...   264   265   266   267   268   269   270   271   ...   326




©emirsaba.org 2024
әкімшілігінің қараңыз

    Басты бет