Атты студенттердің IV жоо аралық дәстүрлі ғылыми конференциясының ЕҢбектері


ОБЗОР СТАТИСТИЧЕСКОЙ СИСТЕМЫ МАШИННОГО ПЕРЕВОДА И



Pdf көрінісі
бет45/135
Дата21.02.2017
өлшемі15,88 Mb.
#4636
1   ...   41   42   43   44   45   46   47   48   ...   135

ОБЗОР СТАТИСТИЧЕСКОЙ СИСТЕМЫ МАШИННОГО ПЕРЕВОДА И 

НЕКОТОРЫЕ ПРОБЛЕМЫ СОЗДАНИЯ ПАРАЛЛЕЛЬНОГО КОРПУСА 

Сабырбаев Хасеин Камзаевич    

КазНУ им. Аль-Фараби, механико-математический факультет, кафедра Информационные 

системы, Алматы,Казахстан 

 

 



Аннотация  

 

Работа  посвящена  статистической  системе  перевода  естественных  языков.  Приведен 



общий обзор существующих систем машинного перевода и проблемы создания параллельного 

349 

 

корпуса с казахского на другие. В настоящее время создан параллельный корпус для казахско-



русской  языковой  пары  на  платформе  Moses,  который  содержит  более  60 000  слов  и 

словосочетаний. 

 

Annotation 

 

This article is devoted to the statistical system of translation of natural languages. Provides an 

overview of the existing machine translation systems and the problems of creating a parallel case with 

the Kazakh others. Currently set up a parallel body to the Kazakh-Russian language on the platform 

Moses, which contains over 60,000 words and phrases. 

 

Ключевые  слова:  корпус, машинный перевод, гибридная система  машинного перевода, 

СМП-статистический машинный перевод, шифрование и расшифровка текста. 

 

На сегодняшний день информационные технологии являются неотъемлемой частью нашей 



жизни. 

Быстрое развитие 

новых информационных 

технологий 

свидетельствует 

о 

всевозрастающей  роли  компьютерной  техники  в  мировом  информационном  пространстве.  С 



каждым днем увеличивается число пользователей Интернета. Все больше сетевые технологии 

оказывают  влияние  на  развитие  самой  науки  и  техники.  Развитие  науки  и  образования,  да  и 

вообще формирование мирового информационного пространства значительно тормозится из-за 

так называемого языкового барьера. Эта проблема пока не нашла своего кардинального решения. 

Последние  годы  объем  предназначенной  для  перевода  информации  увеличился  потому  что 

объемы  доступной  информации  на  зарубежных  языках  увеличивается  с  каждой  секундой. 

Нынешний  век  диктует  свои  условия:  информация  меняется  двадцать  четыре  часа  в  сутки, 

широко  применяются  электронные  средства  связи.  В  помощь  в  изучении  информации  на 

зарубежных языках при условии, если мы не знаем этот язык может помочь переводчик лингвист 

или же машинный перевод. У переводчика конечно перевод будет лучше по качеству перевода, 

если  переводимом  материале  нужна  будет  особая  точность  тогда  конечно  он  нужен,  но,  если 

этого не требуется тогда машинный перевод будет намного удобней.  

Машинный перевод – перевод текста с одного человеческого языка на другой с помощью 

компьютера. 

Есть три вида машинного перевода 

 

1 машинный перевод на основе правил 



2 статистический машинный перевод 

3 гибридный машинный перевод 

 

Машинный перевод на основе правил требует много времени для создания, усердного труда 

лингвистов на основании которых программисты будем писать алгоритмы. Этот вид машинного 

перевода считается старым и, по моему мнению, в будущем не будет актуальным, пока не будет 

решена  проблема  понятие  смысла  текста  машиной.  Если  машина  не  понимает  смысла  текста 

тогда она никогда не сможет заменить человеческий перевод где нужна будет особая точность 

перевода. Машинный перевод на основе правил отличаются стабильностью перевода. 



Статистический машинный перевод – перевод одного человеческого языка на другой с 

помощью  компьютера,  которые  научились  переводить  с  помощью  огромных  количеств 

переведенного  текста.  Для  создания  статистической  машины  используется  знания  в  области 

программирования, статистического анализа и теории вероятности. В статистическую машину 

загружается  двуязычный  корпус  текстов,  после  чего  система  анализирует  статистику 

межъязыковых соответствий, синтаксических конструкций. Система является самообучаемой — 



350 

 

при  выборе  варианта  перевода  она  опирается  на  полученную  ранее  статистику  вероятностей 



перевода. Чем больший словарь внутри языковой пары и чем точнее он составлен, тем лучше 

результат  статистического  машинного  перевода.  С каждым  новым  переведенным  текстом 

улучшается качество последующих переводов. 

Основные  цели  использования  статистического  машинного  перевода:  быстрое 

ознакомление с интересующей информацией, возможность коммуникаций,  упрощение работы 

переводчика.  Статистические  системы  отличаются  быстротой  настройки  и легкостью 

добавления новых направлений перевода. Среди недостатков наиболее значительными являются 

наличие многочисленных грамматических ошибок и нестабильность перевода.  

Гибридный  машинный  перевод  –  он  использует  вместе  два  машинный  перевода 

статистический и перевод на основе правил.  

Машинный перевод никогда не сможет давать точность перевода как у человека, причина 

этому он не может понять смысла текста. Пока эта проблема не будет решена машинный перевод 

никогда  не  сможет  дать  нам  очень  точный  перевод.  Он  нужен  для  быстрого  ознакомление 

человеком материала на любом языке мира и понять приблизительно смысл данной информации. 

Он не сможет заменить переводчика, но может облегчить ему работу, как и всем людям. 

Какая  система  машинного  перевода  будет  актуальным  в  будущем?  Мы  сравнили  три  вида 

машинного перевода, и, считаем, что статистический машинный перевод является лучшим среди 

остальных  систем.  Еще  раз  можем  привести  определение  СМП.  Статистический  машинный 



перевод — это метод машинного перевода. Он использует сравнение больших объемов языковых 

пар  (корпус).  Статистический  машинный  перевод  обладает  свойством  «самообучения».  Чем 

больше в распоряжении имеется языковых пар и чем точнее они соответствуют друг другу, тем 

лучше результат  статистического  машинного  перевода.  Статистический машинный  перевод 

основан  на  поиске  наиболее  вероятного  перевода  предложения  с  использованием  данных  из 

двуязычных корпусов текстов. В результате при выполнении перевода компьютер не оперирует 

лингвистическими алгоритмами, а вычисляет вероятность применения того или иного слова или 

выражения. Слово или последовательность слов, имеющие оптимальную вероятность, считаются 

наиболее  соответствующими  переводу  исходного  текста  и  подставляются компьютером 

в получаемый в результате текст. 

Усилия  по  созданию  систем  машинного  перевода  начались  почти  сразу,  как  появились 

электронно-вычислительные 

машины. 

В статистическом 

машинном 

переводе 

ставится задача не перевода текста, а задача его расшифровки /1,15 стр/. 

Например, Модель Шеннона-Уивера 

 

 

 



 

 

Модель состоит из пяти элементов: источника информации, передатчика, канала передачи, 



приемника  и  конечной  цели,  расположенных  линейно.  Передатчик  кодирует  информацию, 

полученную от источника, и передает ее на канал. По каналу передачи, на который действует 

шум  помехи  любого  рода,  искажающие  информацию,  данные поступают в приемник, где они 

декодируется и передаются к конечной цели 

 Из-за  шума  полученная  приемником  информация  в  общем  случае  не  совпадает 

с информацией,  отправленной передатчиком.  Однако,  согласно  модели  Шеннона,  создавая 

избыточную  информацию,  исходные  данные  можно  восстановить  со  сколь  угодно  высокой 

вероятностью. Для обнаружения ошибок используются контрольные суммы, для их исправления 

специальные корректирующие коды, при условии, что степень шума не превосходит некоторой 

границы.  Стоит  отметить,  что  любая  информация  в  некотором  роде  избыточна.  Человеческая 

Источник(R) 

Цель(E) 


приемник 

передатчик 



351 

 

речь  избыточна  —  чтобы  уловить  смысл предложения,  зачастую  необязательно  слышать  его 



полностью /1,15 стр/. Аналогично, письменная речь, тоже избыточна, и при переводе этим можно 

воспользоваться. Если предложение в целом  понятно, но есть несколько незнакомых слов, то 

обычно не трудно догадаться об их значении. Таким образом, для перевода текста необходимо 

найти  способ  декодирования,  использующий  естественную  избыточность,  в  связи  с  чем 

декодирование должно быть вероятностным. Задача такого декодирования заключается в том, 

чтобы, при данном сообщении найти исходное сообщение, которому соответствует наибольшая 

вероятность. Для этого же необходимо для любых двух сообщений уметь находить условную 

вероятность того, что переведенное сообщение, пройдя через канал с шумом, преобразуется в 

исходное сообщение. В данном случае нужна модель источника (модель языка) и модель канала 

(модель перевода). Модель языка дает оценку вероятности фразам переводного языка, а модель 

перевода оценивает вероятность исходной фразы при условии фразы на переводном языке. Если 

нам нужно перевести фразу с русского на английский, то мы должны знать, что именно обычно 

говорят по английский и как английские фразы искажаются до состояния русского языка. Сам 

по  себе  перевод  превращается  в  процесс  поиска  такой  английской  фразы,  которая 

максимизировала бы произведения безусловной вероятности английской фразы и вероятности 

русской фразы оригинала при условии данной английской фразы /1,16 стр/. 

 

max P



К

Р



)=max(P(P(φ

K

)*P(φ



K

 |φ


Р

)), где 


φ

K

-фраза перевода 



φ

K

-фраза оригинала 



 

В системах статистического перевода, в качестве модели языка используются варианты n - 

граммной модели (например, в переводчике Google используется 5-граммная модель). Согласно 

этой  модели,  правильность  выбора  того  или  иного  слова  зависит  только  от  предшествующих 

(n−1)  слов.  Самой  простой  статистической  моделью  перевода  является  модель  пословного 

перевода.  В этой  модели, известной как  Модель IBM №1, предполагается, что  для  перевода 

предложения  с  одного  языка  на  другой  достаточно  перевести  все  слова,  а  расстановку  их  в 

правильном  порядке  обеспечит  модель  языка.  Единственным  массивом  данных,  которым 

оперирует  Модель  №1, является таблица вероятностей парных переводных соответствий слов 

двух  языков.  Обычно  используются  более  сложные  модели  перевода.  Работа  статистических 

систем, так же, как и систем, основанных на примерах, происходит в двух режимах: обучения и 

эксплуатации.  В  режиме  обучения  просматриваются  параллельные  корпуса  текста 

и вычисляются вероятности переводных соответствий. Строится модель языка перевода. Тут же 

определяются вероятности каждой n-граммы. В режиме эксплуатации, для фразы из исходного 

текста  ищется  фраза  переводного  текста,  так,  чтобы  максимизировать  произведение 

вероятностей. Статистический машинный перевод сегодня используется в таких компаниях как 

Гугл, Яндекс и т. д.  

Причины использования СМП этими компаниями: 

 

Быстрота  создания  корпуса  для  новых  языков,  рост  информации  значить  и  рост 



данных и качества перевода.  

 

Предлагаемые  нами  решения  для  создания  параллельного  корпуса  казахского  языка  и 



других языков:  

1.

 



разделить  все  языки  на  группы,  в  группе  будут  объедены  родственные  языки  в  одну 

группы, у каждой группы будет главенствовать тот язык, у которого объём корпуса самый 

большой.  Перевод  будет  осуществляться  между  родственными  языками  с  помощью 

главенствующего языка, а с остальными языками между главенствующих языков групп. 

Преимущество этого метода экономия времени и качество перевода.  


352 

 

2.



 

Использования  самых  распространённых  языков  для  создания  переходного  корпуса  на 

другие языки.  

3.

 



Использовать эти два способа для казахского языка. Создать корпус на казахском и на 

русских  языках,  с  помощью  русского  языка  создать  статистическую  машину  на 

существующий корпус английского языка, дальше выйти на все языки мира с помощью 

этих двух языков. 

 

В настоящее время нами создан параллельный корпус для казахско-русской языковой пары 



на платформе Moses, который содержит более 60 000 слов и словосочетаний. Как мы знаем, по 

исследованиям проведенным компанией Promt минимальный объем параллельного корпуса для 

получения качественного перевода должен быть более 2 млн. слов, поэтому в данный момент 

ведутся работы по заполнению параллельного корпуса для казахско-русской языковой пары в 

лаборатории Интеллектуальных ИС Казахского Национального Университета им. аль-Фараби.   

 

Список использованных литератур  



 

1. Philip Koehn, statistical translation machine, Hardcover, 488 p 

2. http://statmt.org/ 

3. Statistical MT Handbook by Kevin Knight 

4. 

https://www.academia.edu/



 

 

 



УДК-004.900 

 

  



 

               MATLAB RECOGINATION IMAGE AND CONVERT TEXT FORMAT 

Саржан Мағжан Бақытжанұлы – 3-курс студенті 

Байменшина Гүлназ – магистр, аға оқытушы 

Ақпараттық жүйелер кафедрасы, Сулейман Демирель университеті  

 

Matlab  -  бүгінгі  таңдағы  кең  таралған,  автоматтандырылған  математикалық  есептеулер 



жүйесі. Онда көптеген математикалық есептеулер тек дайын функцияларды пайдалану жолымен 

шешіледі.  Бұл  жүйе  жалпы  матрицаларға  амалдар  қолдануға  негізделгендіктен  оның  аталуы 

«MATrix  LABoratory»,  яғни  «матрицалық  лаборатория»  сөзінен  келіп  шыққан.  Бұл  жүйе  70  – 

жылдарда  С.В.Молер  тарапынан  ойлап  табылған  және  ол  сол  кезде-ақ  үлкен  есептеу 

машиналарында қолданыла бастаған. Ал 80 – жылдардың басында MathWorks. Inc фирмасында 

Джон Литтл IBM PC Macintosh дербес компьютерлер үшін PC Matlab версиясын жасады.  

Matlab  бүкіл  адамзат  тарихындағы  математикалық  есептеулер  саласындағы  барлық 

әдістерді қамтиды және күшті есептеу жүйесі болып табылады. Бұл жүйенің артықшылығы, яғни 

құрамына енетін функцияларды (мәтін түрінде жазылған М-файлдар және С түрінде жазылған 

бағдарламалар  арқылы)  өзгертуге,  қосымшалар  енгізуге  болады.  Сондай-ақ  сандық 

есептеулерден басқа графикалық функциялармен (екі өлшемді, үш өлшемді) орындауға болады. 

Matlab жүйесінің мүмкіндіктері өте үлкен және оларды толық сипаттап жазу қиынға түседі. 

Сол себепті олардың тек негізгі, көп қолданылатын мүмкіндіктерін атап көрсетеміз. 

1. Математикалық есептеулер саласында: матрицалық, векторлық, логикалық операциялар; 

элементарлық және арнаулы функциялар; 


353 

 

2.  Сандық  әдістер  саласында:  дифференциялдық  теңдеулерді  шешу;  интегралдарды 



есептеу,  сызықтық  емес  алгебралық  теңдеулер  түбірін  табу;  бірнеше  айнымалы  функцияның 

минумымын табу; бір немесе көп өлшемдік интерполяция; 

3.  Бағдарламалау  саласында:  500-ден  астам  математикалық  функциялар;  екілік  және 

мәтіндік  файлды  ендіру  және  шығару;  С  және  Фортран  тілінде  жазылған  бағдарламаларды 

пайдалану;  Matlab  тілінде  жазылған  бағдарламаларды  С  және  С++  тілдеріне  автоматты  түрде 

өткізу; 


4. Визуалдау және графика саласында; екі және үш өлшемдік графиктер сызу; мәліметтерді 

визуалдық сараптама жасау және анимация; 

5.  Matlab  мүмкіндіктерін  кеңейтетін  қосымша  пакеттер.  Simulink  -  виртуалдық 

приборларды пайдаланып процестерді модельдеу; математикалық есептеу пакеттері; сигналдар 

мен  кескіндерді  өңдеу  пакеттері;  қаржылық  есептеулерді  шешу;  карталар  мен  географиялық 

мәліметтермен жұмыс істеу. Бұл қосымша пакеттері. 

Matlab әртүрлі пайдаланушыларға әртүрлі облыстарда математика, машина жасауда және 

ғылыммен  жұмыс  жасауда  стандартты  аспап  ұсынады.  Matlab-та  toolboxes  деп  аталатын 

бағдарламалардың  мамандандырылған  топтары  маңызды  рөл  атқарады.  Олар  Matlab-ты 

пайдаланушылардың көпшілігі үшін өте маңызды. Олар мамандандырылған әдістерді оқу және 

қолдануға  рұқсат  етеді.  Toolboxes  –  бұл  Matlab  (М-файлдар)  функциясының  жан-жақты 

коллекциясы. Олар тапсырмалардың жеке сыныптарын шешуге рұқсат етеді. 

      Менің  осы  ғылыми  жобада  Matlab-тың  көмегімен  суреттегі  аріптерді  қарапайым 

әріптерге  аударып,  оны  файлдық  форматта  сақтау  процесін  шештім.  Кез  келген  кітапты  не 

болмаса  журналды  қарапайым  қолданушы  суреттке  тексттік  бір  срет  түсүреді  сол  

бағдарламаның көмегімен  суреттегі тексттерді қарапайым тексттерге аударып береді. Мәселен 

тексттарды  Matlab-тың  көмегімен    анықтап  оны  алгоритімдерге  салу  процесі  м  файлдардың 

көмегі арқылы жүзеге асырамыз 

    MatLab  командасы  топтарының  ең   ыңғайлы  тәсілі  М-файлдарды  қолдану  болып 

табылады.  Оларда  команда  жинауға  болады,  олардың  бәрін  бірден  немесе  бөлімдермен 

орындауға  болады,   файлда  сақтауға  болады.  М-файлдармен  жұмыс  істеу  үшін  М-файлдар 

редакторы арналған. 

 


354 

 

1-сурет 



MatLab-та М-файлдар екі типті болады: файл-программалар (Script M-Files), командаларды 

жүйелі  түрде  ұстаушы,  және  файл-функция,  (Function  M-Files),  пайдаланушылармен 

анықталатын функциялар жазылады. Суреттерді алгоритімдік таныстыру мақсатында (Script M-

Files) – файлы қолдандым.ы 

 Көп  жағдайда  MatLab-тың  жұмысшы  ортасында  белгілі  бір  жұмыстарды  атқару  үшін 

көптеген командаларды ендіру қажет болады. Ал оларды келесі жолы тағы көрсету қажет болса, 

сол командаларды тағы да ендіру қажет болады. Бұл тек қана көп уақытты алып қана қоймай, 

қателіктер  жіберуге  де  келіп  соғуы  мүмкін.  Демек,  сол  командаларды  сақтап  қою  қажеттігі 

туады. MatLab-та сондай құрал сценарий деп аталады. Сценарий дегеніміз мәтіндік файл болып, 

онда жоғарыда айтылған, орындалуы тиіс болған. MatLab командалары жазылған болады және 

міндетті түрде ол файлдың кеңейтілмесі бірғана m әрпінен тұруы тиіс. Сол себепті мұндай файл 

М-файл деп аталады. 

         Сценарий дайын болғасын оны компьютер жадына сақтау керек. Бұл m-файлды кез 

келген  каталогта  сақтау  мүмкін.  Дегенмен  ол  каталог  MatLab-қа  белгілі  болуы  тиіс.  Себебі 

жұмысшы  ортада  m-файл  аты  жазылып,  ‘Enter’  басылғанда  MatLab  оны  іздеп  табады.  Жаңа 

каталогты жасау үшін мына команданы береміз. File→Set Path. Бұл терезеде MatLab-та тіркелген 

барлық  каталогтар  тізімге  қосу  үшін  қолданамыз.  Осылайша  біздің жаңа  каталогымыз  тізімге 

қосылғасын, онда m-файлымызды сақтауға болады. Бізде м файлдар саны 4 барлығы осы ортада 

сақталады. 

Сценарийлерді пайдаланудың артықшылығы мен бірге кемшілігі де бар: оны әр қашан бір 

түрлі жұмысшы ортада шақыру қажет, демек жұмысшы орта өзгерген кезде оны шақыруға және 

парамертлердің  мәндерін  ендіруге  болмайды.  Кез  келген  уақытта  шақыруға  болатын  және 

жұмысшы ортаға тәуелсіз болатын файл М-функциялар деп аталады. 

Бұл мәтіндегі % белгісі комментарийді білдіреді және ол тек қана пайдаланушыға мәлімет 

беру үшін қолданылады, оны MatLab орындамайды. Мұнда арнайы айта кететін жай –  drawnow 

командасы. Ол тек қана сценарий немесе m-функцияда ғана қолданылады және ол сол мезетте 

график  сызу  керектігін  көрсетеді.  Басқаша  айтқанда  MatLab-тың  жұмысшы  ортасында 

жоғарыдағы командаларды берген кезде автоматты түрде графиктер сызылады. Ал сценарий мен 

m-функцияларда бұл командасыз өздігінен графиктер сызылмайды.  

  Біздің жобада суретті тану және оны оқу архитектурасы былай қалыптасады: 

 

2-



сурет

 


355 

 

Бастапқыда графиктік тұрғыда сөз содан кейіе оларды екілік жүйеге ауыстырады. Екілік 



жүйеге  ауыстырылған  мәліметтерді  желеілік  Неурал  жүйелік  форматына  тасымалдайды  оның 

ішіндегі проес былай қарастырылады: 

 

 

                                                               3-сурет 



Әрбір  әріптерді Неурал желілік алгоритімі әрбір  екілік санды танып оны блоктарға бөліп  

қарастырады.  Болқтар  128-64  биттік  форматта  қалыптасадық.  Сол  әріптерді  Script  M-Files 

матлабтың  функциясымен  шақырып  оны  әріптік  форматқа  ауыстырылуын    сұраймыз 

нәтижиесінде бізге блоктардан келген әріптерді қайтарып  береді.

                                                              

 

 



Пайдаланылған әдебиеттер тізімі: 

1.

 



Дьяконов В.П. MATLAB Учебный курс/-СПб  :Питер, 2001 

2.

 



Потемкин В.Г. MATLAB 5 для студентов. – М.: Диалог-МИФИ. 1998. 

3.

 



Мартынов Н.Н. Иванов А.П. MATLAB  5.х. Вычисление, визуализация, программирование.- 

М.Кудриц-Ораз,2000. 

4.

 

Потемкин В.Г. Система инженерных и научных расчетов MATLAB 5.х. В 2-х т – М Диалог-



МИФИ. 1999. 

5.

 



http://www.Exponenta.ru. 

6.

 



http://www.matlab.exponenta.ru/matlab/ matlab6p5.php. 

7.

 



http://www.matlab.exponenta.ru/matlab/ matlab7.php. 

8.

 



 И.Е. Ануфриев. Самоучитель MATLAB 5.3/6.x.. 1. СПб.: БХВ-Петербург. 736. 2004. 

9.

 



 А.Л. Померанцев. Матрицы и векторы. 

10.


 

 Ким Эсбенгсен. Анализ многомерных данных. Изд-во ИПХФ РАН. 2005. 

11.

 

 Анатольевна MATLAB 7. Самоучитель. — М, 2005. — С. 256. 



12.

 

 Джон  Г.  Мэтью,  Куртис    Д.  Численные  методы.  Использование MATLAB =  Numerical 



Methods: Using MATLAB. — 3-е изд   — М, 2001. — С. 72 

13.

 

А.Е. Ашуров  Физиканың кампьютерлік әдістері: Оқу құралы - Шымкент 2007. 

 

 

 



356 

 

УДК 62-529.7 



 



Достарыңызбен бөлісу:
1   ...   41   42   43   44   45   46   47   48   ...   135




©emirsaba.org 2024
әкімшілігінің қараңыз

    Басты бет