Атты І халықаралық конференция ЕҢбектері



Pdf көрінісі
бет302/326
Дата07.01.2022
өлшемі8,57 Mb.
#19269
1   ...   298   299   300   301   302   303   304   305   ...   326
С. ҚҰЛМАНОВ, А.БАЙМЕНШИН  
 
  
Мемлекеттік тілді дамыту институты, Алматы, Қазақстан 
 
 
АВТОМАТТЫ АУДАРМА ЖҮЙЕСІНДЕ ПАЙДАЛАНЫЛАТЫН  
MOSES БАҒДАРЛАМАСЫ ТУРАЛЫ 
 
Қазіргі  жаһандану  заманында  техника  мен  технологиялық  инновацияның  дамуына 
байланысты  өндірісті,  жалпы  қоғам  салаларын  жаппай  автоматтандыру  ісі  қарқын  алып 
келеді.  Осы  орайда  тіл  білімінің  лексикография  саласында  да  тілді  компьютерлендіру 
бағытында  екі  және  көптілді  автоматты  сөздіктер  құрастыру,  яғни  машиналық  аударма  ісі 
кең етек алып келеді. 
Профессор  А.Жұбанов  «машиналық  аударманың  «өмірге  келуіне»,  біріншіден,  ХХ 
ғасырдың  екінші  жартысынан  бастап  әр  елдерде  (континенттерде)  бірнеше  тілдегі  ақпарат 
ағымының  қарқындап  өсуі,  екіншіден,  ғылыми-техникалық  прогресс  үшін  оларды  меңгеру 
қажеттігіне  қатысты  әлеуметтік  себептер  негіз  болды»,  –  дей  келе  [1,  71],  машиналық 
(автоматты)  аударманың  тарихына,  оның  түрлері  мен  құрылымдарына  кеңінен  сипаттама 
береді. 
Қазақ  лексикографиясында  машиналық  (автоматты)  аударма  ісі  енді  ғана  қолға  алынып, 
негізінен  екітілді  сөздіктер  құрастыру  ісі  (ЭЕМ-ді  қоспағанда)  ХХІ  ғасырдың  басында 
басталды 
десек 
қателеспейміз. 
Мұндай 
сөздіктердің 
қатарында 
ең 
алдымен 
Ш.Құрманбайұлының  «Қазақша-орысша,  орысша-қазақша  терминдер  сөздігі  (бекітілген 
терминдер)»  автоматтандырылған  сөздігін  атауға  болады  [2].  Автор  сөздіктің  алғысөзінде 
бұл  сөздіктің  басқа  сөздіктерін  айырмашылықтарын  көрсете  отырып,  сөздікті  құрастыруға 
негіз болған бес факторды көрсетеді. Сөздікке бұдан бұрынғы басылымдарға енбеген 2002-
2004 жылдары бекітілген 1681 термин енгізілген. 


320 
 
Қазақ  автоматты  сөздіктерінің  келесі  бір  түрі  31  томдық  салалық  сөздіктің 
материалдарына негізделген [3]. Мұнда 25 сала қамтылған. Пайдаланушы әр саланың тұсын 
басып, қажетті сөздің қазақша немесе орысша нұсқасын іздеп таба алады. 
Автоматты  сөздіктердің  көп  қолданылатын  тағы  бір  түрлері  –  «Мемлекеттік 
қызметшілерге  арналған  орысша-қазақша,  қазақша-орысша  сөздік»  [4],  «Сөз  көмек»  және 
интернет  арқылы  енуге  болатын  «www.sozdik.kz»  сайты.  Бұл  сөздіктерде  бағдарламаға 
енгізілген  сөздер  мен  сөз  тіркестерінің  қазақша  немесе  орысша  баламасын  табуға  болады. 
Әрине бұл сөздіктердің негізінде дәстүрлі сөздіктердің материалдарына сүйенгендігін байқау 
қиын  емес.  Қажетті  сөздерді  дәстүрлі  кітап  түріндегі  сөздіктен  іздеп  жатқаннан  гөрі  бұл 
сөздіктердің  пайдаланушының  уақытын  үнемдеуде  пайдасы  мол.  Дегенмен,  көріп 
отырғанымыздай,  бұл  сөздіктер  тек  берілген  сөздердің  (терминдердің)  ғана  баламасын 
табуға  арналған.  Екітілді  немесе  көптілді  сөздіктер  негізінен  сөздерді,  сөз  тіркестерін, 
сондай-ақ  сөйлемдерді  аударуға  бағдарлануға  тиіс.  Осындай  сөздіктердің  қатарына  қазақ 
тілінен  орыс  тіліне,  орыс  тілінен  қазақ  тіліне  сөздерді,  сөз  тіркестерін,  сөйлемдерді,  тіпті 
мәтіндерді  аударатын  «Тілмаш»  және  «Sana  Soft»  екітілді  аударма  сөздіктерін  жатқызуға 
болады.  Алайда  бағдарламалық  базаға  қазақ  тілінің  барлық  ерекшеліктері  толықтай 
енгізілмегендіктен,  қазақ  тілінің  лексикалық  бірліктері  толықтай  қамтылмаған, 
грамматикалық  жүйесі  дұрыс  анықталмайды.  Мұндай  олқылық  осы  өнімдерді 
әзірлеушілердің  автоматты  сөздік  жасаудың  теориясын  толық  меңгермегендігінен  және 
бағдарламашылар мен тілшілердің тығыз байланыста жұмыс істемегендігінен болса керек. 
Қазіргі  кезде  ісқағаздарын  мемлекеттік  тілде  жүргізуді  автоматтандыру  ісінде  де 
бастамалар  кездеседі.  Мысалы,  ісқағаз  үлгілерін  автоматтаты  түрде  өңдеуге  арналған  ҚР 
Мәдениет  министрлігі  Тіл  комитетінің  тапсырысымен  «Мемлекеттік  тілді  дамыту 
институты»  ЖШС  дайындаған  «Орысша-қазақша  ісқағаз  үлгілерінің  электронды 
бағдарламасы»  біздің  жобамызға  көп  септігін  тигізді  [5].  Бұл  бағдарлама  орыс  және  қазақ 
тілдеріндегі ісқағаздар үлгілерін автоматты түрде табуға арналған. Біз осы жұмыстарды әрі 
қарай  жалғастырып,  бағдарламаны  жетілдіріп,  ісқағаздар  үлгілерінің  орысша-қазақша  және 
қазақша-орысша  автоматты  сөздігін  шығаруды  қолға  алып  отырмыз.  Бұл  сөздіктің  негізгі 
роботы  ретінде  Moses  бағдарламасы  қолданылады.  Мақалада  осы  бағдарламаға  қысқаша 
сипаттама беруді көздедік. 
Moses  бағдарламасы  кез  келген  тілден  аударма  жасау  моделін  автоматты  түрде 
дайындауға мүмкіндік беретін машиналық аударманы статистикалық жолмен жүзеге асыруға 
негізделген.  Бағдарламаны  қолдануға  қажет  нәрсе  –  аударылған  мәтіндердің  (параллель 
корпус)  жиынтығы.  Бағдарламаның  тиімді  іздеу  алгоритмі  көптеген  нұсқалардың  ішінен 
барынша ықтимал баламаны тез табады. 
Moses  бағдарламасында  аударуға  «үйрету»  процесі  параллель  деректер  негізінде 
жүргізіледі  және  екі  тілдегі  мәтінді  сәйкес  аудару  үшін  сөздердің  coocurrences-і 
пайдаланылады.  Бұл  сәйкестіктер  бір  тілдегі  сөздің  екінші  тілдегі  ең  жуық  баламасын 
бірізділік негізінде табуға, сондай-ақ машиналық аудару кезіндегі синтаксистік иерархияны 
пайдалануға негізделеді. 
Moses  екі  негізгі  компоненттен  тұрады:  даярлық  құбырөткізгіші  (трубопровод 
подготовки)  және  декодер.  Құбырөткізгішті  даярлау,  шынында,  бастапқы  деректерді 
(параллель және түсіндірме) қабылдап, оларды машиналық аударма моделіне айналдыратын 
құрал-саймандар жиынтығы болып табылады.  
Мұнда  енгізілген  деректер  сөзбе-сөз  аударманы  алу  немесе  қажетіне  қарай  иерархиялық 
ережелерді  орындау  үшін  қолданылады  да,  осы  ережелер  бойынша  алынған  статистика 
ықтималдықты  бағалау  үшін  қолданылады.  Аударма  жүйесінің  маңызды  бөлігі  тілдік 
модель,  яғни  тілдік  деректерді  қолдану  арқылы  құрылған  статистикалық  модель  болып 
табылады. 
 Машиналық  аудармада  аударма  жақсы  шығуы  үшін  әртүрлі  статистикалық  модельдер 
бір-біріне  қарама-қарсы  қойылатын  баптау  тәсілі  маңызды  рөл  атқарады.  Moses 
бағдарламасында төмендегідей ең танымал баптау алгортимдері пайдаланылады: 


321 
 
1) http :/ / www.statmt.org/moses/?n=Moses.LinksToCorpora  
2) http :/ / mokk.bme.hu / ресурсы / hunalign / 
3) http :/ / code.google.com [6]. 
 
Moses  декодері  модульдік  қағидат  бойынша  жазылады  және  пайдаланушыға 
кодсыздандыру процесін төмендегідей тәсілдермен өңдеуге мүмкіндік береді:   
?  Кіру:  Бұл  аударма  процесін  қалай  орындау  қажеттігін  сипаттайтын  XML-элементі  бар 
аннотация  немесе  желінің  торы  немесе  «шытырманы»  сияқты  күрделі  құрылым  (мысалы, 
сөзді тану) болуы мүмкін. 
? Үлгінің аудармасы: Бұл сөзбе-сөз немесе иерархиялық (синтаксистік) ережелерді аудару 
болып табылады. 
?  Алгоритмді  расшифровкалау:  кодсыздандыруда  іздеу  барысындағы  «сәйкестіктердің» 
өте  көп  болуы  қиындық  тудыратындықтан,  Moses  мұндай  іздеу  үшін  stackbased,  талдау 
(разбор) графигі және т.б. сияқты әртүрлі бірнеше стратегиялық тәсілдерді қолданады. 
?  Тілдік  Модель:  Moses  бағдарламасында  SRILM,  KenLM,  IRSTLM,  RandLM  сияқты 
әртүрлі бірнеше тілдік модельдер құрал-саймандарын пайдалануға болады. 
? Moses серверлер: декодерге арналған XML-RPC интерфейсін қамтамасыз етеді. 
? Веб-трансляция: Moses веб-беттерді аудару үшін пайдаланылатын скриптер жиынтығы. 
?  Құрал-саймандарды  талдау:  Moses  шығыстарын  талдауға  және  визуалдауға  арналған 
сценарийлер. 
Moses бағдарламасында машиналық аударманы адам редакциялауы үшін FirstPass ретінде 
пост-редакциялау  жүргізіледі.  Бұл  аударманың  уақытын  (тиісінше  жалпы  құнын)  азайтуы 
мүмкін.  Автоматтандырылған  аудармада  SMT  қолданылуы  да  мүмкін,  алайда  қазіргі  кезде 
(2012 жылдың сәуірінен бастап) әрі қарай тереңдей зерттелу үстінде, жуырда ЕС, Casmacat10 
және MateCat11 жобалары іске қосылды. 
 
Moses  арқылы  дайындалған  әзірлеменің  негізгі  платформасы  Linux  Moses  болып 
табылады.  Алайда  Moses  басқа  платформалармен  де  жұмыс  істейді.  Мысалы,  Moses 
бағдарламасы  Windows-те  Cygwin  арқылы  жұмыс  істеуі,  Moses  әзірлеушілері  OSX 
қондырғысын да пайдалануы мүмкін. 
Moses  маузер  және  бірлескен  автор  (2009)  ұсынған  ауқымды  лексика  моделін 
пайдаланады, алайда әрбір тұтас сөзді үйрету мүмкіндігі баяу жүреді.  
Moses  бағдарламасында  жалпы  алғанда  көптеген  грамматикалық  ережелер  қамтылған. 
Алайда иерархиялық жүктеуге арналған ережелер кестесі жадында декодер өте баяу жұмыс 
істейді және жедел (оперативті) жадты көп пайдаланады. Мұндай ережелердің кейбіреулері 
үшін  CKY  арқылы  іске  асырылған  кодсыздау  алгоритмі  оңтайлы  болып  табылмайды. 
Сондықтан  бөлініп  алынған  модельдерді  іздеуге  арналған  алгоритмдерді  пайдалану  немесе 
балама нұсқаларды зерттеуге аса көңіл бөлу керек.  
Автоматты аударма жасау бағдарламаларына жаңа қызметтерді қосу қазіргі кезде 2009 


Достарыңызбен бөлісу:
1   ...   298   299   300   301   302   303   304   305   ...   326




©emirsaba.org 2024
әкімшілігінің қараңыз

    Басты бет