Мысал
1 нұсқа
2 нұсқа
На стол+е
На + сущ(ед\м.р) + е зат+ жат(да.де..) Зат+тәуел+үстінде
На книг+е
На + сущ(ед\ж.р) + е зат+ жат(да.де..) Зат+тәуел+үстінде
На окн+е
На + сущ(ед\с.р) + е
зат+ жат(да.де..) Зат+тәуел+үстінде
На книг+у
На + сущ(ед\ж.р) + у зат+бар (ға.ге..) Зат+тәуел+үстіне
На стол
На + сущ(ед\м.р)
зат+бар (ға.ге..) Зат+тәуел+үстіне
На книг+ах
На + сущ(мн\ж.р) +
ах
зат+көп+
жат(да.де..)
Зат+ көп
+тәуел+үстінде
На стол+ах
На + сущ(мн\м.р) +
ах
зат+көп+
жат(да.де..)
Зат+ көп
+тәуел+үстінде
На окн+ах(ях)
На + сущ(мн\с.р) +
ах(ях)
зат+көп+
жат(да.де..)
Зат+ көп
+тәуел+үстінде
На книг+и
На + сущ(мн\ж.р) +
зат+көп+ бар
Зат+ көп
319
и
(ға.ге..)
+тәуел+үстіне
На стол+ы
На + сущ(мн\м.р) +
и
зат+көп+ бар
(ға.ге..)
Зат+ көп
+тәуел+үстіне
По книге
По +сущ(ед\ж.р)+е
Зат+шыгыс(мен
,бен..)
Зат+ бойынша
По столу
По +сущ(ед\м.р)+у
Зат+шыгыс(мен
,бен..)
Зат+ бойынша
По окну
По +сущ(ед\с.р)+у
Зат+шыгыс(мен
,бен..)
Зат+ бойынша
по книгами
По
+сущ(мн\ж.р)+ами(я
ми)
Зат+копт+шыгы
с(мен,бен..)
Зат+ копт+бойынша
По столами
По
+сущ(мн\м.р)+ами(я
ми)
Зат+копт+шыгы
с(мен,бен..)
Зат+ копт+бойынша
По окнам
По
+сущ(мн\с.р)+ам(ям)
Зат+копт+шыгы
с(мен,бен..)
Зат+копт+ бойынша
Қорыта келгенде тіліндегі предлогтардың көпмағыналығын ескеру керек. Компьютерлік
аударма жасауда предлогтардың көпмағыналығын анықтау маңызды. Біз зерттеуімізде көп
мағыналы осындай тұлғалардың аударылуындағы модельдерді анықтап ұсынамыз.
Болашақта өзге де тілдік тұлғалардың көпмағыналығы зерттеуіміздің нысаны болмақ.
С. ҚҰЛМАНОВ, А.БАЙМЕНШИН
Мемлекеттік тілді дамыту институты, Алматы, Қазақстан
АВТОМАТТЫ АУДАРМА ЖҮЙЕСІНДЕ ПАЙДАЛАНЫЛАТЫН
MOSES БАҒДАРЛАМАСЫ ТУРАЛЫ
Қазіргі жаһандану заманында техника мен технологиялық инновацияның дамуына
байланысты өндірісті, жалпы қоғам салаларын жаппай автоматтандыру ісі қарқын алып
келеді. Осы орайда тіл білімінің лексикография саласында да тілді компьютерлендіру
бағытында екі және көптілді автоматты сөздіктер құрастыру, яғни машиналық аударма ісі
кең етек алып келеді.
Профессор А.Жұбанов «машиналық аударманың «өмірге келуіне», біріншіден, ХХ
ғасырдың екінші жартысынан бастап әр елдерде (континенттерде) бірнеше тілдегі ақпарат
ағымының қарқындап өсуі, екіншіден, ғылыми-техникалық прогресс үшін оларды меңгеру
қажеттігіне қатысты әлеуметтік себептер негіз болды», – дей келе [1, 71], машиналық
(автоматты) аударманың тарихына, оның түрлері мен құрылымдарына кеңінен сипаттама
береді.
Қазақ лексикографиясында машиналық (автоматты) аударма ісі енді ғана қолға алынып,
негізінен екітілді сөздіктер құрастыру ісі (ЭЕМ-ді қоспағанда) ХХІ ғасырдың басында
басталды
десек
қателеспейміз.
Мұндай
сөздіктердің
қатарында
ең
алдымен
Ш.Құрманбайұлының «Қазақша-орысша, орысша-қазақша терминдер сөздігі (бекітілген
терминдер)» автоматтандырылған сөздігін атауға болады [2]. Автор сөздіктің алғысөзінде
бұл сөздіктің басқа сөздіктерін айырмашылықтарын көрсете отырып, сөздікті құрастыруға
негіз болған бес факторды көрсетеді. Сөздікке бұдан бұрынғы басылымдарға енбеген 2002-
2004 жылдары бекітілген 1681 термин енгізілген.
320
Қазақ автоматты сөздіктерінің келесі бір түрі 31 томдық салалық сөздіктің
материалдарына негізделген [3]. Мұнда 25 сала қамтылған. Пайдаланушы әр саланың тұсын
басып, қажетті сөздің қазақша немесе орысша нұсқасын іздеп таба алады.
Автоматты сөздіктердің көп қолданылатын тағы бір түрлері – «Мемлекеттік
қызметшілерге арналған орысша-қазақша, қазақша-орысша сөздік» [4], «Сөз көмек» және
интернет арқылы енуге болатын «www.sozdik.kz» сайты. Бұл сөздіктерде бағдарламаға
енгізілген сөздер мен сөз тіркестерінің қазақша немесе орысша баламасын табуға болады.
Әрине бұл сөздіктердің негізінде дәстүрлі сөздіктердің материалдарына сүйенгендігін байқау
қиын емес. Қажетті сөздерді дәстүрлі кітап түріндегі сөздіктен іздеп жатқаннан гөрі бұл
сөздіктердің пайдаланушының уақытын үнемдеуде пайдасы мол. Дегенмен, көріп
отырғанымыздай, бұл сөздіктер тек берілген сөздердің (терминдердің) ғана баламасын
табуға арналған. Екітілді немесе көптілді сөздіктер негізінен сөздерді, сөз тіркестерін,
сондай-ақ сөйлемдерді аударуға бағдарлануға тиіс. Осындай сөздіктердің қатарына қазақ
тілінен орыс тіліне, орыс тілінен қазақ тіліне сөздерді, сөз тіркестерін, сөйлемдерді, тіпті
мәтіндерді аударатын «Тілмаш» және «Sana Soft» екітілді аударма сөздіктерін жатқызуға
болады. Алайда бағдарламалық базаға қазақ тілінің барлық ерекшеліктері толықтай
енгізілмегендіктен, қазақ тілінің лексикалық бірліктері толықтай қамтылмаған,
грамматикалық жүйесі дұрыс анықталмайды. Мұндай олқылық осы өнімдерді
әзірлеушілердің автоматты сөздік жасаудың теориясын толық меңгермегендігінен және
бағдарламашылар мен тілшілердің тығыз байланыста жұмыс істемегендігінен болса керек.
Қазіргі кезде ісқағаздарын мемлекеттік тілде жүргізуді автоматтандыру ісінде де
бастамалар кездеседі. Мысалы, ісқағаз үлгілерін автоматтаты түрде өңдеуге арналған ҚР
Мәдениет министрлігі Тіл комитетінің тапсырысымен «Мемлекеттік тілді дамыту
институты» ЖШС дайындаған «Орысша-қазақша ісқағаз үлгілерінің электронды
бағдарламасы» біздің жобамызға көп септігін тигізді [5]. Бұл бағдарлама орыс және қазақ
тілдеріндегі ісқағаздар үлгілерін автоматты түрде табуға арналған. Біз осы жұмыстарды әрі
қарай жалғастырып, бағдарламаны жетілдіріп, ісқағаздар үлгілерінің орысша-қазақша және
қазақша-орысша автоматты сөздігін шығаруды қолға алып отырмыз. Бұл сөздіктің негізгі
роботы ретінде Moses бағдарламасы қолданылады. Мақалада осы бағдарламаға қысқаша
сипаттама беруді көздедік.
Moses бағдарламасы кез келген тілден аударма жасау моделін автоматты түрде
дайындауға мүмкіндік беретін машиналық аударманы статистикалық жолмен жүзеге асыруға
негізделген. Бағдарламаны қолдануға қажет нәрсе – аударылған мәтіндердің (параллель
корпус) жиынтығы. Бағдарламаның тиімді іздеу алгоритмі көптеген нұсқалардың ішінен
барынша ықтимал баламаны тез табады.
Moses бағдарламасында аударуға «үйрету» процесі параллель деректер негізінде
жүргізіледі және екі тілдегі мәтінді сәйкес аудару үшін сөздердің coocurrences-і
пайдаланылады. Бұл сәйкестіктер бір тілдегі сөздің екінші тілдегі ең жуық баламасын
бірізділік негізінде табуға, сондай-ақ машиналық аудару кезіндегі синтаксистік иерархияны
пайдалануға негізделеді.
Moses екі негізгі компоненттен тұрады: даярлық құбырөткізгіші (трубопровод
подготовки) және декодер. Құбырөткізгішті даярлау, шынында, бастапқы деректерді
(параллель және түсіндірме) қабылдап, оларды машиналық аударма моделіне айналдыратын
құрал-саймандар жиынтығы болып табылады.
Мұнда енгізілген деректер сөзбе-сөз аударманы алу немесе қажетіне қарай иерархиялық
ережелерді орындау үшін қолданылады да, осы ережелер бойынша алынған статистика
ықтималдықты бағалау үшін қолданылады. Аударма жүйесінің маңызды бөлігі тілдік
модель, яғни тілдік деректерді қолдану арқылы құрылған статистикалық модель болып
табылады.
Машиналық аудармада аударма жақсы шығуы үшін әртүрлі статистикалық модельдер
бір-біріне қарама-қарсы қойылатын баптау тәсілі маңызды рөл атқарады. Moses
бағдарламасында төмендегідей ең танымал баптау алгортимдері пайдаланылады:
321
1) http :/ / www.statmt.org/moses/?n=Moses.LinksToCorpora
2) http :/ / mokk.bme.hu / ресурсы / hunalign /
3) http :/ / code.google.com [6].
Moses декодері модульдік қағидат бойынша жазылады және пайдаланушыға
кодсыздандыру процесін төмендегідей тәсілдермен өңдеуге мүмкіндік береді:
? Кіру: Бұл аударма процесін қалай орындау қажеттігін сипаттайтын XML-элементі бар
аннотация немесе желінің торы немесе «шытырманы» сияқты күрделі құрылым (мысалы,
сөзді тану) болуы мүмкін.
? Үлгінің аудармасы: Бұл сөзбе-сөз немесе иерархиялық (синтаксистік) ережелерді аудару
болып табылады.
? Алгоритмді расшифровкалау: кодсыздандыруда іздеу барысындағы «сәйкестіктердің»
өте көп болуы қиындық тудыратындықтан, Moses мұндай іздеу үшін stackbased, талдау
(разбор) графигі және т.б. сияқты әртүрлі бірнеше стратегиялық тәсілдерді қолданады.
? Тілдік Модель: Moses бағдарламасында SRILM, KenLM, IRSTLM, RandLM сияқты
әртүрлі бірнеше тілдік модельдер құрал-саймандарын пайдалануға болады.
? Moses серверлер: декодерге арналған XML-RPC интерфейсін қамтамасыз етеді.
? Веб-трансляция: Moses веб-беттерді аудару үшін пайдаланылатын скриптер жиынтығы.
? Құрал-саймандарды талдау: Moses шығыстарын талдауға және визуалдауға арналған
сценарийлер.
Moses бағдарламасында машиналық аударманы адам редакциялауы үшін FirstPass ретінде
пост-редакциялау жүргізіледі. Бұл аударманың уақытын (тиісінше жалпы құнын) азайтуы
мүмкін. Автоматтандырылған аудармада SMT қолданылуы да мүмкін, алайда қазіргі кезде
(2012 жылдың сәуірінен бастап) әрі қарай тереңдей зерттелу үстінде, жуырда ЕС, Casmacat10
және MateCat11 жобалары іске қосылды.
Moses арқылы дайындалған әзірлеменің негізгі платформасы Linux Moses болып
табылады. Алайда Moses басқа платформалармен де жұмыс істейді. Мысалы, Moses
бағдарламасы Windows-те Cygwin арқылы жұмыс істеуі, Moses әзірлеушілері OSX
қондырғысын да пайдалануы мүмкін.
Moses маузер және бірлескен автор (2009) ұсынған ауқымды лексика моделін
пайдаланады, алайда әрбір тұтас сөзді үйрету мүмкіндігі баяу жүреді.
Moses бағдарламасында жалпы алғанда көптеген грамматикалық ережелер қамтылған.
Алайда иерархиялық жүктеуге арналған ережелер кестесі жадында декодер өте баяу жұмыс
істейді және жедел (оперативті) жадты көп пайдаланады. Мұндай ережелердің кейбіреулері
үшін CKY арқылы іске асырылған кодсыздау алгоритмі оңтайлы болып табылмайды.
Сондықтан бөлініп алынған модельдерді іздеуге арналған алгоритмдерді пайдалану немесе
балама нұсқаларды зерттеуге аса көңіл бөлу керек.
Автоматты аударма жасау бағдарламаларына жаңа қызметтерді қосу қазіргі кезде 2009
жылғы машиналық аударма марафонында efforts арқасында оңайлады. Алайда бұл әліге
дейін күрделі іс болып қалып отыр. Сонымен қатар
интерфейс TranslationOption қажет
болғанда Hypothesis-ті талап етеді.
Жуырда RandLM, IRSTLM көпағындылығын (многопоточность) кеңейтуге арналған
жобалар іске қосылды. Мысалы, сіздің компьютеріңіз көпядролы болса, Multi-Threading
өте пайдалы [7].
Мемлекеттік тілді дамыту институты қолға алған «Ісқағаздары үлгілерінің орысша-
қазақша, қазақша-орысша автоматтандырылған сөздігін» жасауда негізге алынған Moses
бағдарламасының жұмыс істеу принципі қысқаша айтқанда осындай. Алайда Moses
бағдарламасы жалпы алғанда көпағынды болғандықтан, автоматты аударуға қатысты
қызметтердің біразын атқарғанымен, аударма жасалатын тілдердің құрылымдық
ерекшеліктеріне байланысты әлі де жетілдіруді талап етеді.
322
Әдебиеттер
1. Жұбанов А. Автоматты (машиналық аударма) // Аударматану. –Алматы: «Тіл» оқу-
әдістемелік орталығы, 2008. –70-93-беттер.
2. Құрманбайұлы Ш. Қазақша-орысша, орысша-қазақша терминдер сөздігі (бекітілген
терминдер). –Алматы: «Сөздік-Словарь», 2004.
3. Шарипбаев А.А., Тренкеншу В.П. Көпсалалы қазақша-орысша-қазақша сөздік. –Астана,
2004.
4. Русско-казахский словарь для государственных служащих. –Астана: «Алтынсофт
Астана», 2008.
5. Қапалбеков Б.С., Құсбекова Б.Ғ., Байменшин А.М., Әбділдаева М.Б. Орысша-қазақша
ісқағаз үлгілерінің электронды бағдарламасы. – Алматы: Мемлекеттік тілді дамыту
институты, 2010.
6. Philipp Koehn. Statical mashine translation. Cambridge University Press, 2009.
7. www.baseage.com
A.
SUNDETOVA
1
, M.L.FORCADA
2
, A. SHORMAKOVA
1
, A. AITKULOVA
1
.
1
Information Systems Chair, Al-Farabi Kazakh National University, Al-Farabi av., 71, 050040
Almaty, Kazakhstan, and
2
Departament de Llenguatges i Sistemes Informàtics, Universitat d'Alacant, E-03071 Alacant,
Spain
STRUCTURAL TRANSFER RULES FOR ENGLISH-TO-KAZAKH MACHINE
TRANSLATION IN THE FREE/OPEN-SOURCE PLATFORM APERTIUM
Introduction
Translating natural text from English to a Turkic language such as Kazakh faces important
challenges:
On the one hand, the complex agglutinative morphology of Turkic languages is very different
from that of a fusional, morphologically not too complex language like English; an immediate
effect is the fact that correspondences can seldom be modelled as word-for-word translations. Even
if Turkic language morphology shows clear morphotactics (ordering of morphemes), its
morphophonology shows complex phonological changes to due to interactions between neighboring
morphemes (vowel harmony, sonorization, etc.) many of which are explicitly represented in
writing.
On the other hand, there are many differences between the syntax of Turkic languages and
English. Just to name a few: subject–object–verb order (compare subject–verb–object in English),
use of postpositions (compare prepositions in English), head-final syntax with modifiers and
specifiers always preceding the modified/specified (normally following in English), overt case
marking allowing for a rather free ordering of arguments (versus a more fixed order in English),
lack of definite articles (extensively used in English), verbal-noun-centered structures where
English uses modal verbs ( must, have to, want to) or verbal-noun or verbal-adjective-centered
constructions where English has subordinate clauses using finite verbs with relatives or
subordinating conjunctions ( the book which I read, the place where I saw him, before he came),
lack of a parallel of the English verb have, as used for possession, etc. For an account (in Russian)
of syntax differences between English and Kazakh, see Печерских & Амангельдина (2012).
When sufficiently large sentence-aligned parallel corpora are available (for instance, as in the
case of English to Turkish, see, for example, Tyers and Alperen 2010), statistical machine
translation (Koehn 2010) may be used to attempt translation from English into a Turkic language
323
(in fact, statistical machine translation is currently offered by Google for two Turkic languages,
Azeri and Turkish). However, in the case of Kazakh, it would be very hard to put together the
necessary amount of sentence-aligned parallel text, and rule-based machine translation, in which
experts write up dictionaries and grammatical rules that are applied by an engine, emerges as a clear
solution; in fact, existing commercial systems for English to Kazakh (Sanasoft
7
, Trident
8
) all appear
to be rule-based.
We are currently engaged in building a free/open-source rule-based machine translation system
from English to Kazakh, and we are using the Apertium free/open-source machine translation
platform (Forcada et al. 2011, http://www.apertium.org) for various reasons. On the one hand, the
platform already contains free/open-source English morphological dictionaries and, what is more
important, Kazakh morphological dictionaries (Salimzyanov et al. 2013) which take care of all of
the morphotactics and morphophonology and provide a basic vocabulary; this allows us to
concentrate our work in two fronts: building the lexical transfer part, that is, a bilingual dictionary
(already underway) and building structural transfer rules (grammatical rules for translation), which
will be the subject of this paper. On the other hand, building free/open-source dictionaries and rules
for English to Kazakh means that they will be freely available,
9
for instance, to build translation
systems for other Turkic languages; this gives a strategic value to our work, as most of the structural
transfer rules will be ready for use with other Turkic languages with little modification or no
modification at all.
10
The paper, which describes work in progress in the Apertium English-to-Kazakh structural
transfer, is organized as follows: Section 323 describes the free/open-source rule-based machine
translation platform, focusing on structural transfer. Section 0 describes the structural transfer rules
currently available to tackle the main syntactic divergences between English and Kazakh; section 0
describes some successful structural translations and some limitations, and, finally, section 0 gives
concluding remarks and outlines future work.
The Apertium platform
Apertium (Forcada et al. 2011, http://www.apertium.org) is a free/open-source rule-based
machine translation (MT) platform that was launched in 2005 by the Universitat d’Alacant. Though
it was initially aimed at translating between closely related languages, it was later extended to be
able to deal with unrelated languages. All of the components of the platform (MT engine,
developer’s tools, and linguistic data for an increasing number of language pairs) are licensed under
the free/open-source GNU General Public License (GPL, versions 2 and 3) and are available to
everyone interested in the website.
Figure 1: A sketch of the Apertium workflow
7
http://www.sanasoft.kz/c/ru/node/47 (in Russian) http://www.sanasoft.kz/c/kk/node/53 (in Kazakh).
8
http://www.translate.ua/us/on-line; also through http://itranslate4.eu/en/
9
They already are: see a snapshot at: https://svn.code.sf.net/p/apertium/svn/incubator/apertium-eng-kaz/
10 The
Apertium
project
has
a
particularly
active
sub-project
for
Turkic
languages
(http://wiki.apertium.org/wiki/Turkic_languages),
which
has
its
own
mailing
list,
https://lists.sourceforge.net/lists/listinfo/apertium-stuff.
324
Apertium-based MT systems are transfer systems implemented as text pipelines (see Figure 1)
consisting of the following modules:
1.
A deformatter that separates the text to be translated from the formatting tags. Formatting
tags are encapsulated as “superblanks” that are placed between words in such a way that the
remaining modules see them as regular blanks (for instance, tags in the HTML text I see the
sky are encapsulated as I see [ ]the sky[] and everything in square brackets is
treated just as regular blanks).
2.
A morphological analyser, yielding, for each surface form (SF), for each lexical unit as it
appears in the text, a lexical form (LF) composed of: lemma (dictionary or citation form), lexical
category (or “part-of-speech”), and inflection information. For instance, the English SF books
would yield two LFs: book, noun, plural, as in I have bought some books) or book, verb, present
tense, 3rd person, as in He books a ticket). The morphological analyser executes a finite-state
transducer generated by compiling a morphological dictionary for the source language (SL).
3.
A constraint-grammar (Karlsson 2005) module based on CG3
11
is used to discard some LFs
using simple rules based on context (this module is not depicted in the figure).
4.
A part-of-speech tagger based on hidden Markov models (Cutting et al. 1992) selects one of
the remaining LFs. The statistical models may be supervisedly trained on an annotated SL
monolingual text corpus, or trained in an unsupervised way, either on an unannotated monolingual
SL corpus or using two unrelated, unannotated source language and target language corpora (as in
Sánchez-Martínez et al. 2008). The Apertium part-of-speech tagger can also read linguistically-
motivated constraints (much more rudimentary than constraint grammar rules in the previous
module) that forbid specific sequences of two LFs.
5.
A lexical transfer module adds, to each source language LF (SL LF), one or more
corresponding target language LFs (TL LFs). This module executes a finite-state transducer
generated by compiling a bilingual SL–TL dictionary.
6.
An (optional) lexical selection module (currently not active in the English→Kazakh system)
reads in rules that allow for the selection of one of the TL LFs according to context. When this
module is absent, the TL LF given as default in the dictionaries is used.
7.
A structural transfer module processes the stream of SL LF–TL LF pairs produced by the
lexical transfer module and transforms it into a new sequence of TL LFs; a more detailed
description is found in section 0 as this is the main subject of this paper.
8.
A morphological generator takes the sequence of TL LFs and generates a corresponding
sequence of TL SFs. The morphological generator executes a finite-state transducer generated by
compiling a morphological dictionary for the TL.
9.
A post-generator takes care of some minor orthographical operations such as
apostrophations and contractions in the target language (this module is not used for English to
Kazakh).
10.
Finally, the deformatter opens the square-bracketed superblanks and places the formatting
tags back into the text so that its format is preserved.
Structural transfer in Apertium
The structural transfer module in Apertium processes the stream of source-language lexical form
– target-language lexical form pairs (SL LF–TL LF pairs) and transforms it into a new sequence of
TL LFs after a series of structural transfer operations specified in a set of rules: reordering,
elimination or insertion of TL LFs, agreement, etc. Structural transfer rules have a pattern–action
form: when a specific (finite-length) pattern of SL LFs is detected, an action builds and generates
the corresponding sequence of TL LFs. Rules are applied in a greedy, left-to-right, longest-match
fashion. There are two main modalities of structural transfer. The first one (used for related
languages) generates the TL LF sequence in a single step. The second one (used in the English–
Kazakh system described in this paper) uses three stages to improve the granularity of structural
transfer rules (each one has its own rules file):
11 http://beta.visl.sdu.dk/cg3.html
325
A first round of transformations (“chunker”) detects SL LF patterns and generates the
corresponding sequences of TL LFs grouped in chunks representing simple constituents such as
noun phrases, prepositional phrases, etc. These chunks bear tags that may be used for inter-chunk
processing.
The second round (“interchunk”) reads patterns of chunks and produces a new sequence of
chunks. This is the module where one can attempt to perform some longer-range reordering
operations, inter-chunk agreement, case selection, etc.
The third round (“postchunk”) transfers chunk-level tags to the lexical forms they contain
and whose lexical-form-level tags are linked (through a referencing systems) to chunk-level tags
(for instance, case determined for a noun phrase is transferred to the main noun), and removes all
grouping information to generate the desired sequence of TL LFs.
Достарыңызбен бөлісу: |