Атты І халықаралық конференция ЕҢбектері

жүктеу/скачать 8,57 Mb.

Pdf көрінісі

бет	37/39
Дата	25.12.2016
өлшемі	8,57 Mb.
	#403

1 ... 31 32 33 34 35 36 37 38 39

RandLM, IRSTLM көпағындылығын (многопоточность) кеңейту
The Apertium platform
Structural transfer in Apertium

Мысал

1 нұсқа
2 нұсқа
На стол+е
На + сущ(ед\м.р) + е  зат+ жат(да.де..)  Зат+тәуел+үстінде
На книг+е
На + сущ(ед\ж.р) + е  зат+ жат(да.де..)  Зат+тәуел+үстінде
На окн+е
На + сущ(ед\с.р) + е
зат+ жат(да.де..)  Зат+тәуел+үстінде
На книг+у
На + сущ(ед\ж.р) + у  зат+бар (ға.ге..)  Зат+тәуел+үстіне
На стол
На + сущ(ед\м.р)
зат+бар (ға.ге..)  Зат+тәуел+үстіне
На книг+ах
На + сущ(мн\ж.р) +
ах
зат+көп+
жат(да.де..)
Зат+ көп
+тәуел+үстінде
На стол+ах
На + сущ(мн\м.р) +
ах
зат+көп+
жат(да.де..)
Зат+ көп
+тәуел+үстінде
На окн+ах(ях)
На + сущ(мн\с.р) +
ах(ях)
зат+көп+
жат(да.де..)
Зат+ көп
+тәуел+үстінде
На книг+и
На + сущ(мн\ж.р) +
зат+көп+ бар
Зат+ көп

319

и
(ға.ге..)
+тәуел+үстіне
На стол+ы
На + сущ(мн\м.р) +
и
зат+көп+ бар
(ға.ге..)
Зат+ көп
+тәуел+үстіне
По книге
По +сущ(ед\ж.р)+е
Зат+шыгыс(мен
,бен..)
Зат+ бойынша
По столу
По +сущ(ед\м.р)+у
Зат+шыгыс(мен
,бен..)
Зат+ бойынша
По окну
По +сущ(ед\с.р)+у
Зат+шыгыс(мен
,бен..)
Зат+ бойынша
по книгами
По
+сущ(мн\ж.р)+ами(я
ми)
Зат+копт+шыгы
с(мен,бен..)
Зат+ копт+бойынша
По столами
По
+сущ(мн\м.р)+ами(я
ми)
Зат+копт+шыгы
с(мен,бен..)
Зат+ копт+бойынша
По окнам
По
+сущ(мн\с.р)+ам(ям)
Зат+копт+шыгы
с(мен,бен..)
Зат+копт+ бойынша

Қорыта  келгенде  тіліндегі  предлогтардың  көпмағыналығын  ескеру  керек.  Компьютерлік
аударма  жасауда  предлогтардың  көпмағыналығын  анықтау  маңызды.  Біз  зерттеуімізде  көп
мағыналы  осындай  тұлғалардың  аударылуындағы  модельдерді  анықтап  ұсынамыз.
Болашақта өзге де тілдік тұлғалардың көпмағыналығы зерттеуіміздің нысаны болмақ.

С. ҚҰЛМАНОВ, А.БАЙМЕНШИН


Мемлекеттік тілді дамыту институты, Алматы, Қазақстан

АВТОМАТТЫ АУДАРМА ЖҮЙЕСІНДЕ ПАЙДАЛАНЫЛАТЫН
MOSES БАҒДАРЛАМАСЫ ТУРАЛЫ

Қазіргі  жаһандану  заманында  техника  мен  технологиялық  инновацияның  дамуына
байланысты  өндірісті,  жалпы  қоғам  салаларын  жаппай  автоматтандыру  ісі  қарқын  алып
келеді.  Осы  орайда  тіл  білімінің  лексикография  саласында  да  тілді  компьютерлендіру
бағытында  екі  және  көптілді  автоматты  сөздіктер  құрастыру,  яғни  машиналық  аударма  ісі
кең етек алып келеді.
Профессор  А.Жұбанов  «машиналық  аударманың  «өмірге  келуіне»,  біріншіден,  ХХ
ғасырдың  екінші  жартысынан  бастап  әр  елдерде  (континенттерде)  бірнеше  тілдегі  ақпарат
ағымының  қарқындап  өсуі,  екіншіден,  ғылыми-техникалық  прогресс  үшін  оларды  меңгеру
қажеттігіне  қатысты  әлеуметтік  себептер  негіз  болды»,  –  дей  келе  [1,  71],  машиналық
(автоматты)  аударманың  тарихына,  оның  түрлері  мен  құрылымдарына  кеңінен  сипаттама
береді.
Қазақ  лексикографиясында  машиналық  (автоматты)  аударма  ісі  енді  ғана  қолға  алынып,
негізінен  екітілді  сөздіктер  құрастыру  ісі  (ЭЕМ-ді  қоспағанда)  ХХІ  ғасырдың  басында
басталды
десек
қателеспейміз.
Мұндай
сөздіктердің
қатарында
ең
алдымен
Ш.Құрманбайұлының  «Қазақша-орысша,  орысша-қазақша  терминдер  сөздігі  (бекітілген
терминдер)»  автоматтандырылған  сөздігін  атауға  болады  [2].  Автор  сөздіктің  алғысөзінде
бұл  сөздіктің  басқа  сөздіктерін  айырмашылықтарын  көрсете  отырып,  сөздікті  құрастыруға
негіз болған бес факторды көрсетеді. Сөздікке бұдан бұрынғы басылымдарға енбеген 2002-
2004 жылдары бекітілген 1681 термин енгізілген.

320

Қазақ  автоматты  сөздіктерінің  келесі  бір  түрі  31  томдық  салалық  сөздіктің
материалдарына негізделген [3]. Мұнда 25 сала қамтылған. Пайдаланушы әр саланың тұсын
басып, қажетті сөздің қазақша немесе орысша нұсқасын іздеп таба алады.
Автоматты  сөздіктердің  көп  қолданылатын  тағы  бір  түрлері  –  «Мемлекеттік
қызметшілерге  арналған  орысша-қазақша,  қазақша-орысша  сөздік»  [4],  «Сөз  көмек»  және
интернет  арқылы  енуге  болатын  «www.sozdik.kz»  сайты.  Бұл  сөздіктерде  бағдарламаға
енгізілген  сөздер  мен  сөз  тіркестерінің  қазақша  немесе  орысша  баламасын  табуға  болады.
Әрине бұл сөздіктердің негізінде дәстүрлі сөздіктердің материалдарына сүйенгендігін байқау
қиын  емес.  Қажетті  сөздерді  дәстүрлі  кітап  түріндегі  сөздіктен  іздеп  жатқаннан  гөрі  бұл
сөздіктердің  пайдаланушының  уақытын  үнемдеуде  пайдасы  мол.  Дегенмен,  көріп
отырғанымыздай,  бұл  сөздіктер  тек  берілген  сөздердің  (терминдердің)  ғана  баламасын
табуға  арналған.  Екітілді  немесе  көптілді  сөздіктер  негізінен  сөздерді,  сөз  тіркестерін,
сондай-ақ  сөйлемдерді  аударуға  бағдарлануға  тиіс.  Осындай  сөздіктердің  қатарына  қазақ
тілінен  орыс  тіліне,  орыс  тілінен  қазақ  тіліне  сөздерді,  сөз  тіркестерін,  сөйлемдерді,  тіпті
мәтіндерді  аударатын  «Тілмаш»  және  «Sana  Soft»  екітілді  аударма  сөздіктерін  жатқызуға
болады.  Алайда  бағдарламалық  базаға  қазақ  тілінің  барлық  ерекшеліктері  толықтай
енгізілмегендіктен,  қазақ  тілінің  лексикалық  бірліктері  толықтай  қамтылмаған,
грамматикалық  жүйесі  дұрыс  анықталмайды.  Мұндай  олқылық  осы  өнімдерді
әзірлеушілердің  автоматты  сөздік  жасаудың  теориясын  толық  меңгермегендігінен  және
бағдарламашылар мен тілшілердің тығыз байланыста жұмыс істемегендігінен болса керек.
Қазіргі  кезде  ісқағаздарын  мемлекеттік  тілде  жүргізуді  автоматтандыру  ісінде  де
бастамалар  кездеседі.  Мысалы,  ісқағаз  үлгілерін  автоматтаты  түрде  өңдеуге  арналған  ҚР
Мәдениет  министрлігі  Тіл  комитетінің  тапсырысымен  «Мемлекеттік  тілді  дамыту
институты»  ЖШС  дайындаған  «Орысша-қазақша  ісқағаз  үлгілерінің  электронды
бағдарламасы»  біздің  жобамызға  көп  септігін  тигізді  [5].  Бұл  бағдарлама  орыс  және  қазақ
тілдеріндегі ісқағаздар үлгілерін автоматты түрде табуға арналған. Біз осы жұмыстарды әрі
қарай  жалғастырып,  бағдарламаны  жетілдіріп,  ісқағаздар  үлгілерінің  орысша-қазақша  және
қазақша-орысша  автоматты  сөздігін  шығаруды  қолға  алып  отырмыз.  Бұл  сөздіктің  негізгі
роботы  ретінде  Moses  бағдарламасы  қолданылады.  Мақалада  осы  бағдарламаға  қысқаша
сипаттама беруді көздедік.
Moses  бағдарламасы  кез  келген  тілден  аударма  жасау  моделін  автоматты  түрде
дайындауға мүмкіндік беретін машиналық аударманы статистикалық жолмен жүзеге асыруға
негізделген.  Бағдарламаны  қолдануға  қажет  нәрсе  –  аударылған  мәтіндердің  (параллель
корпус)  жиынтығы.  Бағдарламаның  тиімді  іздеу  алгоритмі  көптеген  нұсқалардың  ішінен
барынша ықтимал баламаны тез табады.
Moses  бағдарламасында  аударуға  «үйрету»  процесі  параллель  деректер  негізінде
жүргізіледі  және  екі  тілдегі  мәтінді  сәйкес  аудару  үшін  сөздердің  coocurrences-і
пайдаланылады.  Бұл  сәйкестіктер  бір  тілдегі  сөздің  екінші  тілдегі  ең  жуық  баламасын
бірізділік негізінде табуға, сондай-ақ машиналық аудару кезіндегі синтаксистік иерархияны
пайдалануға негізделеді.
Moses  екі  негізгі  компоненттен  тұрады:  даярлық  құбырөткізгіші  (трубопровод
подготовки)  және  декодер.  Құбырөткізгішті  даярлау,  шынында,  бастапқы  деректерді
(параллель және түсіндірме) қабылдап, оларды машиналық аударма моделіне айналдыратын
құрал-саймандар жиынтығы болып табылады.
Мұнда  енгізілген  деректер  сөзбе-сөз  аударманы  алу  немесе  қажетіне  қарай  иерархиялық
ережелерді  орындау  үшін  қолданылады  да,  осы  ережелер  бойынша  алынған  статистика
ықтималдықты  бағалау  үшін  қолданылады.  Аударма  жүйесінің  маңызды  бөлігі  тілдік
модель,  яғни  тілдік  деректерді  қолдану  арқылы  құрылған  статистикалық  модель  болып
табылады.
Машиналық  аудармада  аударма  жақсы  шығуы  үшін  әртүрлі  статистикалық  модельдер
бір-біріне  қарама-қарсы  қойылатын  баптау  тәсілі  маңызды  рөл  атқарады.  Moses
бағдарламасында төмендегідей ең танымал баптау алгортимдері пайдаланылады:

321

1) http :/ / www.statmt.org/moses/?n=Moses.LinksToCorpora
2) http :/ / mokk.bme.hu / ресурсы / hunalign /
3) http :/ / code.google.com [6].

Moses  декодері  модульдік  қағидат  бойынша  жазылады  және  пайдаланушыға
кодсыздандыру процесін төмендегідей тәсілдермен өңдеуге мүмкіндік береді:
?  Кіру:  Бұл  аударма  процесін  қалай  орындау  қажеттігін  сипаттайтын  XML-элементі  бар
аннотация  немесе  желінің  торы  немесе  «шытырманы»  сияқты  күрделі  құрылым  (мысалы,
сөзді тану) болуы мүмкін.
? Үлгінің аудармасы: Бұл сөзбе-сөз немесе иерархиялық (синтаксистік) ережелерді аудару
болып табылады.
?  Алгоритмді  расшифровкалау:  кодсыздандыруда  іздеу  барысындағы  «сәйкестіктердің»
өте  көп  болуы  қиындық  тудыратындықтан,  Moses  мұндай  іздеу  үшін  stackbased,  талдау
(разбор) графигі және т.б. сияқты әртүрлі бірнеше стратегиялық тәсілдерді қолданады.
?  Тілдік  Модель:  Moses  бағдарламасында  SRILM,  KenLM,  IRSTLM,  RandLM  сияқты
әртүрлі бірнеше тілдік модельдер құрал-саймандарын пайдалануға болады.
? Moses серверлер: декодерге арналған XML-RPC интерфейсін қамтамасыз етеді.
? Веб-трансляция: Moses веб-беттерді аудару үшін пайдаланылатын скриптер жиынтығы.
?  Құрал-саймандарды  талдау:  Moses  шығыстарын  талдауға  және  визуалдауға  арналған
сценарийлер.
Moses бағдарламасында машиналық аударманы адам редакциялауы үшін FirstPass ретінде
пост-редакциялау  жүргізіледі.  Бұл  аударманың  уақытын  (тиісінше  жалпы  құнын)  азайтуы
мүмкін.  Автоматтандырылған  аудармада  SMT  қолданылуы  да  мүмкін,  алайда  қазіргі  кезде
(2012 жылдың сәуірінен бастап) әрі қарай тереңдей зерттелу үстінде, жуырда ЕС, Casmacat10
және MateCat11 жобалары іске қосылды.

Moses  арқылы  дайындалған  әзірлеменің  негізгі  платформасы  Linux  Moses  болып
табылады.  Алайда  Moses  басқа  платформалармен  де  жұмыс  істейді.  Мысалы,  Moses
бағдарламасы  Windows-те  Cygwin  арқылы  жұмыс  істеуі,  Moses  әзірлеушілері  OSX
қондырғысын да пайдалануы мүмкін.
Moses  маузер  және  бірлескен  автор  (2009)  ұсынған  ауқымды  лексика  моделін
пайдаланады, алайда әрбір тұтас сөзді үйрету мүмкіндігі баяу жүреді.
Moses  бағдарламасында  жалпы  алғанда  көптеген  грамматикалық  ережелер  қамтылған.
Алайда иерархиялық жүктеуге арналған ережелер кестесі жадында декодер өте баяу жұмыс
істейді және жедел (оперативті) жадты көп пайдаланады. Мұндай ережелердің кейбіреулері
үшін  CKY  арқылы  іске  асырылған  кодсыздау  алгоритмі  оңтайлы  болып  табылмайды.
Сондықтан  бөлініп  алынған  модельдерді  іздеуге  арналған  алгоритмдерді  пайдалану  немесе
балама нұсқаларды зерттеуге аса көңіл бөлу керек.
Автоматты аударма жасау бағдарламаларына жаңа қызметтерді қосу қазіргі кезде 2009
жылғы машиналық аударма марафонында efforts арқасында оңайлады. Алайда бұл әліге
дейін  күрделі  іс  болып  қалып  отыр.  Сонымен  қатар

интерфейс  TranslationOption  қажет
болғанда Hypothesis-ті талап етеді.
Жуырда RandLM, IRSTLM көпағындылығын (многопоточность) кеңейтуге арналған
жобалар  іске  қосылды.  Мысалы,  сіздің  компьютеріңіз  көпядролы  болса,  Multi-Threading
өте пайдалы [7].
Мемлекеттік  тілді  дамыту  институты  қолға  алған  «Ісқағаздары  үлгілерінің  орысша-
қазақша,  қазақша-орысша  автоматтандырылған  сөздігін»  жасауда  негізге  алынған  Moses
бағдарламасының  жұмыс  істеу  принципі  қысқаша  айтқанда  осындай.  Алайда  Moses
бағдарламасы  жалпы  алғанда  көпағынды  болғандықтан,  автоматты  аударуға  қатысты
қызметтердің  біразын  атқарғанымен,  аударма  жасалатын  тілдердің  құрылымдық
ерекшеліктеріне байланысты әлі де жетілдіруді талап етеді.

322

Әдебиеттер
1.  Жұбанов  А.  Автоматты  (машиналық  аударма)  //  Аударматану.  –Алматы:  «Тіл»  оқу-
әдістемелік орталығы, 2008. –70-93-беттер.
2.  Құрманбайұлы  Ш.  Қазақша-орысша,  орысша-қазақша  терминдер  сөздігі  (бекітілген
терминдер). –Алматы: «Сөздік-Словарь», 2004.
3. Шарипбаев А.А., Тренкеншу В.П. Көпсалалы қазақша-орысша-қазақша сөздік. –Астана,
2004.
4.  Русско-казахский  словарь  для  государственных  служащих.  –Астана:  «Алтынсофт
Астана», 2008.
5.  Қапалбеков  Б.С.,  Құсбекова  Б.Ғ.,  Байменшин  А.М.,  Әбділдаева  М.Б.  Орысша-қазақша
ісқағаз  үлгілерінің  электронды  бағдарламасы.  –  Алматы:  Мемлекеттік  тілді  дамыту
институты, 2010.
6. Philipp Koehn. Statical mashine translation. Cambridge University Press, 2009.
7. www.baseage.com

A.

SUNDETOVA
1
, M.L.FORCADA
2
, A. SHORMAKOVA
1
, A. AITKULOVA
1
.

1
Information Systems Chair, Al-Farabi Kazakh National University, Al-Farabi av., 71, 050040
Almaty, Kazakhstan, and
2
Departament de Llenguatges i Sistemes Informàtics, Universitat d'Alacant, E-03071 Alacant,
Spain

STRUCTURAL TRANSFER RULES FOR ENGLISH-TO-KAZAKH MACHINE
TRANSLATION IN THE FREE/OPEN-SOURCE PLATFORM APERTIUM

Introduction
Translating  natural  text  from  English  to  a  Turkic  language  such  as  Kazakh  faces  important
challenges:
On  the  one  hand,  the  complex  agglutinative  morphology  of  Turkic  languages  is  very  different
from  that  of  a  fusional,  morphologically  not  too  complex  language  like  English;  an  immediate
effect is the fact that correspondences can seldom be modelled as word-for-word translations. Even
if  Turkic  language  morphology  shows  clear  morphotactics  (ordering  of  morphemes),  its
morphophonology shows complex phonological changes to due to interactions between neighboring
morphemes  (vowel  harmony,  sonorization,  etc.)  many  of  which  are  explicitly  represented  in
writing.
On  the  other  hand,  there  are  many  differences  between  the  syntax  of  Turkic  languages  and
English.  Just  to  name a few: subject–object–verb order (compare subject–verb–object  in  English),
use  of  postpositions  (compare  prepositions  in  English),  head-final  syntax  with  modifiers  and
specifiers  always  preceding  the  modified/specified  (normally  following  in  English),  overt  case
marking  allowing  for  a  rather  free  ordering  of  arguments  (versus  a  more  fixed  order  in  English),
lack  of  definite  articles  (extensively  used  in  English),  verbal-noun-centered  structures  where
English  uses  modal  verbs  (must,  have  to,  want  to)  or  verbal-noun  or  verbal-adjective-centered
constructions  where  English  has  subordinate  clauses  using  finite  verbs  with  relatives  or
subordinating  conjunctions  (the  book  which  I  read,  the  place  where  I  saw  him,  before  he  came),
lack of a parallel of the English verb have, as used for possession, etc. For an account (in Russian)
of syntax differences between English and Kazakh, see Печерских & Амангельдина (2012).
When  sufficiently  large  sentence-aligned  parallel  corpora  are  available  (for  instance,  as  in  the
case  of  English  to  Turkish,  see,  for  example,  Tyers  and  Alperen  2010),  statistical  machine
translation  (Koehn  2010)  may  be  used  to  attempt  translation  from  English  into  a  Turkic language

323

(in  fact,  statistical  machine  translation  is  currently  offered  by  Google  for  two  Turkic  languages,
Azeri  and  Turkish).  However,  in  the  case  of  Kazakh,  it  would  be  very  hard  to  put  together  the
necessary  amount  of  sentence-aligned  parallel  text,  and  rule-based  machine  translation,  in  which
experts write up dictionaries and grammatical rules that are applied by an engine, emerges as a clear
solution; in fact, existing commercial systems for English to Kazakh (Sanasoft
7
, Trident
8
) all appear
to be rule-based.
We are currently engaged in building a free/open-source rule-based machine translation system
from English to Kazakh, and we are using the Apertium free/open-source machine translation
platform (Forcada et al. 2011, http://www.apertium.org) for various reasons. On the one hand, the
platform already contains free/open-source English morphological dictionaries and, what is more
important, Kazakh morphological dictionaries (Salimzyanov et al. 2013) which take care of all of
the morphotactics and morphophonology and provide a basic vocabulary; this allows us to
concentrate our work in two fronts: building the lexical transfer part, that is, a bilingual dictionary
(already underway) and building structural transfer rules (grammatical rules for translation), which
will be the subject of this paper. On the other hand, building free/open-source dictionaries and rules
for English to Kazakh means that they will be freely available,
9
for instance, to build translation
systems for other Turkic languages; this gives a strategic value to our work, as most of the structural
transfer rules will be ready for use with other Turkic languages with little modification or no
modification at all.
10

The paper, which describes work in progress in the Apertium English-to-Kazakh structural
transfer, is organized as follows: Section 323 describes the free/open-source rule-based machine
translation platform, focusing on structural transfer. Section 0 describes the structural transfer rules
currently available to tackle the main syntactic divergences between English and Kazakh; section 0
describes some successful structural translations and some limitations, and, finally, section 0 gives
concluding remarks and outlines future work.
The Apertium platform
Apertium  (Forcada  et  al.  2011,  http://www.apertium.org)  is  a  free/open-source  rule-based
machine translation (MT) platform that was launched in 2005 by the Universitat d’Alacant. Though
it  was  initially  aimed  at  translating  between  closely  related  languages,  it was  later  extended  to  be
able  to  deal  with  unrelated  languages.  All  of  the  components  of  the  platform  (MT  engine,
developer’s tools, and linguistic data for an increasing number of language pairs) are licensed under
the  free/open-source  GNU  General  Public  License  (GPL,  versions  2  and  3)  and  are  available  to
everyone interested in the website.

Figure 1: A sketch of the Apertium workflow


7
http://www.sanasoft.kz/c/ru/node/47 (in Russian) http://www.sanasoft.kz/c/kk/node/53 (in Kazakh).
8
http://www.translate.ua/us/on-line; also through http://itranslate4.eu/en/
9
They already are: see a snapshot at: https://svn.code.sf.net/p/apertium/svn/incubator/apertium-eng-kaz/
10  The
Apertium
project
has
a
particularly
active
sub-project
for
Turkic
languages
(http://wiki.apertium.org/wiki/Turkic_languages),
which
has
its
own
mailing
list,
https://lists.sourceforge.net/lists/listinfo/apertium-stuff.

324

Apertium-based  MT  systems  are  transfer  systems  implemented  as  text  pipelines  (see  Figure  1)
consisting of the following modules:
1.

A  deformatter  that  separates  the  text  to  be  translated  from  the  formatting  tags.  Formatting
tags  are  encapsulated  as  “superblanks”  that  are  placed  between  words  in  such  a  way  that  the
remaining modules see them as regular blanks (for instance, tags in the HTML text  I see the
sky  are  encapsulated  as  I  see  []the  sky[]  and  everything  in  square  brackets  is
treated just as regular blanks).
2.

A  morphological  analyser,  yielding,  for  each  surface  form  (SF),  for  each  lexical  unit  as  it
appears in  the text,  a lexical  form (LF) composed of:  lemma (dictionary  or citation form), lexical
category  (or  “part-of-speech”),  and  inflection  information.  For  instance,  the  English  SF  books
would  yield  two  LFs:  book,  noun,  plural,  as  in  I  have  bought  some  books)  or  book,  verb,  present
tense,  3rd  person,  as  in  He  books  a  ticket).  The  morphological  analyser  executes  a  finite-state
transducer generated by compiling a morphological dictionary for the source language (SL).
3.

A constraint-grammar (Karlsson 2005) module based on CG3
11
is used to discard some LFs
using simple rules based on context (this module is not depicted in the figure).
4.

A part-of-speech tagger based on hidden Markov models (Cutting et al. 1992) selects one of
the  remaining  LFs.  The  statistical  models  may  be  supervisedly  trained  on  an  annotated  SL
monolingual text corpus, or trained in an unsupervised way, either on an unannotated monolingual
SL corpus or using two unrelated, unannotated source language and target language corpora (as in
Sánchez-Martínez  et  al.  2008).  The  Apertium  part-of-speech  tagger  can  also  read  linguistically-
motivated  constraints  (much  more  rudimentary  than  constraint  grammar  rules  in  the  previous
module) that forbid specific sequences of two LFs.
5.

A  lexical  transfer  module  adds,  to  each  source  language  LF  (SL  LF),  one  or  more
corresponding  target  language  LFs  (TL  LFs).  This  module  executes  a  finite-state  transducer
generated by compiling a bilingual SL–TL dictionary.
6.

An (optional) lexical selection module (currently not active in the English→Kazakh system)
reads  in  rules  that  allow  for  the  selection  of  one  of  the  TL  LFs  according  to  context.  When  this
module is absent, the TL LF given as default in the dictionaries is used.
7.

A  structural  transfer  module  processes  the  stream  of  SL  LF–TL  LF  pairs  produced  by  the
lexical  transfer  module  and  transforms  it  into  a  new  sequence  of  TL  LFs;  a  more  detailed
description is found in section 0 as this is the main subject of this paper.
8.

A  morphological  generator  takes  the  sequence  of  TL  LFs  and  generates  a  corresponding
sequence  of  TL  SFs.  The  morphological  generator  executes  a  finite-state  transducer  generated  by
compiling a morphological dictionary for the TL.
9.

A  post-generator  takes  care  of  some  minor  orthographical  operations  such  as
apostrophations  and  contractions  in  the  target  language  (this  module  is  not  used  for  English  to
Kazakh).
10.

Finally,  the  deformatter  opens  the  square-bracketed  superblanks  and  places  the  formatting
tags back into the text so that its format is preserved.
Structural transfer in Apertium
The structural transfer module in Apertium processes the stream of source-language lexical form
– target-language lexical form pairs (SL LF–TL LF pairs) and transforms it into a new sequence of
TL  LFs  after  a  series  of  structural  transfer  operations  specified  in  a  set  of  rules:  reordering,
elimination  or  insertion  of  TL  LFs,  agreement,  etc.  Structural  transfer  rules  have  a  pattern–action
form: when a specific (finite-length) pattern of SL LFs is detected, an action builds and generates
the corresponding sequence of TL  LFs. Rules are applied in  a  greedy, left-to-right,  longest-match
fashion.  There  are  two  main  modalities  of  structural  transfer.  The  first  one  (used  for  related
languages)  generates  the  TL  LF  sequence  in  a  single  step.  The  second  one  (used  in  the  English–
Kazakh  system  described  in  this  paper)  uses  three  stages  to  improve  the  granularity  of  structural
transfer rules (each one has its own rules file):

11  http://beta.visl.sdu.dk/cg3.html

325



A  first  round  of  transformations  (“chunker”)  detects  SL  LF  patterns  and  generates  the
corresponding  sequences  of  TL  LFs  grouped  in  chunks  representing  simple  constituents  such  as
noun phrases,  prepositional  phrases,  etc. These chunks  bear tags that may  be used for inter-chunk
processing.


The second round (“interchunk”) reads patterns of chunks and produces a new sequence of
chunks.  This  is  the  module  where  one  can  attempt  to  perform  some  longer-range  reordering
operations, inter-chunk agreement, case selection, etc.


The third round (“postchunk”) transfers chunk-level  tags to  the lexical  forms  they contain
and  whose  lexical-form-level  tags  are  linked  (through  a  referencing  systems)  to  chunk-level  tags
(for instance, case determined for a noun phrase is transferred to the main noun), and removes all
grouping information to generate the desired sequence of TL LFs.

жүктеу/скачать 8,57 Mb.

Достарыңызбен бөлісу:

1 ... 31 32 33 34 35 36 37 38 39