Атты І халықаралық конференция ЕҢбектері



Pdf көрінісі
бет305/326
Дата07.01.2022
өлшемі8,57 Mb.
#19269
1   ...   301   302   303   304   305   306   307   308   ...   326
Байланысты:
Болатбек М. (1)

 
A.
 
SUNDETOVA
1
, M.L.FORCADA
2
, A. SHORMAKOVA
1
, A. AITKULOVA
1
.
 
 
 

Information Systems Chair, Al-Farabi Kazakh National University, Al-Farabi av., 71, 050040 
Almaty, Kazakhstan, and 
2
Departament de Llenguatges i Sistemes Informàtics, Universitat d'Alacant, E-03071 Alacant, 
Spain 
 
 
STRUCTURAL TRANSFER RULES FOR ENGLISH-TO-KAZAKH MACHINE 
TRANSLATION IN THE FREE/OPEN-SOURCE PLATFORM APERTIUM 
 
Introduction 
Translating  natural  text  from  English  to  a  Turkic  language  such  as  Kazakh  faces  important 
challenges:  
On  the  one  hand,  the  complex  agglutinative  morphology  of  Turkic  languages  is  very  different 
from  that  of  a  fusional,  morphologically  not  too  complex  language  like  English;  an  immediate 
effect is the fact that correspondences can seldom be modelled as word-for-word translations. Even 
if  Turkic  language  morphology  shows  clear  morphotactics  (ordering  of  morphemes),  its 
morphophonology shows complex phonological changes to due to interactions between neighboring 
morphemes  (vowel  harmony,  sonorization,  etc.)  many  of  which  are  explicitly  represented  in 
writing. 
On  the  other  hand,  there  are  many  differences  between  the  syntax  of  Turkic  languages  and 
English.  Just  to  name a few: subject–object–verb order (compare subject–verb–object  in  English), 
use  of  postpositions  (compare  prepositions  in  English),  head-final  syntax  with  modifiers  and 
specifiers  always  preceding  the  modified/specified  (normally  following  in  English),  overt  case 
marking  allowing  for  a  rather  free  ordering  of  arguments  (versus  a  more  fixed  order  in  English), 
lack  of  definite  articles  (extensively  used  in  English),  verbal-noun-centered  structures  where 
English  uses  modal  verbs  (must,  have  to,  want  to)  or  verbal-noun  or  verbal-adjective-centered 
constructions  where  English  has  subordinate  clauses  using  finite  verbs  with  relatives  or 
subordinating  conjunctions  (the  book  which  I  read,  the  place  where  I  saw  him,  before  he  came), 
lack of a parallel of the English verb have, as used for possession, etc. For an account (in Russian) 
of syntax differences between English and Kazakh, see Печерских & Амангельдина (2012). 
When  sufficiently  large  sentence-aligned  parallel  corpora  are  available  (for  instance,  as  in  the 
case  of  English  to  Turkish,  see,  for  example,  Tyers  and  Alperen  2010),  statistical  machine 
translation  (Koehn  2010)  may  be  used  to  attempt  translation  from  English  into  a  Turkic language 


323 
 
(in  fact,  statistical  machine  translation  is  currently  offered  by  Google  for  two  Turkic  languages, 
Azeri  and  Turkish).  However,  in  the  case  of  Kazakh,  it  would  be  very  hard  to  put  together  the 
necessary  amount  of  sentence-aligned  parallel  text,  and  rule-based  machine  translation,  in  which 
experts write up dictionaries and grammatical rules that are applied by an engine, emerges as a clear 
solution; in fact, existing commercial systems for English to Kazakh (Sanasoft
7
, Trident
8
) all appear 
to be rule-based. 
We are currently engaged in building a free/open-source rule-based machine translation system 
from English to Kazakh, and we are using the Apertium free/open-source machine translation 
platform (Forcada et al. 2011, http://www.apertium.org) for various reasons. On the one hand, the 
platform already contains free/open-source English morphological dictionaries and, what is more 
important, Kazakh morphological dictionaries (Salimzyanov et al. 2013) which take care of all of 
the morphotactics and morphophonology and provide a basic vocabulary; this allows us to 
concentrate our work in two fronts: building the lexical transfer part, that is, a bilingual dictionary 
(already underway) and building structural transfer rules (grammatical rules for translation), which 
will be the subject of this paper.  On the other hand, building free/open-source dictionaries and rules 
for English to Kazakh means that they will be freely available,
9
 for instance, to build translation 
systems for other Turkic languages; this gives a strategic value to our work, as most of the structural 
transfer rules will be ready for use with other Turkic languages with little modification or no 
modification at all.
10
 
The paper, which describes work in progress in the Apertium English-to-Kazakh structural 
transfer, is organized as follows: Section 323 describes the free/open-source rule-based machine 
translation platform, focusing on structural transfer. Section 0 describes the structural transfer rules 
currently available to tackle the main syntactic divergences between English and Kazakh; section 0 
describes some successful structural translations and some limitations, and, finally, section 0 gives 
concluding remarks and outlines future work. 


Достарыңызбен бөлісу:
1   ...   301   302   303   304   305   306   307   308   ...   326




©emirsaba.org 2024
әкімшілігінің қараңыз

    Басты бет