Әдебиеттер
1. Бектаев, К.Б. Большой казахско - русский, русско-казахский словарь / Калдыбай
Бектайұлы Бектаев.- Алматы: Алтын қазына, 2007.- 709 с.
У.А. ТӨКЕЕВ, С.З. САПАҚОВА
Әл-Фараби атындағы ҚазҰУ, Алматы, Қазақстан
ҚАЗАҚ ТІЛІНЕН ОРЫС ТІЛІНЕ МАШИНАЛЫҚ АУДАРМА
1.
Қазақ тілді машиналық аудармашыларға қысқаша шолу
Қазіргі таңда қазақ тілінен өзге тілдерге аударатын программалар, онлайн-аудармалар
баршылық, бірақ олардың жұмыс нәтижесі мардымды емес. Оның ең негізгі себебі қазақ
тілінің грамматикасының басқа тілдің грамматикасына қарағанда анағұрлым күрделілігі, өзге
тілдің грамматикасына ұқсамайтындығында. Еліміздегі қазіргі кезде кеңінен қолданылып
жүрген sozdik.kz, soylem.kz, sanasoft.kz секілді онлайн аудармашылармен қатар «Ізет-
тілмәш» қолданбалы программасында қазақ тілінен орыс тіліне аудару мүмкіндігі бар. Бірақ
бұл аудармашы программалар енгізілген сөздерді аударғанымен сөйлемнің құрылымына, сөз
мағынасына аса мән бермейтінін олардан алынған нәтижелерден көре аламыз. Айта кететін
жайт осы айтылған машиналық аудармаларда сөйлемдер енгізіп, оларды аударатын болсақ
ол сөздердің көп жағдайда орнын өзгертпей, басқа мағыналарын қарастырмайтынын көреміз,
292
яғни түсініксіз аудармаларға грамматика толық қарастырылмағандықтан тап боламыз, оны
дәлелдемесекте болады. Сонымен қатар, бұл бағытта атқарылып жатқан іс-шараларды да
атап кететін болсақ, «ағылшын- қазақ» машиналық аударма бағытында Apertium програмасы
Микель L. Forcada (Испания) басшылығымен және әл-Фараби атындағы Қазақ Ұлттық
Университетінің қолдауымен, free/ машиналық аударманың ашық кодты платформасы
пайдаланылуда. Apertium –бұл машиналық аударма жүйесінің ашық кодасын құруға
арналған құралдардың жиыны, әсіресе өзара байланысқан тілдер жұбы үшін ыңғайлы, оның
құрамына ашық лингвистивкалық мәліметтерге арналған бірнеше сөздіктер, техникалық
қызмет көрсету т.с.с. енетінін білеміз. Осы бағдарлама негізінде «қазақ- татар» тілдер
бағытындағы ашық кодалы жүйе құрып, онымен қарқынды айналысып жатқан ғалымдарды:
Ильнар Салимзянов, Джонатан Вашингтон және Фрэнсис Tyers атап кетуге болады.
Ұсынылып отырған жұмыс қазақ-орыс бағытында құрылған машиналық аударма
жүйесінің негізгі жұмыс істеу принциптеріне, қазіргі таңда туындаған мәселерге тікелей
байланысты. Жұмыс нәтижесінде шағын «kaz-rus translator» қолданбалы программасы
жасалынды және одан әрі дамыту үстіндеміз, бұл программа Visual Studio 2010 және SQLite
орталарында орындалды.
2.
Қазақ тілінен орыс тіліне аудару барысындағы морфологиялық талдау сұлбасы
Қазіргі уақытта машиналық аударма барысында бірнеше бөліктерден тұратын күрделі
жүйе қолданылады, мысалы:
Морфологогиялық талдау – мәтіндегі сөздерді талдау
Синтаксистік талдау – сөйлемдерді, грамматиканы және сөздер арасындағы
байланыстарды талдау;
Семантикалық талдау – белгілі бір пәндік аймаққа бағытталған деректер қоры
негізінде әр сөйлемнің мағынасын талдау.
Прагматикалық талдау- өзіндік мәліметтер қоры негізінде белігілі бір контекстің
ауқымында сөйлемнің мағынасын талдау.
293
Сұлба 1. Қазақ тілінен орыс тіліне сөз аударудың блок-сұлбасы.
294
Бұл сұлбадан көретініміз морфологиялық талдауда маңызды рол атқаратын жалғаулардың
МҚ бөлек кесте түрінде сақталуы. МҚ «жалғаулар» кестесінде кездесетін 753 жалғауды
Бектаевтың сөздіктер кітабынан [1] енгіздік. Бектаевтың сөздігінде қазақ тілінде кездесетін
барлық қосымшаларды қарастырылған, сол сөздік бойынша қосымшалардың жалғану реті
жасалынды. Мысалы, бара-лар-ымыз-дың деген сөзді алсақ, қосымшалардың жалғану реті
былай болады: Р – К – Ж – Т (түбір – көптік жалғау – жіктік жалғау – тәуелдік жалғау). Осы
қосымшалардың бүкіл жағдайын қарастырып, барлығын қосындыласақ 753 қосымша
шығады (2-сұлба).
Сұлба 2. Қазақ тіліндегі жұрнақтардың жалғану реті.
Қарастырылып отырған тілдер жұбында, әр тілдің өзіндік ерекшеліктері мен олардың
арасындағы бірмәнді сәйкестік болмайтынын да айқын көреміз. Мысалы, қазақ тіліндегі
әртүрлі сөз таптарының өзіне тиселі жалғаулары бар, ол басқа сөз табына жалғанбайды,
сонымен қатар бірнеше сөз табына жалғанатындары да бар. Осы ерекшеліктерді ескере
отырып, біз жалғаулар кестесіне келесі атрибуттарды пайдаландық
Сұлба 3. Жалғаулар кестесінің атрибуттары.
295
Бұл жұмыста қарастырылып отырған Мәліметтер қорының құрылымы келесідей:
Сұлба 4. Мәліметтер қорының шағын сұлбасы.
Әрқайсысына келесідей жекеленген түсініктеме беріп кетуге болады:
zat (зат есімнің қазақша-орысша аудармасы)
syn (сын есімнің қазақша-орысша аудармасы)
san_esim (сан есімнің қазақша-орысша аудармасы)
etistik (етістіктің қазақша-орысша аудармасы)
usteu (үстеудің қазақша-орысша аудармасы)
esimdik (есімдіктің қазақша-орысша аудармасы)
predlog (орыс тіліндегі предлог)
zhalgaular (қазақ тіліндегі барлық мүмкін болатын жалғаулар)
skl1 (орыс тіліндегі склонение 1-дің жалғаулары)
skl2 (орыс тіліндегі склонение 2-дің жалғаулары)
skl3 (орыс тіліндегі склонение 3-дің жалғаулары)
iya (орыс тілінде ия-ға бітетін зат есімдердің жалғаулары)
iyi (орыс тілінде ий-ға бітетін зат есімдердің жалғаулары)
pril_skl (орыс тіліндегі сын есімнің жалғаулары)
glagol_spr (орыс тіліндегі етістіктің жалғаулары)
Осы МҚ кестелердің, әрқайсысының ерекшеліктері ескеріле отырып, келесі түрдегі
атрибуттар тағайындалды.
296
Сұлба 5. Сөз таптарының және көмекші кестелердің атрибуттары.
297
Сурет 1. Мәліметтер қорындағы «Жалғаулар» кестесі.
Мысал, «үстелдердің» көпше түрдегі сөзді аудару процесін қарастырсақ.
<үстелдердің>::=<үстел><дердің>
<үстел>::=<стол>
<дердің>::=
Сұлба 7. Морфологиялық генератордың сұлбасы.
Сұраныс бойынша МҚ «ов» жалғауы алынады және сөздің соңына жалғанады.
«үстелдердің» - «столов».
Бұл жұмыста бүкіл атқарылып жатқан жұмыстардың сипаттамасын, ішкі құрылымын
көрсету мүмкін емес, сондықтан «зат есім» сөз табының маңызды жақтарын қарастырсақ.
298
Соның ішінде Септік жалғаулары жобада толық қарастырылған. Мысал ретінде Табыс
септігін алсақ, ол орыс тіліндегі винительный падежге сәйкес.
1-склонение. Егер енгізілген сөздің соңғы әріпі «а» және оның соңғы әрпінің алдындағы
әрпі келесі жиыннан болса, pb[]={ 'б', 'в', 'г', 'д', 'ж', 'з', 'к', 'л', 'м', 'н', 'п', 'р', 'с', 'т', 'ф', 'ч', 'ш', 'щ',
'х', ‘ц’}, онда аударылған сөздің соңына «у» жалғауы жалғанады, мысалы, көлікті =>машину.
–у немесе –ю жалғауларын жалғау ережелері:
МҚ келесі атрибуттары бар сұраныс түседі: padezh=4, chislo=1, rod=2.
string[] string1 = new string[] { "я" };
if (defineVariables.skl[defineVariables.i] == "1")
{ if (padezh == "4")
{if
(string1.Contains(defineVariables.words_rus[defineVariables.i].Substring(defineVariables.words_r
us[defineVariables.i].Length - 2, 1)))
{ defineVariables.words_rus[defineVariables.i] =
defineVariables.words_rus[defineVariables.i].Substring(0,
defineVariables.words_rus[defineVariables.i].Length - 1) + okonch2; }
else { defineVariables.words_rus[defineVariables.i] =
defineVariables.words_rus[defineVariables.i].Substring(0,
defineVariables.words_rus[defineVariables.i].Length - 1) + okonch1; }
Нәтижесі:
Сурет 2. Зат есімдер кестесі мен сұраныстар кестесінің нәтижесі.
Kaz-Rus translator жұмыс нәтижесін көрсететін болсақ келесі қарапайым сөйлемдерді
аударады.
299
Сурет 3. Kaz-Rus translator жұмыс нәтижесі.
Қорыта айтқанда,
қазақ тілінен орыс тіліне аударатын машиналық аудармалар салыстырылып, оларға
талдау жасалды, яғни сапалы машиналық аударма алу үшін кеткен қателіктер зерттелді;
машиналық аударманың негізі болып табылатын мәліметтер қорын толтыру
нұсқалары қарастылып ең тиімді шешім алынды, кестелерге қажетті атрибуттар аныөталды;
12000 сөз енгізілген мәліметтер қорына программа күрделілік деңгейін азайту үшін
орыс тілінің жалғаулары қосылды;
қазақ тілінен орыс тіліне машиналық аудармада кездесетін қиындықтар талқыланып,
шешуге қажетті модульдер құрылды.
Әдебиеттер
1.
Бектаев, К.Б. Большой казахско - русский, русско-казахский словарь / Калдыбай Бектайұлы
Бектаев.- Алматы: Алтын қазына, 2007.- 709 с.
N.Z. ABDURAKHMONOVA
National University of Uzbekistan named after Mirzo, Tashkent, Uzbekistan
GRAMMATICAL ANALYZE IN MACHINE TRANSLATION
BETWEEN ENGLISH AND UZBEK
Today human society characterizes high degree of activity in different fields such as economy,
science, technology, culture etc. And it has caused to increase body of information that presents
some difficulties between person to person or among the group of people. Computer has being
considered one of the main approaches to ease opportunities of people since it was invented. So
machine translation is used to exchange information communicative attitudes. Translation of the
text is very complex creative process from a natural language into another one. We can see now
variety forms of machine translation system; even they can recognize speech and translate orally.
Most of them are multilingual translation programs. The Uzbek language is being developed rapidly
300
after our independence. Therefore our research has taken the first step to build of linguistic database
of translation program.
It is always noticed to mainly grammatical analyze (morphological and syntax) of the lexemes in
any system (retrieval of database, machine translation, automatic editor). So analyze is investigated
as one of the base of linguistic approaches.
There are many methods such as tokenization, lemmetization, stemming which used in the
automatic morphologic analysing process for the texts. Tokenization helps to detach the meaning
of units of speech (token, wordform) separately.The previous forms of the words are determined in
lemmatization process. One of the processes is stemming. The roots of the words are found by its
assist. Three ways which are used for analyze, we may describe like a chart:
In some literatures above mentioned methods are used as terms which are special procedures and
programs of creating corpus – database of computer software
[1]
.
Our decent research has shown the necessity of morphoclassificator in the automatic process to
translate from English texts into Uzbek. Morphological classification of the words might be taken
as the main way to clarify part of speech. We admit that two languages belong to other language
family.Some issues are demanded that to solve to input the linguistic database to computer
software. We cite an example contrasting between adjective and adverb in English with equivalency
in the Uzbek language: It is a good impression –Bu ijobiy taassurot. He speaks English well (badly)
–U ingliz tilida yaxshi (yomon) gapiradi. Both of the words (yaxshi, yomon) are considered as
adjective. But they are only analyzed as modifier in syntax not in morphology as adverb. Focus on
the problem is these words are not existed in adverbial list in the process. As well as we can face to
again other examples between adjective and noun: I like to eat wooden bowl –Men yog`och kosani
yoqtiraman. In this place “yog`och”is not “wood” but “wooden”.
Naturally, English and Uzbek are member of different type of language so their linguistic nature
is diverse too. For instance some pronounces in English don’t exist in Uzbek, and they are called as
other categories: few, little words are used as adverb such as “kam, oz” in Uzbek. Such problems
seem easy to solve at first. It depends on not only electron dictionary which are decoded in the
languages, but also it is responsive to grammatical analyze in context. One is of the urgent request
for any translation to save agreement between the form and sense of the text.
Transformation method is estimated as effective way to solve the problems. Four stages proceed
in the transformation method: transposition, substitution, replenishment, and omission [2]. But other
author presents only three ways: adjunction, substition, deletion. In addition to this, the base of the
transformation process contains kernel structures, and it consists of simple sentences in syntax [3].
Grammatical analyze
Tokenization: token–children; token–more
Lemmatization: lemma –child; lemma –many| much
Stemming: stem –child; stem –many| much
301
These main stages signifies in the process of analyze and synthesis. We analyze the bases on the
examples abovementioned types of transformation method.
In the process of transposition it has been analyzed words and word combinations in the text.
1
2
3
4
5
I
go
to
the
university
1
5
3
2
Men
universitet
-ga
-
boraman
Substitution proceeded through in two ways: 1) concretization; 2) generalization. These are
proceeded in morphologic and synacticacts. For example, “and”– (va, hamda in Uzbek) is as
connectable conjunction used the following functions: bo`lsa, esa, biroq – I shall go and you stay
here –Men ketaman, sen bo`lsang shu yerda qol.
It comes as infinitive (harakat nomi) in Uzbek in the compound units of verbs, as well: try and
do it – buni qilishga harakat qiling, come and see –ko`rishga keling, wait and see –yashasak
ko`ramiz [4]. Generalization may often occur mainly among the syntactic units.
In replenishment process some morphologic categories are added by the position of speech. For
instance, I have a book –Menda kitob bor. The affix –da is added to personal pronoun. It seems
very easy if it is done by human. But for the linguistic database of translation it should be clarified
accurately. In the process of omission one or several units are deleted in the context: demonstrative
pronoun those –ular, o`shalar, ana o`shalar; these –bular, shular are used for plural noun, but
sometimes as singular in Uzbek. Those children are mine –O`sha bolalar meniki. In English we
may see the agreement of those and children (plural), but in Uzbek it is not normal. That’s why
affix –lar (o`shalar) is omitted in this situation.
There is some evidence to suggest that machine translation system has contextual and strong
grammatical database. It is important to input morphological classification with equivalencies in
two languages (English-Uzbek). We remind that Krosslexicon has morphological classificatory
which holds 115 groups of declinable words in electron dictionary [5]. The morphoclassificatory
can make the word forms even if they do not exist in the dictionary.
We can obtain good results in this field in case grammatical peculiarities of the text are
considered true. There are many problems in morphological level in bilingual program. Especially,
it should be done formalization and modeling of linguistic database in Uzbek.
Translation program consists of three stages: languageprocessor which contains analyser and
synthesizer; linguistic model which contains of the knowledge of grammar and semantics;
associative procedure which expresses linguistic translation operation that is connective between
declarative and procedural parts
[6]
. We may observe that the module as analyze->transfer-
>synthesis is proceeded in many machine translation systems. Analizator should be provided
linguistically in the process of morphological analyze. Generally speaking, grammatical base of
translation program has done in scientific researches. According to them there are following types
of the grammar: 1) chain grammar (цепочечная грамматика); 2) component grammar
(грамматика составляющих); 3) dependency grammar (грамматика зависимостей); 4) context-
free grammar (контекстно-свободных грамматикa); 5) lexical-functional grammar (лексико-
функциональная грамматика); 6) unificational grammar (унификационные грамматикa).
“Chain grammar consists of words that belong to the groups of the terms (article+noun+preposition)
and compounding units such as (subject+predicate) functional elements of terms. The order of units
of speeches are shown in this. Component grammar providesthe group of grammar elements, for
example, group of noun phrase (noun, article, adjective and other modifications), prepositional
group (preposition +part of speech). In dependency grammar each elements are dependable each
others. The strategy of analyze is as top-downand the center of sentence is predicate (verb). A
transformational method is used in contextual grammar and it has shown above. Unification
grammar consist of four components: suite of unification, interpreter for grammar rules and
302
description of the words, directed graphs of possessing program and analyzer with helping graph-
devices. Unification grammar identifies semantic valency with synactic valency and description of
dictionary with grammar rules [7]”.
It is truly estimated by V.Rojdestvenskiy that central problem of artificial intelligence is machine
translation [8].Because facilities of languageare are appeared by the influence of linguistic and
nonlinguistic factors. Machine translation is complex physiological process. That’s why by using
contemporary methods of the schoolars, we have to build well-built linguistic database of
translation program.
Sum up, powerful linguistic and programming database characterize the quality of machine
translation. All grammar rules of the text must be investigated depending on types of style of the
texts. It will be better if contextual dictionaries are created in English-Uzbek translation program.
References
1.
Захаров В.П., Богданова С.Ю.Корпусная лингвистика: учебник для студентов
гуманитарных вузов. – Иркутск: ИГЛУ, 2011. С. 39.
2.
Бархударов Л. С. Язык и перевод (Вопросы общей и частной теории перевода). М.,
«Междунар. отношения», 1975.С.190-191.
3.
Бўронов Ж.Б. Инглиз ва ўзбек тиллари қиёсий грамматикаси “Ўқитувчи” Т., 1973.
40 –бет.
4.
ABBYLingvo×5
5.
Большаков И. А., Большакова Е. И. Автоматический морфоклассификатор русских
именных групп. Компьютерная лингвистика и интеллектуальные технологии. По материалам
ежегодной Международной конференции «Диалог» (2012) Выпуск 11 С.81
6.
Марчук Ю.Н.Компьютерная лингвистика М., Восток.2006.С. 272.
7.
Мамедова М.Г., Мамедова З.Ю.Машинный перевод: эволюция и основные аспекты
моделирования. Баку: Изд. «ИНФОРМАСИЙАТЕХНОЛОЭИЙАЛАРЫ», 2005. C. 69-72 .
8.
Рождественский Ю.В., Волков А.А., Марчук Ю.Н. Введение в прикладную
филологию, МГУ, 1988. С. 116.
Н.З. АБДУРАХМOНОВА, М.Х. ХАКИМОВ
Национальный Университет Узбекистана им. Мирзо Улугбек,
Ташкент, Республика Узбекистан
ЛОГИКО-ЛИНГВИСТИЧЕСКИЕ МОДЕЛИ СЛОВ И ПРЕДЛОЖЕНИЙ
АНГЛИЙСКОГО ЯЗЫКА ДЛЯ МНОГОЯЗЫЧНЫХ
СИТУАЦИЙ КОМПЬЮТЕРНОГО ПЕРЕВОДА
Функциональность слова естественного языка (ЕЯ) проявляется в его многозначности. В
конкретных случаях каждое слово свое конкретное значение приобретает в фразах и/или в
предложениях [3]. Признание функциональности слова приводит к семантической однознач-
ности, за исключением некоторых конкретных случаев, вытыкаемых из ЕЯ. Функцио-
нальность слова приводит к двум принципиально различным подходам при построении
логико-лингвистических моделей ЕЯ – либо разработать единую систему линейной обработ-
ки слов и предложений, либо рассматривать каждое слово и предложение как единичную
структуру, в соответствии с которой оно обрабатывается. Как в [3], также и здесь используем
первый подход, выполнение которой обеспечивает перевод из языка А в язык В, относя-
щихся к классу 0 по классификации Н. Хомского [4], когда математическая модель является
303
распознающей характеризующей язык А или порождающей характеризующий язык В [5], в
многоязычной ситуации машинного перевода.
В свете вышеизложенного были проведены исследования над английским языком (АЯ)
[2], являющегося как одним из языков системы машинного перевода для многоязычной
ситуации и построены логико-лингвистические модели составления слов различных частей
предложения. На основе лексического анализа проведенных над АЯ определяем, что слова
делятся на четыре типа составляющих – корень, аффиксы образующие слова, аффиксы
образующие форму и аффиксы изменяющие слова. Согласно этого строим общую логико-
лингвистическую модель образования слова АЯ:
Достарыңызбен бөлісу: |