5
ҚАЗАҚСТАН РЕСПУБЛИКАСЫ БІЛІМ ЖӘНЕ ҒЫЛЫМ МИНИСТРЛІГІ
Л. Н. ГУМИЛЕВ АТЫНДАҒЫ ЕУРАЗИЯ ҰЛТТЫҚ УНИВЕРСИТЕТІ
МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РЕСПУБЛИКИ КАЗАХСТАН
ЕВРАЗИЙСКИЙ НАЦИОНАЛЬНЫЙ УНИВЕРСИТЕТ
ИМ. Л. Н. ГУМИЛЕВА
THE MINISTRY OF EDUCATION AND SCIENCES OF REPUBLIC KAZAKHSTAN
L.N.GUMILYOV EURASIAN NATIONAL UNIVERSITY
«Түркі тілдерін компьютерлік өңдеу»
атты І халықаралық конференция
ЕҢБЕКТЕРІ
ТРУДЫ
І Международной конференции
"Компьютерная обработка тюркских языков"
PROCEEDINGS
Of the I International Conference
on Computer processing of Turkic Languages (TurkLang-2013)
АСТАНА, 2013
7
УДК 81’322
ББК 81.1
Т 90
Т 90 ТҮРКІ ТІЛДЕРІН КОМПЬЮТЕРЛІК ӨҢДЕУ. Бірінші халықаралық
конференция: Еңбектері/ Астана: Л.Н.Гумилев атындағы ЕҰУ баспасы, 2013-
340 бет
КОМПЬЮТЕРНАЯ ОБРАБОТКА ТЮРКСКИХ ЯЗЫКОВ. Первая
международная конференция: Труды. – Астана: ЕНУ им. Л.Н. Гумилева, 2013. –
340 с.
ISBN
978-601-7454-85-2
Жинақта «Түркі тілдерін компьютерлік өңдеу» атты I халықаралық
конференция қатысушыларының баяндамалары енген.
Компьютерлік лингвистика бағыты бойынша оқитын студенттерге,
магистранттарға, докторанттарға және мамандарға арналған.
В сборнике представлены доклады участников I международной
конференции «Компьютерная обработка тюркских языков».
Предназначен для студентов, магистрантов, докторантов и специалистов
специализирующихся в областях компьютерной лингвистика.
УДК 81’322
ББК 81.1
Техникалық редакция: Бурибаева А.К.
Муканова А. С.
Ергеш Б.Ж.
Елибаева Г.З.
©
Л.Н.Гумилев атындағы Еуразия ұлттық университеті, 2013
Евразийский национальный университет им. Л.Н. Гумилева, 2013
ISBN
978-601-7454-85-2
13
МӘТІНДІ МОРФОЛОГИЯЛЫҚ ЖӘНЕ СИНТАКСИСТІК ӨҢДЕУ ЖҮЙЕЛЕРІ
СИСТЕМЫ МОРФОЛОГИЧЕСКОЙ И СИНТАКСИЧЕСКОЙ ОБРАБОТКИ
ТЕКСТОВ
SYSTEMS OF MORPHOLOGICAL AND SYNTACTIC PROCESSING OF TEXTS
1
Галиева А.М., Гатиатуллин А.Р.
НИИ “Прикладная семиотика” академии наук Республики Татарстан
ОБОЗНАЧЕНИЕ МОРФОЛОГИЧЕСКИХ КАТЕГОРИЙ ГЛАГОЛА В
МОДЕЛЯХ ОКОНЧАНИЙ ТЮРКСКИХ СЛОВОФОРМ
171
2
Карабаева С. Ж., Иманалиева А.И.
Кыргызский государственный университет строительства, транспорта и
архитектуры им. Н.Исанова, Бишкек, Кыргызстан
ИСПОЛЬЗОВАНИЕ ГРАММАТИЧЕСКИХ ПРАВИЛ В ПРОЛОГе
177
3
Тукеев У.А., Рахимова Д.Р., Байсылбаева К., Умирбеков Н., Оразов Б.,
Абақан М., Кызырканова С..
Әл Фараби атындағы Қазақ Ұлттық Университеті, Алматы, Қазақстан
КӨПМАҒЫНАЛЫҚ БЕЙНЕЛЕУ КЕСТЕ ТӘСІЛІ НЕГІЗІНДЕ ОРЫС
ТІЛІНЕН
ҚАЗАҚ
ТІЛІНЕ
МАШИНАЛЫҚ
АУДАРМАСЫНЫҢ
МОРФОЛОГИЯЛЫҚ АНАЛИЗБЕН СИНТЕЗІН ҚҰРУ
182
4
Бекманова Г.Т., Махимов А.
Евразийский национальный университет ЕНУ им. Л.Н. Гумилева, НИИ
«Искусственный интеллект»
ГРАФЕМАТИЧЕСКИЙ
И
МОРФОЛОГИЧЕСКИЙ
АНАЛИЗАТОР
КАЗАХСКОГО ЯЗЫКА
191
5
Муканова А.С., Ергеш Б. Ж., Разахова Б.Ш.
Л.Н. Гумилев атындағы Еуразия ұлттық университеті, «Жасанды зерде» ҒЗИ,
Астана
МОРФОЛОГИЯЛЫҚ ЕРЕЖЕЛЕРДІ ОНТОЛОГИЯЛЫҚ МОДЕЛДЕУ
196
6
Ергеш Б.Ж., Муканова А.С., Разахова Б.Ш.
Л.Н. Гумилев атындағы Еуразия ұлттық университеті, «Жасанды зерде» ҒЗИ,
Астана
ҚАЗАҚ ТІЛІНДЕГІ ЖАЙ СӨЙЛЕМДЕРДІҢ ОНТОЛОГИЯЛЫҚ МОДЕЛІ
202
7
Елибаева Г.К., Андасова Б.З
Л.Н. Гумилев атындағы Еуразия ұлттық университеті, Астана
МӘТІНДІК
ҚҰЖАТТАРДЫ
КЛАССИФИКАЦИЯЛАУДА
ОНТОЛОГИЯНЫ ҚОЛДАНУ
205
8
Шынатай Г.
Л.Н. Гумилев атындағы Еуразия ұлттық университеті, «Жасанды зерде» ҒЗИ,
Астана
ҚАЗАҚ ТІЛІНДЕГІ СӨЗ ТІРКЕСТЕРДІ ӨҢДЕУ
208
187
Разбор предложения можно рассматривать как нахождение зависимости отношения
некоторой парыслов в предложении. Слова должны быть связаны таким образом, что они
образуют ровную древовидную структуру, где узлы являются словами, ребра назначаются
между парами слова,которые являются связанными уровнем именем отношений.
Заключение
Пролог обладает большими возможностями по сопоставлению объектов с образцом,
поэтому данный язык программирования хорошо подходит для обработки текстовой
информации. В статье приведен пример для разбора предложений (в программе Swi-Prolog).
Система грамматического разбора – это программа, которая распознает синтаксические
объекты в потоке лексем, т.е. реализует какую-либо формальную грамматику. Каждый язык
имеет ряд особенностей, которые требуют особого внимания в формальные описания.
Таким образом, мы предлагаем последовательную древовидную структуру для
кыргызского языка, принимая во счет языковые возможности, чтобы гарантировать
эффективные семантические и синтаксические разбора и утверждаем, что дерево
семантических классов (структура предложения – вариант -2.) является универсальной для
классификации всех языков кроме английского.
Литература
1.
Тыныстанов К. Лексикон кыргызского языка. – 1934// КР ИУА Кол жазмаларбөлүмү.
Инв. 177/37-182/42, кол жазмалар 79-84.
2.
Панков П.С. Обучающая и контролирующая программа по словоизменению в
кыргызском языке на ПЭВМ. – Бишкек: Мектеп, 1992. – 20 с.
3.
Карабаева С.Ж. Синтаксический анализ текста в логическом программировании //
вестник КазНПУим.Абая. – Алматы. 2008. – №2(22) – С.213-218.
У.А. ТУКЕЕВ, Д.Р. РАХИМОВА, К. БАЙСЫЛБАЕВА, Н. УМИРБЕКОВ, Б.ОРАЗОВ, М.
АБАҚАН, С. КЫЗЫРКАНОВА.
Әл Фараби атындағы Қазақ Ұлттық Университеті, Алматы, Қазақстан
КӨПМАҒЫНАЛЫҚ БЕЙНЕЛЕУ КЕСТЕ ТӘСІЛІ НЕГІЗІНДЕ ОРЫС ТІЛІНЕН
ҚАЗАҚ ТІЛІНЕ МАШИНАЛЫҚ АУДАРМАСЫНЫҢ МОРФОЛОГИЯЛЫҚ
АНАЛИЗБЕН СИНТЕЗІН ҚҰРУ
Кіріспе
Машиналық аудару жүйесі күрделі және өте ауқымды болып табылады: құрамына екі
тілді және одан да көп сөздіктерді қосады, ол қажетті грамматикалық ақпаратпен
жабдықталған (морфологиялық, синтаксистік және семантикалық), ол эквивалентті,
нұсқалық және трансформациялық аударма сәйкестіктерін, сонымен қатар грамматикалық
талдаудың алгоритмдік құралдарын жіберуді қамтамасыз ету үшін қажет. Осы мақалада
орыс тілінен қазақ тіліне және керсінше машиналық аудармадағы морфологиялық талдау
мен синтездің жеке жағдайы қарастырылады.
Сөздер өзара байланыспай, бір-бірімен тіркеспей тұрғанда ойды және нақты мағынаны
білдіре алмайды. Сөздердің бір-бірімен байланысуы және мағынаның толық болуы
аффикстердің жалғауы арқылы іске асады.
Қазақ тіліне де, орыс тіліне де жалғанатын жұрнақтар мен жалғаулардың өзіндік жалғану
реті мен жүйесі бар [1].
Бұл тілдің ішкі заңдылығына бағынатын күрделі тарихи процесс.
Түбір мен қосымшалардың мағыналарының берілуінің де өзіндік тәртібі болады. Қазақ
188
тіліндегі жалғаулар 4 топқа бөлінетін болса: көптік, септік, жіктік, тәуелдік, орыс тіліндегі
жалғаулар «род, число, падеж (септік)» сияқты грамматикалық мағынада бөліне алады.
Соның ішінде орыс тілі мен қазақ тіліндегі септік жалғауларға қатысты мәселерді
қарастырсақ. Орыс тіліндегі «книга» сөзін септеп көрейік: именетилеьный падеж- книга,
родительный падеж - книги, дательный падеж - книге, венительный падеж - книга,
творительный падеж - книгой, предложный падеж - о книге. Бұл жерде орыс тілінен қазақ
тіліне машиналық аударма кезінде қиындық туындайды себебі, екі септікте де «е» жалғауы
кездеседі және «и» жалғауы «родительный» септігінде және атау септіктің көпше түрінде де
кездесе алады. Мысалы: «книги нет на месте» және «я забрала все свои книги». Бірінші
жағдайда бір ғана кітап жайлы және сол кітаптың орнында жоқтығы жайында сөз қозғалса,
екінші жағдайда бірнеше кітап және соларды алып кеткендігі жайлы баяндалады. Бұның
мағынасын біз жеңіл түсінгенімізбен, машинаның түсінуі екіталай.
Машиналық аудармадағы талдау тізбектелген және өзара байланасатын процесс болып
саналады. Морфологиялық талдаудың нәтижесі синтаксистік талдауға әсерін тигізеді, ал
морфология пен синтаксистік мәтіннің семантикасына ықпал тигізеді. Сондықтан мәтін
талдауының бастапқы кезеңіне дұрыс көңіл бөлуді қажет етеді.
Біздің зерттеу жұмысымыздыің негізгі бағыты: қазақ жалғауларының (аффикстерінің)
түрлері мен байланыстардың атқаратын рөлі және мәтіннің аудармасына тигізетін әсерін
көрсету. Орыс-қазақ машиналық аудармадағы морфологиялық талдаудағы қазақ тілінің
жалғауларын (аффикстерін) қолайлы жүйеге түрлендірудің әдісін ұсыну болып табылады.
1 Көпмағыналық бейнелеу кесте тәсілі
Машиналақ аудармадағы негізгі мәселердің бірі көпмағыналық болып саналады. Оған
қатысты көптеген әдістер бар. Қазіргі қолданыста ең көп тарағаны статистикалық және
ережелер негізіндегі әдістер болып табылады. Бірақ олардың өзіндік артықшылықтары мен
кемшіліктері бар.
Бұл жұмыста біз табиғи тілдерді бір біріне машиналық аударма күрделі мәселелерін шешу
жолдарын іздеу бағытында келесі пікір(ұйғарым) еңгізіп жатырмыз. Әр сөзді тек екі
бөлімнен кұрылады деп санаймыз – негізден және жалғаулардан. Осы ұйғарымды
компьютерлік көрсетуілінде біз көпмағыналық бейнелеу кесте түрінде қолдануын ұсынып
жатырмыз. Көпмағыналы бейнелеу теория соңғы 10-15 жылдары қатты дамыған [2,3].
Машиналық аударма бағытында бейнелеу тәсілі қолданған мысалдары бар [4,5], бірақ
көпмағыналы бейнелеу тәсілдерін қолданғанын қарастыра алмадық.
Көпмағыналық бейнелеу кестелер машиналық аударма процесін жүйректендіруге және
жүйелендіруге ықпал тигізеді.
Машиналақ аударманы жасау барысында деректер қорына көпмағыналық бейнелеу кесте
құру тәсілімен тілдер сөздігі мен қосалқы элементтер (жұрнақ, жалғау) кестелері құрылады.
Қолайлық үшін орыс-қазақ электрондық сөздігін сөз табтарының түрлеріне сай кестелерге
бөлуді ұйғардық. Электрондық сөйлем сөздігі тек қана сөйлем негізінен (түірінен)
құралады. Және кестелерге әр сөз табына сәйкес қасиеттерді қосалқы атрибуттар ретінде
еңгіземіз. Кестелердегі атрибуттар қарапа
йым сандар ретінде белгіленеді. Мысалы:
орыс тілдегі зат есімге "род", "число", "склонение"; қазақ тілінің етістіктеріне уақыт шағы,
жақ және т.с.с.
Сөздер өзара байланыспай, бір-бірімен тіркеспей тұрғанда ойды және нақты мағынаны
білдіре алмайды. Сөздердің бір-бірімен байланысуы, тіркесуі аффикстердің жалғауы арқылы
іске асады. Грамматикада сөздер байланысы негізгі бес түрге (қиысу, меңгеру, матасу,
қабысу, жанасу)бөлінеді , соның үшеуі (қиысу, меңгеру, матасу) жалғаулар негізінде
құрастырылған. Соған қарағанда сөйлемдегі сөздердің мағыналық байланысы аффикстерге
тәуелді.
Қазақ тіліне де, орыс тіліне де жалғанатын жұрнақтар мен жалғаулардың өзіндік жалғану
реті мен жүйесі бар. Бұл тілдің ішкі заңдылығына бағынатын күрделі тарихи процесс. Түбір
мен қосымшалардың мағыналарының берілуінің де өзіндік тәртібі болады.
189
Қазақ тіліндегі жалғаулар (аффикстер) 4 топқа бөлінетін болса: көптік, септік, жіктік,
тәуелдік. Орыс тіліндегі жалғаулар «род, число, падеж (септік)» сияқты грамматикалық
мағынада бөліне алады. Жалғаулардың сөз құрамына және құрылуына әсер ететіні мәлім.
Орыс тілінен қазақ тіліне машиналық аударманы жасау барысында морфологиялық талдауда
және синтезде көптеген мәселелерге және қиыншылықтарға тап болдық. Машиналық
аударамаға морфологиялық талдауы мен синтезі үшін аффикстер көпмағыналық бейнелеу
кестелер тәсілімен құрылады. Оларға да сәйкесінше қасиеттік атрибуттар еңгізіледі.
Мысалы, орыс тілі етістік сөздердің жалғаулар кестесінің құрылуын келесі суреттен
көруге болады.
1 сурет. Орыс тілі етістіктердің аффикстер кесетесі.
Жоғары суреттегі етістік аффикстеріне төрт атрибут (число, время, лицо, часть речи)
жалғанған, осы атрубуттарға сәйкес машиналық аударманың екінші (аудару ) тілінің
аффиксі ізделінеді. 1 суретте көрсетілгендей талдау және іздеу кезінде қызылмен
ерекшеленген көпмағыналық бейнелеулерге тап боламыз.
Ал аударма процесінде көпмағыналы жағдайда біз бірмағыналы шешімді табуымыз қажет.
Сол себептен әр көпмағыналы жағдайға әдейі арналған бірмағыналы шешімдер шығаратын
ережелер құрамыз.
2 Орыс және қазақ тілдерінің септілік сәйкестендіру кестелері
Қазақ тілін орыс тілімен салыстырғанда септіктердің мағынасына қарай салыстыру
жүйесін жасадық. Бірақ мұнда өзіндік қиыншылықтар туындады, себебі орыс тілінде алты,
ал қазақ тілінде жеті септік бар және олар бір біріне сәйкес емес. Олардың сөз түрлендіруі
бір бірінен өзгеше. Қазақ тілінің 7 септік түрі бар және кестеге еңгізу үшін біз оларға реттік
нөмірлерді бердік: атау-1, ілік-2, барыс-3, табыс-4, жатыс-5, шығыс-6, көмектес-7. Орыс
тілімен қазақ тілін сәйкестендіре отырып септіктің байланысын орнаттық (1 кестеде
бейнеленген).
Кесте 1. Екі тіл септіктерінің сәйкестігі.
Орыс тіліндегі септік түрлері
Қазақ тіліндегі септік түрлері
Именительный падеж
Атау септік
Родительный падеж
Ілік септік
Дательныый падеж
Барыс септік
Винительный падеж
Табыс септік
190
Творительный падеж
Көмектес септік
Из (предлог)+ родительный падеж
Шығыс септік
От (предлог)+ родительный падеж
Шығыс септік
На (предлог)+ предложный падеж
Жатыс септік
В (предлог)+ предложный падеж
Жатыс септік
3 Орыс тілінен қазақ тіліне машиналық аудармасының морфологиялық талдау мен
синтезін шешу
Орыс тілінен қазақ тіліне машиналық аударма бағытында септіктерге қатысты
мәселеларды шешу үшін біз көпмағыналық бейнелеу кестелерін енгіздік, яғни деректер
базасы кестелерден тұрады және әрбір кестеде өзіндік атрибуттары болады. Әр кестеде
атрибуттар тізімі екі топқа бөлінеді: ену тобы және шығу тобы. Мысалға орыс тілінен
мынадай бір сөз тіркесі келіп түсті делік: «гордиться городом» - қаламен мақтану. Алдымен
жалғауды орысша сөз үшін қарастырады, ол орыс тілінің септіктерінің жалғауларынан
қарайды. Кестеде 5 суретке сәйкесінше былайша болады:
Сурет 2. Орыс тіліндегі «творительный» септігін анықтау мысалы
Бұл бейнелеу кестеде ену атрибуттар тобы- «okonch» (орыс тілі жалғауы), ал шығу
атрибуттар тобына қалғандары кіреді- ch_r, padezh, chislo, skl. Бұл жерден «город+ом»
жалғауын тапты, енді оның атрибуттарын қарастырады, ch_r- сөз табы, okonch- жалғау,
padezh- септік. Сол сандар, яғни негізгі сипаттаушы параметрлер бойынша енді қазақ тілінің
жалғаулар кестесіне барады(Сурет 3):
191
Сурет 3. Қазақ тілінің көмектес септігіне сәйкестік мысалы
Бұл кестеде шығу атрибуты – ‘okonch’(қазақ тілі жалғаулары), ал ену атрибуттар тобы-
қалған атрибуттар. 3 суреттен байқап отырғанымыздай бұл жерден орыс тіліндегі «ом»
жалғауының {1 7 1} деген сандары (атрибуттары) қазақ тілінің «мен»-{ 1 7 1} деген
жалғауымен сәйкес келіп тұр. Сондықтан осыны алып қазақ тіліне аударылған түбір сөзге
жалғайды. Сол уақытта «городом»- «қаламен» деп дұрыс аударманы шығарады.
Келесі кезекте етістік үшін морфологиялық синтезді қарастыралық. Бұл жағдайдағы
жалғаудың жалғану заңдылығы да дәл сондай принциппен жұмыс істейді. Мысалы кіріс
тіліндегі сөз тіркесін тағы да «гордиться городом» деп алайық. Бұл жағдайда «гордиться»
сөзі (етістігі) етістіктің алғашқы формасында (неопределенная или начальная форма
глагола) тұр. Ал етістіктің алғашқы формасы қазақ тіліндегі тұйық етістік ұғымымен сай
келеді. Ондай сөздерді базаға дәл сол қалпында енгізуді жөн көрдік. Себебі олардың түбірі
кейбір жағдайларда өзгеріп отырады, мысалы «гордиться» сөзі «горжусь» деген формада да
бола алады, ал бұл істі қиындата түседі, сол үшін алғашқы формасы базада тұрады. Яғни
аударма мынадай түрде болады: «гордиться городом» - қаламен мақтану.
Басқаша мысалды алып қарайтын болсақ, «читаешь книгу». Бұл жерде зат есімнің
жалғауын қалай анықтайтындығы жайлы жоғарыда сипаттап өттік, енді етістігін қалай
анықтайдығын айтайық. Сөз тіркесі келіп түскеннен соң, базадан сөздерді іздейді, сол кезде
«читаешь» сөзінің етістіктер кестесінде жатқандықтан етістік екендігін анықтап біледі.
Алайда кестеде бұл сөздің тек түбірі ғана болады: «чита». Сол сөздің аудармасының негізі
«оқ» екендігін тапқаннан соң, 4-суретке сәйкес
Сурет 4. Етістіктер сөздігінің кестесі
192
«ешь» жалғауын жалғаулар кестесінен іздейді, ол 5-суретте келтірілген:
Сурет 5. Орыс тілі етістіктің жалғаулар кестесі
Көріп тұрғанымыздай «ешь» жалғауын тапты, енді оның атрибуттары бойынша, яғни
okonch (жалғау)-«ешь», zhak (жақ)- 2, shak (шақ)- 1 және tur(түр)- 1 «жекеше» екендігін
тауып алды. Сол бойынша etistik_kaz кестесінен дәл сондай сандарды (атрибуттарды)
іздейді. Ондай атрибуттар саны 6-суретке сәйкес екеу болып тұр:
Сурет 6. Қазақ тілі жалғаулары бойынша екі сәйкестік табылған жағдай
Алайда ол атрибутқа сай келетін жалғау екеу болып тұр. Оның бірі «сың» сингармонизм
заңы бойынша буын жуан болған жағдайда, ал екіншісі «сің» буын жіңішке болған жағдайда
жалғанады. Соны компьютерге түсінікті ету үшін қосымша тағы бір атрибуттар қосылады.
Бұл жердегі дауысты 1- ол жуан, дауысты 2- жіңішке, ал дауыссыз 4- «р, й, у» әріптерінен
соң осындай жалғау жалғанатындығын көрсетуші. Ол әріптер комбинациясы программада
енгізілген. Яғни осы ережелер бойынша «ешь» жалғауына қазақша сәйкесі «сың» болады.
Сондағы алатын нәтижеміз «читаешь книгу»- «кітап оқып отырсың». Бұл жерде тағы бір
ескертетін жайт, қазақ тілінде көмекші етістік деген ұғым бар. Ол негізгі етістікке көсемше
жалғауын тіркеген соң қосылады. Ал көсемше жалғаулары программада айтылады. Жуаннан
кейін «ып», жіңішкеден кейін «іп».
Біздің деректер базасында, зат есімдерге жалғанатын көптік жалғаулар кестесі екеу, бірі
орыс тілінің көптік жалғаулары және екіншісі қазақ тілінің көптік жалғаулары. Біздің
мақсатымыз кіріс тілінде келген жалғаудың көптік екендігін анықтап, оны атрибуттар
арқылы қазақ тіліндегісімен сәйкестендіру. Мысалы мынадай сөз тіркесі берілсін: «книги
лежат на полке». Бұл жердегі «книги» сөзінің көптік жалғау ма я септік жалғауы ма екендігін
алдымен программа анықтап алуы керек. Егер, сөз тіркесі не сөйлемдегі етістік көпше түрде
тұрса, онда бұл жалғау да сәйкесінше көптік жалғауы болады. Ал біздің жағдайда «лежат»
сөзіндегі жалғау көпше түрдегі заттың әрекетін білдіріп тұр. Сол себепті зат есім де көпше
түрде. Мұны анықтап алғасын енді енді «книг» сөзін кестелерден жүгірте шығып, іздеп
193
тапқасын аудармасын аламыз. Кейіннен оның жалғауы «и» тағы кестелерден жүгірте отырып
ізделінеді, табылғасын оның атрибуттарын қарап 3-суреттедгідей, қазақша балама жалғауды
атрибуттар сәйкестігі бойынша табамыз:
Сурет 7. Орыс және қазақ тіліндегі көптік жалғаулар кестесі.
Енді қазақ тілінен {1 1 2 } атрибуттарымен жалғау іздейміз. Байқап отырғанымыздай бұл
жерде барлық жалғау біз іздегендей атрибуттар тұр. Бұл жердегі дауысты 1- дауысты жуан,
дауысты 2- дауысты жіңішке, дауыссыз 1- «б,в,г,д» және барлық қатаң дауыссыздар,
дауыссыз 2- «м,н,ң» дауыссыздары деп белгіленген
Яғни бізге келіп түскен «книги» сөзін не «кітаплар» немесе «кітапдер» деп емес,
«кітаптар» деп дұрыс аударып беруі керек. Осылайша қажетті әрі дұрыс аударма
шығарылады: «кітаптар сөреде жатыр».
Осындай салдарда лингвистика заңдарына жүгінеміз. Жалғауды дұрыс тіркеу үшін
сингармонизм заңына бағынамыз. Қысқа айтып кетсек: сингармонизм заңы бұл сөздің түбірі
қай әріпке аяқталанытына байланысты жалғауға қолданылатын үндестік ережелер
жиынтығы. Мұндай ережелерді автоматандыруға қиындық соқпайды , себебі қазақ тілінің
дыбыс үндестігі заңы тұрақты және барлық түркітілдес тілдерге тән.
Жоғарыда көріп тұрғандай аффикстердің жалғануы морфологиялық қасиеттерінен қана
емес, сонымен қатар тіркеленетін сөздің түбіріне де байланасты. Бірақ кейде мұндай ақпарат
жеткіліксіз болып қалады, себебі аффикстердің жалғануы мәтіндегі басқа тәуелді сөздерге
де байланысты. Көрсетілген мысалда сөздің жалғауын дұрыс анықтау үшін «лежат»
етістістіктің көмегіне жүгіндік. Сонымен қатар бізге тек қана іс-әрекет байланысы ғана емес
тұлғасын (субьект \ обьект) да иелендіру қажет. Мысалы ретінде жіктік және тәуелділік
жалғауларды қарастыруға болады.
Орыс тілінде жіктік жалғау болмайды, тек қазақ тіліне аударма кезінде ғана жаққа
байланысты жалғау қосылады, мысалы «я студент»- мен студентпін сол сияқты 2-3 жақтар
үшін де түрлі формада болады. Оны анықтау үшін деректер базасындағы индекстік файл
кестесін пайдаланамыз. Келген есімдіктің атрибуттарын тауып аламыз да 8-суретте
келтірілгендей, сол бойынша сәйкес келетін жалғауды табамыз:
Сурет 8. Жіктік жалғауы және оның атрибуттары
194
«я» есімдігінің атрибуттары {1 1 1} екендігін анықтағасын енді кестесіне барып {1 1 1}
іздейміз:
Сурет 9. Қазақ тіліндегі бірнеше сәйкес жіктік жалғаулары табылған жағдай
Ол атрибут алғашқы алты жалғаудың көпмағыналы бейнелеу болып, барлығында бірдей
екендігі 9-суретте көрсетілген. Оларды ажырату мақсатында жоғарыда айтылып кеткен
сингорманизм заңының ережелеріне сүйеніп қосымша дауысты дауыссыз атрибуттары
(бағаналары) қосылды. Сол бойынша қажеттісі таңдалып алынады, біздің жағдайда ол «пін»,
себебі «студент» сөзі қатаң дауыссызға аяқталып тұр. Яғни алатын аудармамыз «я студент»-
«мен студентпін»
Тәуелдік жалғау, әдетте, бір заттың басқа бір затқа тәуелді екенін білдіретін қосымша.
Негізінде зат есімге тән қосымша бола тұрса да, зат есім қызметін атқаратын, демек,
субстантивтенетін (заттанатын) сөздердің барлығына да жалғана береді. Бұл қосымшалар
жалғанған сөздер, әдетте, өздерінен бұрын ілік септік жалғауда тұрып тіркесетін жіктеу
есімдіктермен тікелей байланысты болады. Сол себептен тәуелдеулі сөздің жақ жалғаулары
да жіктеу есімдіктерінің жақтарына сәйкес келіп отырады. Мысалы: менің қаламым; сенің
қаламың; сіздің қаламыңыз, оның қаламы.Осылайша сәйкес әрі қажетті жалғау таңдалып
алынып, қазақшаға аударылған түбір сөзге жалғанады. Біздің жағдайда «моя парта»- «менің
партам»
Жалпы келгенде машиналық аудармада аффикстер сөз құру және түрлендіру ролін
атқарып сөз арасындағы байланысты орнататын құралдардың бірі болып табылады. Осындай
маңызды морфологиялық процесске көпмағыналы бейнелеу кесте әдісі өте қолайлы болды.
4 Көпмағыналық бейнелеу кестелер арасындағы байланыс
Көпмағыналы бейнелеу кестелердің құрылуы мен қолдануы жоғары тарауларда
көрсетілген. Осы кестелер бойынша алынған мәлімметтерді машиналық аудармада шығыс
тіліне дұрыс генерациялау білуі қажет. Морфологиялық талдау және синтез кезінде сөзге
осындай көпмағыналы бейнелеу кестелер бірнешеу табылуы мүмкін. Себебі орыс тілінің
аффикстері көп емес боландықтан сөздің лексикалық та, грамматикалық та мағынасы
біріктірілген. Ал қазақ тілінің сөздер құрылымында екі немесе одан да көп аффикстер
жалғануы мүмкін. және қазақ аффикстерінің өзіндік жалғану заңдылығы бар. 10-суретте
келтірілген диаграммада қазақ тіліндегі жалғаулардың түрі және бір біріне тіркесуінің
мүмкін болатын барлық жағдайлары келтірілген.
195
Сурет 10. Қазақ тіліндегі жалғаулар классификациясы мен комбинациясы.
Бұл өте қажетті талдаулардың бірі, себебі сөйлемді я тіпті сөзді біз белгілі бір
заңдылықтарға сүйене отырып қана құрай аламыз, мысалы, септік жалғаудан кейін көптік
жалғауды тіркей алмаймыз. Септік жалғаудан кейін тек қана жіктік жалғауы қойылады т.б.
Мысалы: «пришли твои дети» мәтінін қазақ тіліне аударып, сөздердің жалғауларына талдау
жасайық.
Сурет 11. Орыс тілінен қазақ тіліне машиналық аударманың мысалы
Түбір
сөз
Көпті
к
(К)
Тәуел
дік
(Т)
Жіктік
(Ж)
Септік
(С)
Т
Ж
С
Ж С
Ж
Ж
С
Ж
Ж
196
Қорытынды
Біз орыс тілінен қазақ тіліне машиналық аудармадағы морфологиялық талдау және синтез
мәселелерін қарастырдық. Сонымен, көпмағыналық бейнелеу машиналық аудармаға
көпмағыналық мәселелар туғызады, оларды шешу жолдары жоғарыда көрсетілгендей
қосымша атрибуттарды еңгізу, немесе қосымша осы мәселелерді шешетін процедуларды
құруды қажет етеді. Морфологиялық талдау мен синтез мәселелеріне тоқтатылып, сәйкес
орыс және қазақ тілдерінің грамматикалық қасиеттеріне сүйеніп көпмағыналы бейнелеу
кестелер және ережелер жиынтығы құрылған. Екі тілді сәйкестендіріп талдау жасадық.
Алынған нәтижелер машиналық аударманың сапасын көтереді. Қазақ тілдегі жалғаулардың
барлық мүмкін болатын комбинациялар зертелінген. Осы көпмағыналы бейнелеу кестелер
әдісі арқылы грамматикалық заңдылықтарды пайдала отырып, орыс тілінен қазақ тіліне
машиналық аудармадағы морфологиялық талдауы мен синтезі жоғары сападағы нәтижелерді
көрсетті. Аудармашыдағы деректер қорындағы элементерді іздеу жылдамдығын және
таңдау сапасын жоғарлатады. Практикалық нәтижеде алынған зерттеулер Microsoft Visual
Studio10 бағдарламасының С# тілінде 10 000 дана сөзі бар орыс-қазақ аудармашыны жасау
барысында қолданылған.
Әдебиеттер
1.
Баскаков
Н.
А.
Хасенова
А.К.
Исенгалиева
И.А.
Кордабаев
Т.Р
Сопоставительная грамматика русского и казахского языков. Морфология. Изд-во
"Наука",1966.
2.
Введение в теорию многозначных отображений. Составитель Гельман Б.Д., Воронеж,
2003.
3.
Tomasz Kaczynski, Multivalued Maps As a Tool in Modeling and Rigorous Numerics.
Departement de mathematiques,Universite de Sherbrooke, 2008.
4.
Teruko Mitamura, Eric H. Nyberg, Hierarchical lexical structure and interpretive mapping
in machine translation, Proceedings of International Conference COLING- 1992 Nantes, 1254-1258
pp.
5.
Dilek Zeynep Hakkani, G¨okhan T¨ur, Kemal Oflazer, Teruko Mitamura, and Eric H.
Nyberg, An English-to-Turkish Interlingual MT System, Proceedings of International Conference
AMTA-1998, pp. 83-94.
Г.Т. БЕКМАНОВА, А. МАХИМОВ
Евразийский национальный университет им. Л.Н. Гумилева
Институт искусственного интеллекта
ГРАФЕМАТИЧЕСКИЙ И МОРФОЛОГИЧЕСКИЙ АНАЛИЗАТОР
КАЗАХСКОГО ЯЗЫКА
Автоматическая обработка текстов естественного языка является одним из актуальных
направлений развития искусственного интеллекта и информатики в целом, так как
результаты в этом направлении позволит решить проблему создания средств эффективного
речевого взаимодействия человека с компьютером. Исследованием этой проблемы уже более
50 лет занимаются специалисты нескольких научных областей. С развитием современных
естественно-языковых технологий появилась принципиальная возможность понимания
естественно-языкового текста, то есть смысла текста компьютером. Сегодня можно с
уверенностью говорить о том, что в Казахстане развивается компьютерная лингвистика, что
позволяет надеяться на то, что в скором времени будут существовать лингвистические
Достарыңызбен бөлісу: |