5
ҚАЗАҚСТАН РЕСПУБЛИКАСЫ БІЛІМ ЖӘНЕ ҒЫЛЫМ МИНИСТРЛІГІ
Л. Н. ГУМИЛЕВ АТЫНДАҒЫ ЕУРАЗИЯ ҰЛТТЫҚ УНИВЕРСИТЕТІ
МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РЕСПУБЛИКИ КАЗАХСТАН
ЕВРАЗИЙСКИЙ НАЦИОНАЛЬНЫЙ УНИВЕРСИТЕТ
ИМ. Л. Н. ГУМИЛЕВА
THE MINISTRY OF EDUCATION AND SCIENCES OF REPUBLIC KAZAKHSTAN
L.N.GUMILYOV EURASIAN NATIONAL UNIVERSITY
«Түркі тілдерін компьютерлік өңдеу»
атты І халықаралық конференция
ЕҢБЕКТЕРІ
ТРУДЫ
І Международной конференции
"Компьютерная обработка тюркских языков"
PROCEEDINGS
Of the I International Conference
on Computer processing of Turkic Languages (TurkLang-2013)
АСТАНА, 2013
7
УДК 81’322
ББК 81.1
Т 90
Т 90 ТҮРКІ ТІЛДЕРІН КОМПЬЮТЕРЛІК ӨҢДЕУ. Бірінші халықаралық
конференция: Еңбектері/ Астана: Л.Н.Гумилев атындағы ЕҰУ баспасы, 2013-
340 бет
КОМПЬЮТЕРНАЯ ОБРАБОТКА ТЮРКСКИХ ЯЗЫКОВ. Первая
международная конференция: Труды. – Астана: ЕНУ им. Л.Н. Гумилева, 2013. –
340 с.
ISBN
978-601-7454-85-2
Жинақта «Түркі тілдерін компьютерлік өңдеу» атты I халықаралық
конференция қатысушыларының баяндамалары енген.
Компьютерлік лингвистика бағыты бойынша оқитын студенттерге,
магистранттарға, докторанттарға және мамандарға арналған.
В сборнике представлены доклады участников I международной
конференции «Компьютерная обработка тюркских языков».
Предназначен для студентов, магистрантов, докторантов и специалистов
специализирующихся в областях компьютерной лингвистика.
УДК 81’322
ББК 81.1
Техникалық редакция: Бурибаева А.К.
Муканова А. С.
Ергеш Б.Ж.
Елибаева Г.З.
©
Л.Н.Гумилев атындағы Еуразия ұлттық университеті, 2013
Евразийский национальный университет им. Л.Н. Гумилева, 2013
ISBN
978-601-7454-85-2
13
МӘТІНДІ МОРФОЛОГИЯЛЫҚ ЖӘНЕ СИНТАКСИСТІК ӨҢДЕУ ЖҮЙЕЛЕРІ
СИСТЕМЫ МОРФОЛОГИЧЕСКОЙ И СИНТАКСИЧЕСКОЙ ОБРАБОТКИ
ТЕКСТОВ
SYSTEMS OF MORPHOLOGICAL AND SYNTACTIC PROCESSING OF TEXTS
1
Галиева А.М., Гатиатуллин А.Р.
НИИ “Прикладная семиотика” академии наук Республики Татарстан
ОБОЗНАЧЕНИЕ МОРФОЛОГИЧЕСКИХ КАТЕГОРИЙ ГЛАГОЛА В
МОДЕЛЯХ ОКОНЧАНИЙ ТЮРКСКИХ СЛОВОФОРМ
171
2
Карабаева С. Ж., Иманалиева А.И.
Кыргызский государственный университет строительства, транспорта и
архитектуры им. Н.Исанова, Бишкек, Кыргызстан
ИСПОЛЬЗОВАНИЕ ГРАММАТИЧЕСКИХ ПРАВИЛ В ПРОЛОГе
177
3
Тукеев У.А., Рахимова Д.Р., Байсылбаева К., Умирбеков Н., Оразов Б.,
Абақан М., Кызырканова С..
Әл Фараби атындағы Қазақ Ұлттық Университеті, Алматы, Қазақстан
КӨПМАҒЫНАЛЫҚ БЕЙНЕЛЕУ КЕСТЕ ТӘСІЛІ НЕГІЗІНДЕ ОРЫС
ТІЛІНЕН
ҚАЗАҚ
ТІЛІНЕ
МАШИНАЛЫҚ
АУДАРМАСЫНЫҢ
МОРФОЛОГИЯЛЫҚ АНАЛИЗБЕН СИНТЕЗІН ҚҰРУ
182
4
Бекманова Г.Т., Махимов А.
Евразийский национальный университет ЕНУ им. Л.Н. Гумилева, НИИ
«Искусственный интеллект»
ГРАФЕМАТИЧЕСКИЙ
И
МОРФОЛОГИЧЕСКИЙ
АНАЛИЗАТОР
КАЗАХСКОГО ЯЗЫКА
191
5
Муканова А.С., Ергеш Б. Ж., Разахова Б.Ш.
Л.Н. Гумилев атындағы Еуразия ұлттық университеті, «Жасанды зерде» ҒЗИ,
Астана
МОРФОЛОГИЯЛЫҚ ЕРЕЖЕЛЕРДІ ОНТОЛОГИЯЛЫҚ МОДЕЛДЕУ
196
6
Ергеш Б.Ж., Муканова А.С., Разахова Б.Ш.
Л.Н. Гумилев атындағы Еуразия ұлттық университеті, «Жасанды зерде» ҒЗИ,
Астана
ҚАЗАҚ ТІЛІНДЕГІ ЖАЙ СӨЙЛЕМДЕРДІҢ ОНТОЛОГИЯЛЫҚ МОДЕЛІ
202
7
Елибаева Г.К., Андасова Б.З
Л.Н. Гумилев атындағы Еуразия ұлттық университеті, Астана
МӘТІНДІК
ҚҰЖАТТАРДЫ
КЛАССИФИКАЦИЯЛАУДА
ОНТОЛОГИЯНЫ ҚОЛДАНУ
205
8
Шынатай Г.
Л.Н. Гумилев атындағы Еуразия ұлттық университеті, «Жасанды зерде» ҒЗИ,
Астана
ҚАЗАҚ ТІЛІНДЕГІ СӨЗ ТІРКЕСТЕРДІ ӨҢДЕУ
208
14
СӨЙЛЕУЛЕРДІ СИНТЕЗДЕУ ЖӘНЕ ТАНУ ЖҮЙЕЛЕРІ
СИСТЕМЫ РАСПОЗНАВАНИЯ И СИНТЕЗА РЕЧИ
SPEECH RECOGNITION AND SYNTHESIS SYSTEMS
1
Ибрагимов Т.И., Салимов Ф.И.
Казанский федеральный университет, Казанский федеральный университет,
Институт прикладной семиотики АН РТ, г.Казань, Россия
ЛИНГВИСТИЧЕСКИЕ ПРОБЛЕМЫ СИНТЕЗА ТАТАРСКОЙ РЕЧИ ПО
ОРФОГРАФИЧЕСКОМУ ТЕКСТУ
213
2
Хусаинов А.Ф.
НИИ “Прикладная семиотика” академии наук Республики Татарстан
СИСТЕМА
АВТОМАТИЧЕСКОГО
РАСПОЗНАВАНИЯ
ФОНЕМ
ТАТАРСКОГО ЯЗЫКА
220
3 Yessenbayev Zh., Karabalayeva M., Shamayeva F.
Nazarbayev University Research and Innovation System,
L.N. Gumilyov Eurasian National Univerity, Аstana,
The Korkyt-Ata Kyzylorda State University, KyzylordaA BASELINE LARGE
VOCABULARY CONTINUOUS SPEECH RECOGNITION FOR KAZAKH
226
4
Бурибаева А.К.
Евразийский национальный университет ЕНУ им. Л.Н. Гумилева, НИИ
«Искусственный интеллект», Астана
РАСПОЗНАВАНИЕ КАЗАХСКИХ СЛОВ НА ОСНОВЕ ДИФОННОЙ
БАЗЫ
230
5
Алтынбек С.А., Муратбеков М.М., Абылаева Б.М., Тургинбаева А.С.
Евразийский национальный университет ЕНУ им. Л.Н. Гумилева, Астана
ЛОГИКА ПОСТРОЕНИЯ АЛГОРИТМОВ НЕЙРОННЫХ СЕТЕЙ ДЛЯ
РАСПОЗНАВАНИЯ РУКОПИСНОГО КАЗАХСКОГО ТЕКСТА
239
6
Шарипбаев А.А., Жетимекова Г.Ж.
Л.Н. Гумилев атындағы Еуразия ұлттық университеті, «Жасанды зерде» ҒЗИ,
Астана
Е.А.Бөкетов атындағы ҚарМУ, Қарағанды
БЕЙНЕНІ ТАНУ ЕСЕПТЕРІНДЕ НАҚТЫ ЕМЕС ЛОГИКАНЫҢ
ҚОЛДАНЫЛУЫ ЖӘНЕ ЕРЕКШЕЛІКТЕРІ
241
МӘТІНДЕРДІ СЕМАНТИКАЛЫҚ ӨҢДЕУ ЖҮЙЕЛЕРІ
СИСТЕМЫ СЕМАНТИЧЕСКОЙ ОБРАБОТКИ ТЕКСТОВ
SYSTEMS OF SEMANTIC TEXT PROCESSING
1
Бекманова Г.Т., Жеткенбай Л.
Л.Н. Гумилев атындағы Еуразия ұлттық университеті, «Жасанды зерде» ҒЗИ,
Астана
ҚАЗАҚ ТІЛІНІҢ КҮРДЕЛІ СӨЗДЕРІН ФОРМАЛДАУ НЕГІЗІНДЕ ЖАСАУ
247
207
Б.Ж.ЕРГЕШ, А.С.МУКАНОВА, Б.Ш.РАЗАХОВА
Л.Н.Гумилев атындығы Еуразия ұлттық университеті, Астана
ҚАЗАҚ ТІЛІНДЕГІ ЖАЙ СӨЙЛЕМДЕРДІҢ ОНТОЛОГИЯЛЫҚ МОДЕЛІ
Қазақ тілінде мынадай сөйлем мүшелері бар: бастауыш, баяндауыш, толықтауыш,
пысықтауыш, анықтауыш.
Сөйлем құрамында сөйлем мүшелерінің белгілі бір орны бар. Қазақ тіліндегі сөйлемнің
құрылымындағы басты ерекшелік – бастауыш сөйлемнің басында, баяндауыш көбінесе
соңында қолданылады. Анықтауыш бастауыш пен толықтауыштың алдынан, ал толықтауыш
көбінесе баяндауыштың алдынан; пысықтауыш - өзіне қатысты сөздің алдынан
қолданылады. Бұл - сөйлемнің қазақ тіліне тән құрылымдық үлгісі. Дегенмен, сөйлем
мүшелерінің орын тәртібі өзгеруі де мүмкін. Біз олардың өзгеруіне сәйкес екі, ұш, төрт және
бес мүшенің қатысуымен жасалатын топтарға бөліп қарастырамыз. Сөйлем мүшелері:
бастауыш, баяндауыш, толықтауыш, анықтауыш және пысықтауышты сәйкесінше Бс, Бн, Т,
А, П таңбаларымен таңбалайық.
1.
Бс
+
Бн
;
2.
Бс
+
Т
+
Бн
;
3.
Бс
+
П
+
Бн
;
4.
Бс
+
Т
+
П
+
Бн
;
5.
Бс
+
П
+
Т
+
Бн
;
6.
Бс
+
А
+
Т
+
Бн
;
7.
Т
+
А
+
Бс
+
Бн
;
8.
Т
+
П
+
Бс
+
Бн
;
9.
Т
+
Бс
+
П
+
Бн
;
10.
П
+
Бс
+
Т
+
Бн
;
11.
А
+
Бс
+
Т
+
Бн
;
12.
А
+
Бс
+
П
+
Бн
;
13.
Бс
+
П
+
А
+
Т
+
Бн
;
14.
Бс
+
А
+
Т
+
П
+
Бн
;
15.
П
+
Бс
+
А
+
Т
+
Бн
;
16.
П
+
Т
+
А
+
Бс
+
Бн
;
17.
А
+
Бс
+
П
+
Т
+
Бн
;
18.
А
+
Бс
+
Т
+
П
+
Бн
;
19.
А
+
Т
+
Бс
+
П
+
Бн
.
Лепті сөйлем мен өлең жолдарындағы сөздердің орын тәртібінде өзгеріс болуы мүмкін.
Шындығында қазақ тілінде грамматикалық қатынастар сөз түрлендіруші формалар мен
көмекші сөздер арқылы (оның ішінде әсіресе көмекші етістіктер арқылы) беріледі.
Қазақ тіліндегі жай сөйлемдердің синтаксистік ережелерінің формалды грамматика
көмегімен математикалық моделдері [1] және семантикалық моделдері құрастырылған [2].
Бұл жұмыста жай сөйлемдердің жоғарыда келтірілген құрылымға сәйкес онтологиялық
модель тұрғызылды.
Онтологиялық моделдің негізгі мәні белгілі бір білім облысы бойынша мәліметтер
жиынының барлығын қамтитын және бөліктік формализацияны концептуальді сызбамен
көрсетуі. Концептуальды сызбада түсініктер жиыны мен түсініктер жайлы мәліметтер
(қасиет, қатынас, шектеу, аксиомалар және түсініктердің бекітілуі, бұл ақпараттардың
барлығы таңдалынған пәндік облыс бойынша есептің шешілу процесін сипаттау үшін қажет)
беріледі.
208
Онтологияның көптеген модельдері келесі компоненттерден тұрады:
концепттер(түсінік, класстар),
концепттердің қасиеттері (атрибуттары, ролдері),
қатынастар концепттер арасында (тәуелсіздік, функциялар),
қосымша шектеулер,олар аксиомалармен анықталады,
қолданылу мысалдары.
Ұсынылатын
онтологиялық
модель
сөйлем
мүшелерінің
семантикалық
сипаттамаларымен құрастырылады, ал сөйлем мүшелерінің семантикалық сипаттамасы
сөз таптарымен анықталады. Қазақ тілінің грамматикасынан белгілі сөйлем мүшелерінің
қандай сөз таптары болатындығын қарастырайық [3].
Бастауыш болатын сөз таптары:
атау түрдегі, тәуелдік жалғаулы және көптік жалғаулы зат есім, мысалы: Мына
кітап тамаша жазылыпты. Айгүлдің үйі кеше қалаға көшті. Оқушылар еңбек
ардагерлеріне көмектесті;
заттанған сын есім (біріншіден, заттың орнына айтылуы керек, екіншіден, сөйлем
ішінде басқа сын есім немесе сын есімнен шыққан сөз болуы керек), мысалы: Молшылық
біздің адал еңбегімізбен жасалған;
көптік жалғаулы заттанған сын есім, мысалы: Жақсылар елге еңбегімен танылады;
сан есім (артынан айтылған зат есім жоқ болса), жинақты сан есім және оның
тәуелденген түрі, есепті сан есімнің тәуелді түрі, ретті сан есім, бөлшек сандардың бөлшегі
мен көрсеткішінің тәуелденген түрі, шақты, шамалы шылаулары бар сан есім, оның көптік
түрі де тәуелдік жалғау жалғанған түрі де, мысалы: Бес - екіге қалдықсыз бөлінбейді.
Олардың екеуі де өз мамандықтарын жақсы біледі. Жарысқа қатысушылардың бесіншісі
бәрінен жүйрік. Оқушылардың екінің бірі үздік оқиды. Ауыл үйлерінің он шақтысы
жайлауға көшіп үлгерді;
жіктеу, сілтеу, сұрау, өзіндік (тәуелді жалғаулы өз), белгісіздік, болымсыздық
(тәуелді жалғаулы ешбір) есімдіктері, мысалы; Олар кездесетін орынға межелі уақыттан
ерте жетті. Ондай жалқауларға сол керек. Шәмшінің әндерін кім ұнатпайды дейсің. Өзі әнді
тамылжытып ала жөнелді;
зат есімнің тіркесінсіз етістіктен зат есімге айналған сөздер, мысалы: Білетіндер
емтиханды тез тапсырып шығып жатыр;
де етістігі арқылы объектке айналған етістіктер, мысалы: Кешіктім деген бір күнді
жоғалтқанмен бірдей;
объектке айналған немесе жұрнақ жалғанып басқа сөз табына айналған одағай,
шылау және үстеу сөздер, мысалы: Әйт-шу дегендер малдың басын тез қайырды.
Еріншектің ертеңі бітпес. .
Баяндауыш болатын сөз таптары:
етістік, мысалы: Жұмысшылар сегіз сағат жұмыс жасады.
Толықтауыш болатын сөз таптары:
ілік септігінен басқа септік жалғауларында тұрған зат есім және затқа айналған сын
есім, сан есім, есімше, есімдік, мысалы: Айжан жаңа жылды үлкен жетістіктермен қарсы
алды. Мен кеше онымен сөйлесіп қалдым. Тәжірибелі ұстаздардың еңбегі жастарға өнеге
болады. Төрт екіге қалдықсыз бөлінеді. Маржан өз айтқанынан қайтпады.
Пысықтауыш болатын сөз таптары:
үстеу, мысалы: Бүгін күн жылынды. Айгүлдер асықпай шығып кетті.
сын есім, мысалы: Айман жылы сөйлеп, оқушылардың тілін тапты. Бұл дұрыс
айтылған екен.
көсемше, мысалы: Ақын өз өлеңін мәнерлеп оқыды.
барыс, жатыс, шығыс және көмектес септіктерінде тұрған сөздер, мысалы: Балалар
мектепке жиналды. Қалада зәулім ғимараттар көп. Автобус ауылдан ұзап кетті. Сені
дауысыңнан таныдым.
209
шейін, дейін бола, қарай, таман шылаулары тіркескен барыс септіктегі сөздер,
мысалы: Кешке таман ауыл қарттарына концерт ұйымдастырылды. Түнге қарай күн
суытты.
кейін, ары, соң, бұрын шылаулары тіркескен кейбір шығыс септіктегі сөздер,
мысалы: Программаны жазбастан бұрын математикалық модель құру қажет. Біз бір айдан
соң мектеппен қоштасамыз.
бірге, қабат, қатар, шылаулары тіркескен кейбір көмектес септіктегі сөздер, мысалы:
Айгүл өзімен бірге құрбысын ертіп келді. Ауыл тұрмысы қаламен қатар өсіп келеді.
арқылы, арқасында, үшін, сайын шылаулары тіркескен сөздер, мысалы: Диқан
еңбегінің жемісін күн сайын бақылады.
Анықтауыш болатын сөз таптары:
сын есімнің атау түрі, мысалы: Арман қызыл түсті жақсы көреді;
сан есімнің атау, туынды түрі, мысалы: Егістікте он комбайын жүр. Он екінің
бөлгіштері: бір, екі, үш, төрт, алты және өзі;
зат есім (қатар тұрған екі зат есімнің бұрын айтылғаны) , мысалы: Атай қыш құмыра
жасағанды ұнатады;
сілтеу, өзіндік, жалпылау, белгісіздік есімдіктердің атау түрі, мысалы: Мына сурет
түрлі түсті бояумен салыныпты. Мынадай табиғатты өз көзіңмен көргенге не жетсін!
Барлық халық бейбітшілікті қалайды. Жолаушылардың бірнеше күні бар;
есімше мен етістік есімдер, мысалы: Алынған сыйлықтар сәбилерге тапсырылды;
еліктеуіш сөздер, мысалы: Гуу-гу әңгімемен ауылға да жеттік;
ілік септігіндегі барлық сөз таптары, мысалы: Майраның апасы мектепке келді.
Мұны айтқан кісінің атын білесің бе? Үлкеннің айтқанын тыңдау қажет.
Қазақ тілінің жай сөйлемінің онтологиялық моделінің фрагменті 1-суретте
көрсетілген, ал 1-кестеде онтолгиялық моделді құруда қолданылған атаулар мен белгілер
көрсетілді.
Сурет 1 – Қазақ тілінің жай сөйлемінің онтологиялық моделінің фрагменті
Кесте 1 – Онтологиялық моделді құруда енгізілген атаулар
Қысқаша белгіленуі
Атауы
SS(Simple Sentence)
Жай сөйлем
Q
Құрылымы
Q
1
Бірінші индексті құрылым
210
S (Subject)
Бастауыш
A (Addition)
Толықтауыш
D (Determination)
Анықтауыш
C (Condition)
Пысықтауыш
P (Predicate)
Баяндауыш
N (Noun)
Зат есім
Adj (Adjective)
Сын есім
Num (Numeral)
Сан есім
Adv (Adverb)
Үстеу
Pron (Pronoun)
Есімдік
V (Verb)
Етістік
Құрастырылған онтологиялық моделдерді синтаксистік талдауға қолдануға болады.
Синтаксистік талдаудың басты мақсаты – сөйлемнің құрылымын талдау. Құрылымды тілдің
контексті бос грамматикасын талдауға сәйкес ағаш ретінде қабылдауға болады. Синтаксистік
талдау нәтижесі сөздердің симантикалық базасына сілтеу жасайтын синтаксистік
шығарылым бұтағы болып табылады. Синтаксистік талдау барысында сонымен бірге сөйлем
құрылымымен байланысты қателер де табылады.
Әдебиеттер
1. Уталина Б. Ш.,А.Ә. Шәріпбаев. Контексті бос грамматика арқылы қазақ тілі сөйлемдер
жиынының анықталуы. //Қазақстан Республикасының Ұлттық Ғылым Академиясының
Баяндамалары. - Алматы, 2005. -№5. - Б 123-128.
2. Б.Ш. Разахова, Ф.М. Туледиярова. Семантика желі көмегімен қазақ тілінің жай
сөйлемдерін формалдау // Вестник. Астана: Евразийский национальный университет им.
Л.Н.Гумилева, 2012. – Специальный выпуск.– С.403-409.
3. Балақаев М. Б. Қазіргі қазақ тілі: Сөз тіркесі мен жай сөйлем синтаксисі. – Астана:
Л.Н.Гумилев атындағы ЕҰУ, 2006. -237б.
Г.К. ЕЛИБАЕВА, Б.З. АНДАСОВА
Л.Н. Гумилев атындағы Еуразия ұлттық университеті, Астана, Қазақстан
МӘТІНДІК ҚҰЖАТТАРДЫ КЛАССИФИКАЦИЯЛАУДА ОНТОЛОГИЯНЫ
ҚОЛДАНУ
Бүгінгі таңда әр түрлі саладағы электронды құжаттар санының қарқынды өсуі және
олардың Интернет желісінде қолжетімді болуы ақпараттың басым бөлігінің компьютерде
электронды мәтіндік құжаттар түрінде сақталуына әкеп соғады. Көптеген ұйымдарда қажетті
білімдердің едәуір бөлігі құжаттық деректер қорында болады. Осындай жағдай мәтінді
талдау (Text Mining) саласына, яғни мәтіндік құжаттардан білімдерді автоматты түрде алу
мен өңдеу әдістеріне жоғары қызығушылық танытып отыр. Табиғи тіл мәтіндерінің
құрылымымен автоматты түрде білімдерді алу қиын. Мұндай білімдер сараптамашы арқылы
жеңіл алынады, бірақ электронды құжаттар санының аса көп болатынын ескерсек, олардың
адам арқылы тиімді өңделуі жұмсалатын уақыт пен ресурстар тұрғысынан шығынды көп
қажет етеді.
Білімдерді алудың түпкі мақсаты – жобалық шешім қабылдау барысындағы сарапшының
немесе автоматтандырылған жүйенің ақпараттық қолдауы болып табылады. Мамандармен
құрастырылған құжаттарда әр түрлі мәселелерді шешуге арналған әдістер, параметрлерді
Достарыңызбен бөлісу: |