«Қоғамды ақпараттандыру» III Халықаралық ғылыми-практикалық конференция
327
ОӘК 004.432.4
Б.Ш. РАЗАХОВА, М. МУСАЙФ, Г. ЖАБАЕВА
Л.Н.Гумилев атындағы Еуразия ұлттық университеті, Астана, Қазақстан
ҚАЗАҚ ТІЛІНДЕГІ СӨЗ ТІРКЕСТЕРІНІҢ ОНТОЛОГИЯСЫ
Ақпараттық технологияның жетістіктерінің табиғи тілдегі мәтіндерді түсіну
мәселелерін шешудегі әсері аз емес. Табиғи тілді түсіну жүйесінің құрылымы
морфологиялық, синтаксистік және семантикалық талдау деңгейлеріне бөлуге болады. Осы
деңгейлерде сөйлемдерді талдау тізбекті түрде жүргізіледі, морфологиялық талдау деңгейі
синтаксистік талдау деңгейіне деректер дайындайды. Морфологиялық және синтаксистік
талдау жұмыстарының нәтижесі семантикалық талдау деңгейінде қолданылады [1].
Бұл есептерді шешу үшін екі түрлі механизм – сөйлемдерді құратын тудыру
(генератор) және сөйлемнің дұрыс құрылғандығын тексеретін тану (анализатор)
механизмдері анықталған. Ең көп тараған генераторлар ретінде грамматикалар, ал
анализаторлар болып автоматтар есептелінеді. Сөз тіркестерін талдау үшін яғни тану үшін
келесі есептерді шешу керек:
1)берілген сөз тіркесінің құраушы бөліктерін анықтау керек.
2) әр құраушы бөліктердің жасалу жолдарын анықтау керек
3) байланысу түрін анықтау (есімді, етістікті, оның ішінде матасу, қабысу, менгеру
және т.б.)
Мәтінді автоматты талдауды сапалы және сенімді жүргізу үшін тіл туралы және
қоршаған орта туралы білімді қолдану қажет. Қоршаған орта туралы білім онтология-
ұғымдар жүйесі көмегімен көрсетілуі мүмкін. Мәтінді автоматты өңдеуде онтологияны
қолдану үшін онтологиялық ұғымдарды тілдік өрнектер жиынымен (сөз және сөз тіркесі)
сәйкестендіреміз.
Онтологияны өңдеудің кейбір негізгі ережесін көрсетіп кетейік.
1) Пәндік облысты моделдеудің дұрыс бір ғана әдісі емес, әрқашанда қолданысқа
қабілетті альтернативтері болады.
2) Онтологияны өңдеу – бұл итеративті үдеріс.
3)Онтология ұғымдары қарастырып отырған пәндік облыстың объектісіне
(физикалық және логикалық) және қатынасына жақын болуы керек. Сөйлемде сіздің пәндік
облысыңызды сипаттайтын зат есім (объектілер) немесе етістіктер (қатынас) болуы мүмкін..
Сөз тіркестерінің онтологиясын тұрғызу барысында сөз тіркестері грамматикалық
тәсілдер арқылы байланысқан кем дегенде екі толық мағыналы сөзден құралатынын
қарастырамыз. Құрастырушы сыңарлар бірі бағыныңқы, екіншісі басыңқы мүше ретінде
қызмет атқарады. Қазақ тілінде сөз тіркестерінің келесі 5 жасалу жолы бар:
1)
Қиысу – сөз бен сөздің жіктік жалғаумен, яғни жақ жағынан үйлесе байланысқан
түрі.Оны баяндауыштың бастауышпен байланысы деп те айтады.
2)
Меңгеру – сөздердің атау мен ілік септік жалғаулар арқылы байланысқан түрі.
Мысалы: қалтаға салды, қалтадан алды т.б.
3)
Матасу – сөз бен сөздің ілік септік жалғауы мен тәуелділік жалғау арқылы
байланысқан түрі. Мысалы: ауылдың малы, оқушының дәптері т.б.
4)
Қабысу – сөздердің ешбір жалғаусыз іргелес тұрып байланысуы. Мысалы: оқыған
адам, он күн, ақ қағаз, алтын сақина т.б.
5)Жанасу – сөздердің ешқандай жалғаусыз орын тәртібі арқылы алшақ тұрып, араға
сөз салып байланысуы. Мысалы: қалықтап ұшу – қалықтап көкте ұшу, бүгін келу – бүгін
үйге келу, енді айтты – енді екеуіне де айтты т.б.
«Қоғамды ақпараттандыру» III Халықаралық ғылыми-практикалық конференция
328
Сөз тіркестері сөздердің өзара тіркесу қабілетіне қарай
есімді және
етістікті болып екі
салаға бөлінеді. Есімді сөз тіркестердің басыңқы бөлімі есімдердің бірі, ал етістікті сөз
тіркестерінің басыңқы бөлімі етістік болады[2]. Сөз тіркесінің онтологиясын 1-суреттен көре
аламыз.
1-сурет. Сөздердің байланысу түрлері
Тілді анықтайтын математикалық жүйе - грамматика. Сондай-ақ, ол тіл тізбектеріне
пайдалы кұрылым беретін құрылғы болып табылады. Хомский грамматикасы деп аталатын
грамматикалардың класына сүйене отырып, қазақ тіліндегі сөз тіркестерінің онтологиясын
құру үшін құрастырылған контексті бос грамматикаға сүйенеміз [3].
Сөз тіркесін құраушы сөздердің септелу категориялары мен тәуелденуіне қарай
семантикалық сипаттамаларын анықтаймыз. Сөздер семантикалық белгілерін бір-бір
предикатпен анықтаймыз. Сөз тіркестері онтологиясында әрбір құраушы сөз объект, ал
олардың бір-бірімен қатынасы предикаттық қатынасты береді. Сөз тіркесін құру мен
талдаудың семантикасын жүзеге асыру үшін оның жеке бөлшектерінің, яғни сөз табының,
жалғаулардың, сөз тіркесінің байланысу түрі мен синтаксистік қатынас ағаштарын жеке
құрып аламыз. Тіркесу қабілетіне қарай байланысу формасының есімді сөз таптарының
семантикалық ағаштары суретте көрсетілгендей етіп құрамыз (cурет 1).
2-сурет. Есімді сөз тіркесінің онтологиясы
Сөз таптарының ағашының ұғымдарын төмендегі кестеден көреміз (кесте 1). Мұнда біз
есімдердің барлық мүмкін түрлерін қарастыра аламыз.
Байланысу формасына қарай
Қабыса
байланысқа
н
Матаса
байланысқан
Меңгеріле
байланысқан
Етістікті
Қабыса
байланысқа
н
Меңгеріле
байланысқан
Сөз тіркесі
Есімді
«Қоғамды ақпараттандыру» III Халықаралық ғылыми-практикалық конференция
329
Кесте 1 – Сөз таптарының ағашының ұғымдары
Ұғымдар
Коды
Деңгейі
Түйін-р
Есімді сөз тіркесі
1234
0
4
Зат есім
1
1
3
Дерексіз зат есім
1a
2
1
Жанды зат есім
1b
2
2
Жансыз зат есім
1c
2
3
Туысқандық терминді жанды зат есім
1d
3
0
Кәсіби терминді білдіретін жанды зат есім
1e
3
0
Жансыз cұйық зат есім
1f
4
0
Жансыз қатты зат есім
1g
4
0
Жеміс–жидек атауын білдіретін зат есім
1h
4
0
Сын есім
2
1
3
Заттың ішкі қасиетін білдіретін сын есім
2a
2
0
Дәмді білдіретін сын есім
2b
2
0
Заттың температурасын білдіретін сын
2c
2
0
Cан есім
3
1
1
Дара сан есім
3a
2
2
Жинақтық сан есім
3b
3
0
Реттік сан есім
3d
3
0
Ecімдік
4
1
2
Жіктеу есімдігі
4b
2
3
Cұрау есімдігі
4a
2
0
Дәл осы онтологияны етістік байланысу формасы үшін де құрамыз. Сөз тіркесінің
басыңқы және бағыныңқы бөліктері жалғаумен немесе жалғаусыз байланысуы мүмкін. Сөз
тіркесін құру мен талдаудың онтологиясын жүзеге асыру үшін оның жеке бөлшектерінің,
яғни сөз табының, жалғаулардың, сөз тіркесінің байланысу түрі мен синтаксистік
қатынастарын жеке құрып аламыз Біз енді жалғаулар онтологиясын қарастырамыз (3-сурет).
3-Cурет. Жалғаулардың онтологиясы
Сөз мағынасын анықтап, олардан дұрыс сөз тіркесін құру үшін міне осындай
онтологиялар құрамыз. Бұл антологиялар қазақ тіліндегі сөз тіркесін құру және талдауды
автоматтандыруды жүзеге асырыуда сөз мағынасының құрылымын анықтау элементтері
болып есептелінеді.
«Қоғамды ақпараттандыру» III Халықаралық ғылыми-практикалық конференция
330
Әдебиеттер
1.
Семантическая нейронная сеть, как формальный язык описания и обработки смысла
текстов на естественном языке /З.В.Дударь, Д.Е.Шуклин// Радиоэлектроника и информатика.
Х.: Изд-во ХТУРЭ, 2000.- №. 3.
2.
Әбуханов F. Казақ тілі. – Алматы: Мектеп, 1982 – 451 б.
3.
Уталина Б.Ш., А.Ә. Шәріпбаев. Контексті бос грамматика арқылы қазақ тілі
сөйлемдер жиынының анықталуы. ҚР ҰҒА Баяндамалары, №5, 2005, б 123-128.