Әдебиеттер
1.
Норенков И.П. Задачи управления знаниями, извлекаемыми из текстовых
документов. // Электронное научно-техническое издание «Наука и образование», 2011, 9.
2.
Bevainyte A., Butenas L. Document classification using weighted ontology// Materials
Physics and Mechanics, 2010, №9
Г.
ШЫНАТАЙ
Л.Н.Гумилев атындағы Еуразия ұлттық университеті, Астана
ҚАЗАҚ ТІЛІНДЕГІ СӨЗ ТІРКЕСТЕРДІ ӨҢДЕУ
Қазақ тіліндегі мәтінді,сөйлемді, сөз тіркестерін математикалық лингвистика әдісімен
зерттеу және сөйлемдерді талдау мен құруды автоматтандыру проблемасы қазіргі кезде
лингвистика және информатика саласында өте өзекті болып табылады.Соның ішінде
сөйлемдерді семантикалық талдау мәселесі компьютерлік лингвистика бағытында
маңызды.Өйткені бұл мәселенің шешімі авторлық құқықты қорғаумен тікелей байланысты,
214
мысалы антиплагиат.Бұл мәселені шешуге арналған әдістер мен программалар бар, алайда
мағынасы бойынша қазақ тіліндегі мәтіндерді салыстыратын жетілдірілген программа мен
оның теориялық негіздемесі жоқ.
Қазіргі таңда Хэмминг және Хопфилд нейрожелілерін қолдану арқылы лингвистика
саласының көптеген өзекті мәселелерін шешуге болады.Семантикалық талдау барысында сөз
тіркестерін өңдеу қарастырылады. Сөз тіркесі сөздердің бір бірімен тіркесуімен жасалады.
Сөздер зат пен құбылысты, сапа мен белгіні немесе іс-әрекетті атайды. Сөз тіркестерінде зат
пен құбылыс, сапа мен белгі немесе іс-әрекеттер жеке сөздердегідей дара күйінде емес, өзара
бір-бірімен байланысты болады. Сөз тіркестерінің синтаксисі сөздердің өзара тіркесу
қабілеттілігі, тіркесу тәсілдері мен сұлбаларын (формаларын) және сөз тіркестерінің
құрамы мен түрлерін морфологиямен тығыз байланыста қарастырады. Онда сөздерді сөз
тіркесі мен сөйлемнің бөлшектері ретінде, ал жалғауларды сөздердің бір бірімен
қиюластырып тұратын морфологиялық-синтаксистік категория ретінде зерттейді.
Сөз тіркестері грамматикалық тәсілдер арқылы байланысқан кем дегенде екі толық
мағыналы сөзден құралады. Құрастырушы сыңарлар бірі бағыныңқы, екіншісі басыңқы мүше
ретінде қызмет атқарады. Сыңарлар бір бірімен өзара сабақтасып, белгілі бір мағыналық
және синтаксистік заңдылықтар негізінде байланысады. Сөз тіркесі атау құралы ретінде
негізгі сөз (басыңқы) арқылы затты, құбылысты, үрдісті (процесті), сапаны белгілейді.
Сөздер жалғаулар арқылы байланысуы мүмкін. Cөздер байланысуының бес түрі бар:
қабысу, матасу, меңгеру, қиысу, жанасу.Стратегияларда ақырлы автоматпен деңгей
бойынша бөлу жүріледі.
Жұмысымызда қазақ тіліндегі сөз тіркестерін өңдеу үшін ақырлы автоматты қолданудың
сипаттамалары анықталады Осы мақсатты жүзеге асыру үшін келесі міндеттер қойылды:
мәтінді сөз, сөйлем, азат жолдарға бөлу;
ішкі құрылымдарын білместен бұл деңгейлерге біробразды қарау;
бұл деңгейлерді бастапқы күйінде қалтырмау керек, себебі мәтіндердің көп мөлшерде
көшірілімі жасалынады;
Деңгейлер индекстермен белгіленген тізім
болып сақталынады.Логикалық түрде мұнда
диапазондар
концепциясы
кірістіріледі
(Range,
[1]
,
[2]
,
[3]
); Диапазондарда бастапқы
және
ақырғы
индекстері
бар:
RangeItem(BeginIndex,
EndIndex),
немесе
бастапқы
индекс
және
жылжу
саны:
Range(BeginIndex, Count). Индекстер мәтіндегі
символдардың позициясымен нақты сәйкес
келеді. Егер толық мәтінді белгілейтін болсақ,
онда
келесі
түрде
болады
RangeItem(1,
Length(Text)).Ал егер бізге мәтін ортасындагы азат жол керек болса RangeItem(312031,
312355) белгіленуі қолданылады. Cөз тіркестерінде қолданылуы мысалы: есімді (1.1),
етістікті (1.2), меңгеру (2.1.1), қабысу(2.1.2), матасу(2.1.3),қиысу (2.1.4),меңгеру (2.2.1),
қабысу(2.2.2), қиысу(2.2.2) .Қабыса байланысқан есімді сөз тіркестері зат есім мен зат
есімнің тіркесі түрінде (3.1.2.1.1,3.1.2.2.1), сын есім мен зат есімнің тіркесі түрінде (3.1.2.1.2,
3.1.2.2.2.1),есімше мен зат есім тіркесі түрінде (3.1.2.1.4, 3.1.2.2.4.1).Тізімдер диапазоны
мәтіннің тура көшірілімі жасалынбаған мәтін бөлімдері болып көрсетіледі.
1
Сөз тіркестері
1.1
Есімді
1.2
Етістікті
2.1.1
Меңгеру
2.1.2
Қабысу
2.1.3
Матасу
215
2.1.4
Қиысу
2.2.1
Меңгеру
2.2.2
Қабысу
2.2.3
Қиысу
2.2.4
Жанасу
3.1.2.1.1
Зат есім
3.1.2.2.1.1 Зат есім
3.1.2.1.2
Сын есім
3.1.2.2.2.1 Зат есім
3.1.2.2.2.3 Сан есім
3.1.2.2.2.4 Есімдік
3.1.2.1.3
Сан есім
3.1.2.2.3.1 Зат есім
3.1.2.2.3.2 Сын есім
3.1.2.2.3.4 Есімдік
3.1.2.1.4
Есімше
3.1.2.2.4.1 Зат есім
3.1.2.2.4.2 Сын есім
3.1.2.2.4.3 Сан есім
3.1.2.2.4.4 Есімдік
3.1.2.1.5
Үстеу
3.1.2.2.5.1 Зат есім
3.1.2.2.5.2 Сын есім
3.1.2.2.5.3 Сан есім
3.1.2.2.5.4 Есімдік
Қиысуда бағыныңқы сөз басыңқы сөздің грамматикалық мағынасына, тұлғасына
бейімделе
тиісті жалғауда айтылып байланысады.
1.
Бағыныңқы сөз – есімді, орын тартібі арқылы, қабысу, сын есім + зат есім.
2.
Басыңқы сөздің –есімді, орын тартібі арқылы, қабысу, сын есім + зат есім+ілік
септік жалғауы.
3.
Грамматикалық мағынасына – есімді, қабысу, сын есім+ зат есім.
4.
Грамматикалық тұлғасына – есімді, қабысу, сын есім+ зат есім.
5.
Мағынасына бейімделе – етістікті, меңгеру, жалғау арқылы, зат есім + барыс септік
жалғауы + етістік.
6.
Тұлғасына бейімделе – етістікті, меңгеру, жалғау арқылы, зат есім + барыс септік
жалғауы + етістік.
7.
Сөздің мағынасына – есімді, жалғау арқылы, матасу, зат есім + ілік септік + зат
есім
8.
Сөздің тұлғасына – есімді, жалғау арқылы, матасу, зат есім + ілік септік + зат есім
9.
Тиісті жалғауда - есімді, қабысу, сын есім + зат есім.
10.
Бейімделе байланысады - етістікті, жанасу, үстеу + етістік.
11.
Қиысуда байланысады – етістікті, жалғау арқылы, меңгеру, зат есім+ етістік.
12.
Сөз байланысады – етістікті, қиысу, зат есім + етістік+ тәуелдік жалғауының III-
жағы, жекеше
есімді ,қабысу
есімді ,қабысу
есімді ,қабысу
есімді ,қабысу
етістікті,меңгеру
есімді,матасу
Есімді,қабысу
етістікті,жанасу
Етістікті,меңгеру
етістікті,жанасу
етістікті,қиысу
216
Жұмыс барысында диапазондардан абстракцияны алға қою мәселесі шығып отыр. Жалпы
мәтіннің бірінші және соңғы жолдарын көрсететін диапазондар тізіміне қарағанда, біз тек
соның негізіндегі мәтінді көре алуымыз керек. Сөздерді анықтау басты мәселе емес.
Сөйлемдерді анықтау кезінде кейбір қиындықтармен кездесеміз. Мысалы сөйлемнің соңын
анықтайтын легальді белгілердің,яғни нүкте, сұрақ, леп белгілер мәселесі.Міне осындай
легальді белгілердің қайталанып,қатар келуі немесе бір сөйлемнің ішінде бірнеше рет
кездесуі сөйлемдер санының өз санынан артық болып кетуіне әкеледі. Бұл мәселені шешудің
бірден бір жол – ақырлы автомат. Ақырлы автоматтың қолданылуының бірегей себебі,келіп
түскен символдар тізімінің құрылымын анықтайды: сөз, тыныс белгілер, функциялар,
құрылымдар, әдісі және өрісі бар толық кластар. Осындай тәртіппен код анализаторлары,
компиляторлар, компьютерлер жұмыс істейді.Қорытындылай келсек, алынған ғылыми
нәтижелердің ғылыми-практикалық құндылығы қазақ тілінің теориясын жетілдіруге және
оның қолданыс аясын кеңейтуге ықпал жасайтындығы. Жұмыс нәтижесі қазақ тілінде
мәтіндік процессорлар, ақпараттық технологиялар мен жүйелер және басқа да программалық
дестелер жасауда өз үлесін қосары сөзсіз.
Достарыңызбен бөлісу: |