Атты І халықаралық конференция ЕҢбектері



Pdf көрінісі
бет24/39
Дата25.12.2016
өлшемі8,57 Mb.
#403
1   ...   20   21   22   23   24   25   26   27   ...   39

 
Қорытынды 
Қазақ  тілінің  морфологиялық  ережелерінің  онтологиялық  ережелері  құрылды,  білімді 
ұсыну  тілі  ретінде  семантикалық  гиперграф  қолданылды,  соның  нәтижесінде  сөздерді 
түрлендіру мен тудыруды автоматты жүзеге асыруға мүмкіндік беретін формалды ережелер 
жасалды.  40000    бастапқы  түбір  сөзден  тұратын  базаны  әрбір  сөз  табы  үшін  алынған 
формалды  ережелер  арқылы  генерациялау  барысында  3 200 000  жаңа  сөзжасамдар  алуға 
мүмкіндік берді.  
 
Әдебиеттер 
1.
 
Berge C.C. Graphs and Hypergraphs, Elsevier Science Ltd. 1985 
2.
 
Vizing  V.G.().  About  a  coloring  of  intsidentor  in  the  hypergraph.  Diskretn.  Anal.  Issled. 
Oper., Ser. 1, 14:3, 2007. p. 40–45. 
3.
 
Батищев,  Д.И.  Многоуровневая  декомпозиция  гиперграфовых  структур.  /Д.И. 
Батищев,  Н.В.  Старостин,  A.B.  Филимонов.  //Прилож.  К  журналу  «Информационные 
технологии» №5(141) 2008, С.1 - 32. 
4.
 
Ысқақов А. Қазіргі қазақ тілі. – 2-басылымы. Филология факультеттері студенттеріне 
арналған оқулық. – Алматы: Ана тілі, 1991, Б. 135-148. 

207 
 
Б.Ж.ЕРГЕШ, А.С.МУКАНОВА, Б.Ш.РАЗАХОВА 
 
 
Л.Н.Гумилев атындығы Еуразия ұлттық университеті, Астана 
 
 
ҚАЗАҚ ТІЛІНДЕГІ ЖАЙ СӨЙЛЕМДЕРДІҢ ОНТОЛОГИЯЛЫҚ МОДЕЛІ 
 
Қазақ  тілінде  мынадай  сөйлем  мүшелері  бар:  бастауыш,  баяндауыш,  толықтауыш, 
пысықтауыш, анықтауыш.  
Сөйлем құрамында сөйлем мүшелерінің белгілі бір орны бар. Қазақ тіліндегі сөйлемнің 
құрылымындағы  басты  ерекшелік  –  бастауыш  сөйлемнің  басында,  баяндауыш  көбінесе 
соңында қолданылады. Анықтауыш бастауыш пен толықтауыштың алдынан, ал толықтауыш 
көбінесе  баяндауыштың  алдынан;  пысықтауыш  -  өзіне  қатысты  сөздің  алдынан 
қолданылады.  Бұл  -  сөйлемнің  қазақ  тіліне  тән  құрылымдық  үлгісі.  Дегенмен,  сөйлем 
мүшелерінің орын тәртібі өзгеруі де мүмкін. Біз олардың өзгеруіне сәйкес екі, ұш, төрт және 
бес  мүшенің  қатысуымен  жасалатын  топтарға  бөліп  қарастырамыз.  Сөйлем  мүшелері: 
бастауыш, баяндауыш, толықтауыш, анықтауыш және пысықтауышты сәйкесінше  Бс, Бн, Т, 
А, П таңбаларымен таңбалайық. 
1.
 

Бс

 + 

Бн

;  
2.
 

Бс

 + 

Т

 + 

Бн

;  
3.
 

Бс

 + 

П

 + 

Бн

;  
4.
 

Бс

 + 

Т

 + 

П

 + 

Бн

;  
5.
 

Бс

 + 

П

 + 

Т

 + 

Бн

;  
6.
 

Бс

 + 

А

 + 

Т

 + 

Бн

;  
7.
 

Т

 + 

А

 + 

Бс

 + 

Бн

;  
8.
 

Т

 + 

П

 + 

Бс

 + 

Бн

;  
9.
 

Т

 + 

Бс

 + 

П

 + 

Бн

;  
10.
 

П

 + 

Бс

 + 

Т

 + 

Бн

;  
11.
 

А

 + 

Бс

 + 

Т

 + 

Бн

;  
12.
 

А

 + 

Бс

 + 

П

 + 

Бн

;  
13.
 

Бс

 + 

П

 + 

А

 + 

Т

 + 

Бн

;  
14.
 

Бс

 + 

А

 + 

Т

 + 

П

 + 

Бн

;  
15.
 

П

 + 

Бс

 + 

А

 + 

Т

 + 

Бн

;  
16.
 

П

 + 

Т

 + 

А

 + 

Бс

 + 

Бн

;  
17.
 

А

 + 

Бс

 + 

П

 + 

Т

 + 

Бн

;  
18.
 

А

 + 

Бс

 + 

Т

 + 

П

 + 

Бн

;  
19.
 

А

 + 

Т

 + 

Бс

 + 

П

 + 

Бн


Лепті сөйлем мен өлең жолдарындағы сөздердің  орын тәртібінде өзгеріс болуы мүмкін. 
Шындығында  қазақ  тілінде  грамматикалық  қатынастар  сөз  түрлендіруші  формалар  мен 
көмекші сөздер арқылы (оның ішінде әсіресе көмекші етістіктер арқылы) беріледі. 
Қазақ  тіліндегі  жай  сөйлемдердің  синтаксистік  ережелерінің  формалды  грамматика 
көмегімен математикалық моделдері [1] және семантикалық моделдері құрастырылған  [2]. 
Бұл жұмыста жай сөйлемдердің жоғарыда келтірілген құрылымға сәйкес онтологиялық 
модель тұрғызылды.  
Онтологиялық  моделдің  негізгі  мәні    белгілі  бір  білім  облысы  бойынша  мәліметтер 
жиынының  барлығын  қамтитын  және  бөліктік  формализацияны  концептуальді  сызбамен 
көрсетуі.  Концептуальды  сызбада  түсініктер  жиыны  мен  түсініктер  жайлы  мәліметтер 
(қасиет,  қатынас,  шектеу,  аксиомалар  және  түсініктердің  бекітілуі,  бұл  ақпараттардың 
барлығы таңдалынған пәндік облыс бойынша  есептің шешілу процесін сипаттау үшін қажет) 
беріледі. 

208 
 
Онтологияның көптеген модельдері  келесі компоненттерден тұрады:   

 
концепттер(түсінік, класстар),  

 
концепттердің  қасиеттері (атрибуттары, ролдері),   

 
қатынастар концепттер арасында (тәуелсіздік, функциялар),  

 
қосымша шектеулер,олар аксиомалармен анықталады,  

 
қолданылу мысалдары.  
Ұсынылатын 
онтологиялық 
модель 
сөйлем 
мүшелерінің 
семантикалық 
сипаттамаларымен    құрастырылады,  ал  сөйлем  мүшелерінің  семантикалық  сипаттамасы    
сөз  таптарымен  анықталады.  Қазақ  тілінің  грамматикасынан  белгілі  сөйлем  мүшелерінің 
қандай сөз таптары болатындығын қарастырайық [3]. 
Бастауыш болатын сөз таптары: 

 
атау  түрдегі,  тәуелдік  жалғаулы  және  көптік  жалғаулы  зат  есім,  мысалы:  Мына 
кітап  тамаша  жазылыпты.  Айгүлдің  үйі  кеше  қалаға  көшті.  Оқушылар  еңбек 
ардагерлеріне көмектесті;  

 
заттанған  сын  есім  (біріншіден,  заттың  орнына  айтылуы  керек,  екіншіден,  сөйлем 
ішінде басқа сын есім немесе сын есімнен шыққан сөз болуы керек), мысалы:  Молшылық 
біздің адал еңбегімізбен жасалған; 

 
көптік жалғаулы заттанған сын есім, мысалы: Жақсылар елге еңбегімен танылады;  

 
сан  есім  (артынан  айтылған  зат  есім  жоқ  болса),  жинақты  сан  есім  және  оның 
тәуелденген түрі, есепті сан есімнің тәуелді түрі, ретті сан есім, бөлшек сандардың бөлшегі 
мен көрсеткішінің тәуелденген түрі, шақты, шамалы шылаулары бар сан есім, оның көптік 
түрі  де  тәуелдік  жалғау  жалғанған  түрі  де,  мысалы:  Бес  -  екіге  қалдықсыз  бөлінбейді. 
Олардың  екеуі  де  өз  мамандықтарын  жақсы  біледі.  Жарысқа  қатысушылардың  бесіншісі 
бәрінен  жүйрік.  Оқушылардың  екінің  бірі  үздік  оқиды.  Ауыл  үйлерінің  он  шақтысы 
жайлауға көшіп үлгерді; 

 
жіктеу,  сілтеу,  сұрау,  өзіндік  (тәуелді  жалғаулы  өз),  белгісіздік,  болымсыздық 
(тәуелді  жалғаулы  ешбір)  есімдіктері,  мысалы;  Олар  кездесетін  орынға  межелі  уақыттан 
ерте жетті. Ондай жалқауларға сол керек. Шәмшінің әндерін кім ұнатпайды дейсің. Өзі әнді 
тамылжытып ала жөнелді;  

 
зат  есімнің  тіркесінсіз  етістіктен  зат  есімге  айналған  сөздер,  мысалы:  Білетіндер 
емтиханды тез тапсырып шығып жатыр; 

 
де  етістігі  арқылы  объектке  айналған  етістіктер,  мысалы: Кешіктім  деген бір  күнді 
жоғалтқанмен бірдей; 

 
объектке  айналған  немесе  жұрнақ  жалғанып  басқа  сөз  табына  айналған  одағай, 
шылау  және  үстеу  сөздер,  мысалы:  Әйт-шу  дегендер  малдың  басын  тез  қайырды. 
Еріншектің ертеңі бітпес. . 
Баяндауыш болатын сөз таптары: 

 
етістік, мысалы: Жұмысшылар сегіз сағат жұмыс жасады
Толықтауыш болатын сөз таптары: 

 
ілік септігінен басқа септік жалғауларында тұрған зат есім және затқа айналған сын 
есім,  сан  есім,  есімше,  есімдік,  мысалы:  Айжан  жаңа  жылды  үлкен  жетістіктермен  қарсы 
алды.  Мен  кеше  онымен  сөйлесіп  қалдым.  Тәжірибелі  ұстаздардың  еңбегі  жастарға  өнеге 
болады. Төрт екіге қалдықсыз бөлінеді. Маржан өз айтқанынан қайтпады.  
Пысықтауыш болатын сөз таптары:  

 
үстеу, мысалы: Бүгін күн жылынды. Айгүлдер асықпай шығып кетті. 

 
сын  есім,  мысалы:  Айман  жылы  сөйлеп,  оқушылардың  тілін  тапты.  Бұл  дұрыс 
айтылған екен. 

 
көсемше, мысалы: Ақын өз өлеңін мәнерлеп оқыды. 

 
барыс, жатыс, шығыс және көмектес септіктерінде тұрған сөздер, мысалы: Балалар 
мектепке  жиналды.  Қалада  зәулім  ғимараттар  көп.  Автобус  ауылдан  ұзап  кетті.  Сені 
дауысыңнан таныдым.  

209 
 

 
шейін,  дейін  бола,  қарай,  таман  шылаулары  тіркескен  барыс  септіктегі  сөздер, 
мысалы:  Кешке  таман  ауыл  қарттарына  концерт  ұйымдастырылды.  Түнге  қарай  күн 
суытты.  

 
кейін,  ары,  соң,  бұрын  шылаулары  тіркескен  кейбір  шығыс  септіктегі  сөздер, 
мысалы: Программаны жазбастан бұрын математикалық модель құру қажет. Біз бір айдан 
соң мектеппен қоштасамыз. 

 
бірге, қабат, қатар, шылаулары тіркескен кейбір көмектес септіктегі сөздер, мысалы: 
Айгүл өзімен бірге құрбысын ертіп келді. Ауыл тұрмысы қаламен қатар өсіп келеді. 

 
арқылы,  арқасында,  үшін,  сайын  шылаулары  тіркескен  сөздер,  мысалы:  Диқан 
еңбегінің жемісін күн сайын бақылады.  
Анықтауыш болатын сөз таптары: 

 
сын есімнің атау түрі, мысалы: Арман қызыл түсті жақсы көреді; 

 
сан  есімнің  атау,  туынды  түрі,  мысалы:  Егістікте  он  комбайын  жүр.  Он  екінің 
бөлгіштері: бір, екі, үш, төрт, алты және өзі; 

 
зат есім (қатар тұрған екі зат есімнің бұрын айтылғаны) , мысалы: Атай қыш құмыра 
жасағанды ұнатады; 

 
сілтеу,  өзіндік,  жалпылау,  белгісіздік  есімдіктердің  атау  түрі,  мысалы:  Мына  сурет 
түрлі  түсті  бояумен  салыныпты.  Мынадай  табиғатты  өз  көзіңмен  көргенге  не  жетсін! 
Барлық халық бейбітшілікті қалайды. Жолаушылардың бірнеше күні бар; 

 
есімше мен етістік есімдер, мысалы: Алынған сыйлықтар сәбилерге тапсырылды; 

 
еліктеуіш сөздер, мысалы: Гуу-гу әңгімемен ауылға да жеттік; 

 
ілік  септігіндегі  барлық  сөз  таптары,  мысалы:  Майраның  апасы  мектепке  келді. 
Мұны айтқан кісінің атын білесің бе? Үлкеннің айтқанын тыңдау қажет. 
 
Қазақ  тілінің  жай  сөйлемінің  онтологиялық  моделінің  фрагменті  1-суретте 
көрсетілген,  ал  1-кестеде  онтолгиялық  моделді  құруда  қолданылған  атаулар  мен  белгілер 
көрсетілді. 
 
 
Сурет 1 – Қазақ тілінің жай сөйлемінің онтологиялық моделінің фрагменті 
 
Кесте 1 – Онтологиялық моделді құруда енгізілген атаулар 
Қысқаша белгіленуі 
Атауы 
SS(Simple Sentence) 
Жай сөйлем 

Құрылымы 
Q

Бірінші индексті құрылым 
 

210 
 
S (Subject) 
Бастауыш 
A (Addition) 
Толықтауыш 
D (Determination) 
Анықтауыш 
C (Condition) 
Пысықтауыш 
P (Predicate) 
Баяндауыш 
N (Noun) 
Зат есім 
Adj (Adjective) 
Сын есім 
Num (Numeral) 
Сан есім 
Adv (Adverb) 
Үстеу 
Pron (Pronoun) 
Есімдік 
V (Verb) 
Етістік 
Құрастырылған  онтологиялық  моделдерді  синтаксистік  талдауға  қолдануға  болады. 
Синтаксистік талдаудың басты мақсаты – сөйлемнің құрылымын талдау. Құрылымды тілдің 
контексті бос грамматикасын талдауға сәйкес ағаш ретінде қабылдауға болады. Синтаксистік 
талдау  нәтижесі  сөздердің  симантикалық  базасына  сілтеу  жасайтын  синтаксистік 
шығарылым бұтағы болып табылады. Синтаксистік талдау барысында сонымен бірге сөйлем 
құрылымымен байланысты қателер де табылады. 
 
Әдебиеттер 
1. Уталина Б. Ш.,А.Ә. Шәріпбаев. Контексті бос грамматика арқылы қазақ тілі сөйлемдер 
жиынының  анықталуы.  //Қазақстан  Республикасының  Ұлттық  Ғылым  Академиясының 
Баяндамалары. - Алматы, 2005. -№5. - Б 123-128.  
2.  Б.Ш.  Разахова,  Ф.М.  Туледиярова.  Семантика  желі  көмегімен  қазақ  тілінің  жай 
сөйлемдерін  формалдау  //  Вестник.  Астана:  Евразийский  национальный  университет  им. 
Л.Н.Гумилева, 2012. – Специальный выпуск.– С.403-409. 
3.  Балақаев  М.  Б.  Қазіргі  қазақ  тілі:  Сөз  тіркесі  мен  жай  сөйлем  синтаксисі.  –  Астана: 
Л.Н.Гумилев атындағы ЕҰУ, 2006. -237б. 
 
 
Г.К. ЕЛИБАЕВА, Б.З. АНДАСОВА 
 
 
Л.Н. Гумилев атындағы Еуразия ұлттық университеті, Астана, Қазақстан 
 
 
МӘТІНДІК ҚҰЖАТТАРДЫ КЛАССИФИКАЦИЯЛАУДА ОНТОЛОГИЯНЫ 
ҚОЛДАНУ 
 
Бүгінгі  таңда  әр  түрлі  саладағы  электронды  құжаттар  санының  қарқынды  өсуі  және 
олардың  Интернет  желісінде  қолжетімді  болуы  ақпараттың  басым  бөлігінің  компьютерде 
электронды мәтіндік құжаттар түрінде сақталуына әкеп соғады. Көптеген ұйымдарда қажетті 
білімдердің  едәуір  бөлігі  құжаттық  деректер  қорында  болады.  Осындай  жағдай  мәтінді 
талдау  (Text  Mining)  саласына,  яғни  мәтіндік  құжаттардан  білімдерді  автоматты  түрде  алу 
мен  өңдеу  әдістеріне  жоғары  қызығушылық  танытып  отыр.  Табиғи  тіл  мәтіндерінің 
құрылымымен автоматты түрде білімдерді алу қиын. Мұндай білімдер сараптамашы арқылы 
жеңіл алынады, бірақ электронды құжаттар санының аса көп болатынын ескерсек, олардың 
адам  арқылы  тиімді  өңделуі  жұмсалатын  уақыт  пен  ресурстар  тұрғысынан  шығынды    көп 
қажет етеді.  
Білімдерді алудың түпкі мақсаты – жобалық шешім қабылдау барысындағы сарапшының 
немесе  автоматтандырылған  жүйенің  ақпараттық  қолдауы  болып  табылады.  Мамандармен 
құрастырылған  құжаттарда  әр  түрлі  мәселелерді  шешуге  арналған  әдістер,  параметрлерді 

211 
 
таңдауға арналған ұсыныстар және ұйым қызметінің түрлі саласында пайдалы болатын т.б. 
білімдер сипатталуы мүмкін. Осылайша, білімдерді алу жүйесінің негізгі қызметі  құжаттар 
қорындағы  пайдалы  мәліметтерді  ақпараттық  іздестіру  болып  табылады.  Алайда,  осы 
есеппен  қатар  автоматты  классификациялаудың,  кластерлеудің  және  құжаттарды 
аннотациялаудың аралық есептері де шешілуі тиіс. Осы  уақытқа дейін  осындай табиғи тіл 
мәтіндерінің  есептерін  шешудің  көптеген  жаңа  әдістері  жасалынды,  сонымен  қатар 
қолданыстағы бар әдістердің тиімділігі де жоғарылап жатыр. 
Көптеген  ұйымдардың  білімдерді  басқару  (Knowledge  Management)  жүйелерінде  осы 
ұйымдардың 
мамандандырылуына 
сәйкес 
пәндік 
саланы 
сипаттайтын 
пәндік 
онтологияларды  сарапшылар  құрастырады.  Онтологияны  қолданып  сипатталатын  білімдер 
моделі  концепттер  (түйінді  ұғымдар)  жиынтығы  мен  олардың  арасындағы  байланысты 
көрсетеді.  Мәтіндік  талдау  есептерінде  онтологияны  қолдану  мәтіндік  құжаттардан 
білімдерді алу мен өңдеу есептерін шешудің тиімділігін жоғарылатады.  
Онтология  –  интеллектуальды  жүйелерде  білімдерді  ұсынудың  бір  түрі.  Онтология  деп 
қарастырылатын  пәндік  саланың  ұғымдар  жүйесін,  олардың  арасындағы  қатынастар  мен 
амалдарды  түсінеміз,  басқаша  айтқанда,  онтология  –  пәндік  сала  мазмұнының  анықталуы 
(спецификациясы).  Мысалы,  «Интеллектуальды  жүйелер»  онтологиясы  мынадай  түрде 
болуы  мүмкін:    Интеллектуальды  жүйелер  =  {интеллект;  нейрон;  нейрондық  желі;  кері 
байланыс; логика; білім; ...}, сонымен қатар концепттер арасындағы байланыстардан тұрады, 
«Кері байланыс – нейрондық желінің қасиеті». 
Онтологияны рольдік кластерлеуде қолдану. Онтология концепттерін «нысан», «құрал», 
«қасиет»  және  «іс-әрекет»  кластары  (рольдері)  бойынша  рольдік  кластерлеуде  осы 
концепттерді  (түйіндік  ұғымдарды)  әр  түрлі  мағыналық  категорияларға  орналастыру 
қарастырылады.  Мұндай  категория  концепттері  «қарапайым»  деп  аталады.  Рольдердің 
мүмкін  болатын  комбинацияларын  «күрделі»  концепттерді  құруда  қолдану  болады. 
Айталық, «компьютер жылдамдығын талдау әдісі» сияқты сөз тіркесін жоғарыда келтірілген 
рольдерге  тән  4  қарапайым  концепттен  тұратын  күрделі  концепт  ретінде  қарастыруға 
болады.  Бұл  мысалда  «әдіс»  –  құрал,  «талдау»  –  іс-әрекет,  «жылдамдық»  –  қасиет, 
«компьютер» –  нысан ретінде болып тұр[1]. 
Құжаттар  бойынша  ақпараттық  іздестіру  есептерінде  осыған  ұқсас  әдістерді  қолдану 
біршама  дәрежеде  сұранысты  құрайтын  ұғымдар  семантикасын  есепке  алуға  мүмкіндік 
береді  және  іздеу  дәлдігін  жоғарылатады.  «Әдісті  талдау»  деген  сұратуда  іздестіру  жүйесі 
«әдіс»-ті  –  нысан  ретінде,  және  «талдау»-ды  –  іс-әрекет  ретінде  түсінеді.  Бұл  ретте  қажет 
емес  құжаттар  қарастырылмайды.  Рольдік  кластерлеуді  қолдану  іздестіру  толықтығын 
жоғарылатуға қабілетті. 
Онтологияны  классификациялау  мен  кластерлеу  есептерінде  қолдану.  Құжаттарды 
классификациялау  мен  кластерлеу  есептерінде  онтологияны  қолдану  табысты  нәтижелерге 
жеткізіп  отыр.  Келтірілген  жағдайлардың  барлығында  онтологияны  қолдану  пәндік  саланы 
айқындайтын  маңызды  концепттер  жинағын  ұсынады.  Олардың  қолданылуы  пәндік  салаға 
жатпайтын ұғымдарды талдауға кететін машиналық уақытты жоғалтпауға мүмкіндік береді, 
ал классификациялауда – классификатордың аса шығындық оқытуларын жүргізбейді, себебі 
классификатор  құрастырылған  онтологиямен  беріледі.  Аталған  есептерді  шешу  сапасы 
құрастырылған онтологияның сапасы мен толықтығына тікелей байланысты болады. 
Құжаттық  деректер  қорын  пайдаланатын  мамандарға  жұмыс  барысында  құжаттардың 
барлық  жиынтығы  емес,  тек  оны  қызықтыратын  пәндік  салаға  сәйкес  құжаттар  ғана  қажет 
болуы  мүмкін.  Мұндайда,  деректер  қорындағы  құжаттарды  категориялар  бойынша 
классификациялау  есебі  өзекті  болып  табылады.  Мысал  келтірсек,  құжаттарды 
классификациялау  спамдарды  фильтрлеу  есептерінде,  хаттарды  тақырыптар  бойынша 
таратуда, электронды сауда жүйелерінде және де басқа көптеген интеллектуальды жүйелерде 
ерекше  орын  алады.  Сонымен  қатар,  ақпараттық  іздестіру  есептерінде  құжатты  белгілі  бір 
класқа  алдын-ала  топтастыру,  сұраныс  тақырыбына  жатпайтын  құжаттарды  алып  тастауға 
мүмкіндік береді, әрі уақыт пен есептеу қорларын үнемдейді. 

212 
 
Құжаттарды  тақырыптар  бойынша  қолмен  орналастыру  классификациялаудың  алғашқы 
әдісі  болып  табылады.  Бірақ,  бүгінгі  таңда  өңдеуге  болатын  құжаттардың  саны  өте  көп,  ал 
бұл сарапшылар жұмысы барысында, пайдамен салыстыруға келмейтін құралдар мен уақыт 
шығындарына  әкеп  соғады.  Сондықтан,  1960  жылдардан  бастап  мәтіндік  құжаттарды 
автоматты түрде классификациялау мәселелері үлкен қызығушылыққа ие болып келеді. Бұл 
саладағы  сарапшы  жұмысын  автоматтандыруға  арналған  бастапқы  тәсілдер,  мәтінді  өңдеу 
жүйелеріне  «егер  –  онда»  түріндегі  ережелерді  жазудан  тұрды,  яғни  сарапшы  берген  шарт 
орындалған  жағдайда  құжат  нақты  тақырыпқа  бөлініп  отырды.  Классификациялау  шарты 
мынадай  түрде  болды:  Егер  (ДНФ)  →  Онда  (категория),  мұндағы,  ДНФ  –  дизъюнктивті 
нормальды  формада  өрнектелген  шарт,  ал  категория  –  бұл  ДНФ  ақиқат  болғанда  құжатты 
орналастыратын тақырыптар. Бұл әдістің қарапайым және тиімді екендігі көрініп тұр, бірақ 
ережелерді жазу және олардың өзектілігін негіздеу  үшін сарапшы жұмысы талап етіледі. 
Өткен  ғасырдың  90-жылдарының  басында  мұндай  ережелер  машиналық  оқыту 
әдістерімен  ығыстырылды.  Бұл  әдістердің  артықшылығы,  көрініп  тұрғандай,  жүйелер 
сарапшының қатысуын талап етпейді және классификациялау ережесін жазуға мұқтаж емес. 
Ережелерді  оқытатын  таңдамалар  негізіндегі  жүйелер  құрастырады.  Қазіргі  кезде, 
классификациялау  есептерін  шешуде  «қарапайым»  байес  классифкаторы,    Роккио  әдісі,  «k 
жақын  көршілестер»  әдісі,  тіректік  вектор  әдісі  және  осы  әдістердің  түрлі  нұсқалары 
(модификациялары)  аса  танымал  болып  отыр.  Ықтималды  байес  классификаторынан  басқа 
әдістердің барлығы құжаттың векторлық бейнеленуін қолданады, оның мазмұны құжат ішіне 
кіретін  терминдердің  векторы  түрінде  ұсынылады.  Классификатор  –  бұл  маңызды  құжат, 
оның векторы оқыту кезеңінде құрылады және термин салмақтарының мәнін  орташа мәнге 
келтіруден  тұрады.  Жоғарыда  келтірілген  әдістердің  барлығы  ортақ  қасиеттерге  ие,  тек 
вектор-классификаторды  оқыту  және  құрастыру  әдісімен  ерекшеленеді.  Екі  вектор 
арасындағы  бұрышты  олардың  ұқсас  дәрежелері  ретінде  есептеу  классификацияның  өзі 
болып табылады: егер құжат векторы классификатор векторына жақындау болса, онда құжат 
сол берілген категорияға жатқызылады. 
Егер  классификациялау  үшін  пәндік  саланың  онтологиясы  қолданылатын  болса,  онда 
құжат  векторын  онтология  векторының  өзімен  салыстыруға  болады.  Мұнда  машиналық 
оқытудың  классикалық  әдістерінен  екі  маңызды  айырмашылық  байқалады.  Бірінші 
айырмашылық:  онтологияны  қолдану  классификаторды  оқыту  кезеңінен  бас  тартуға 
мүмкіндік  береді.  Пәндік  саланы  онтология  түрінде  сипаттаудың  өзі  классификатор  болып 
табылады, сондықтан оқытатын таңдамалардан орташа мәнге ие («орташаланған») құжатты 
құрастыру  үшін  уақыт  пен  есептеу  қорлары  жұмсалмайды.  Екінші  айырмашылық: 
қарастырылатын  онтологияға  кірген  терминдер  ғана  құжат  векторына  кірістіріледі.  Бұл 
дегеніміз,  онтология  концепттерінің  жинағына  кірмейтін  ұғымдар,  терминдердің 
салмақтарын  есептеу  процесінен  алынып  тасталады.  Сонымен  қатар,  онтология  түріндегі 
классификатор  «орташаланған»  құжат  түріндегі  классификатордан  ерекшеленеді.  Екі 
жағдайда да классификатор пәндік салаға сәйкес «эталонды» құжат моделі болып табылады. 
Егер  ол  «орташаланған»  құжат  болып  табылса,  онда  оның  құрамына  құжаттарда 
қолданылған,  бірақ  сипаттайтын  бөлімге  қатысы  жоқ  терминдер  кіруі  мүмкін.  Онтология 
жағдайында,  керісінше,  ешқандай  артық  ұғымдарсыз,  классификатор  пәндік  саланың 
сипаттамасы  болып  табылады.  Жалпы  айтқанда,  бұл  классификатор  –  түрлі  жүйелер  мен 
түрлі есептер құрамында қолдану тұрғысынан қарастырғанда анағұрлым әмбебап. 
Құжаттың  класқа  (онтологияға)  сәйкес  келу  дәрежесі  құжатта  табылған,  берілген 
онтологиядағы барлық терминдер салмақтарының қосындысы ретінде есептеледі [2]: 



C
t
td
dC
w
R

мұндағы, 
dC
  – 
d
  құжатының 
C
кластерге  сәйкестік  дәрежесі, 
td
  – 
d
  құжатындағы   
терминінің салмағы. 

213 
 
Онтологиядағы концепттердің рольдер бойынша бөлінгенін ескере отырып, рольдер үшін 
әр  түрлі  салмақтар  енгізу  қажет,  сонымен  бірге  күрделі  концепттерді  бөлек  өңдеу  керек. 
Өлшеудің келесі әдісі біршама жақсы: 










,
*
1
,
1
.
0
,
tf
k
tf
tf
w
td
 
егер концепт қарапайым және оның ролі «нысан», 
егер концепт қарапайым,                                                (1) 
егер концепт күрделі, 
мұндағы, 
tf
  –  концепттің  құжатқа  ену  саны, 
k
  –  концепттің  күрделілігін  ескеретін 
коэффициент. 
Пәндік  сала  «нысан»  типіндегі  концептпен  анағұрлым  толық  сипатталады  деген  болжам 
бар, ал қалған типтегі концепттер әр түрлі пәндік салаға қатысты инвариантты болуы мүмкін. 
Бұл  тұжырым  классификаторды  тексеру  барысында  экспериментальды  түрде  расталған  – 
егер құжатта кездескен барлық қарапайым концепттерге олардың мәтінге ену санына сәйкес 
келетін  тең  салмақтары  меншіктелсе,  онда  құжат  бірден  тең  ықтималдылықпен  барлық 
кластарға  жатқызылатын  болады.  Бұдан  шығатын  қорытынды,  нысан  –  ұғымын  анағұрлым 
маңызды  ету  керек,  ал  қалғандарына  салмақтарды  басқа  сызбанұсқа  бойынша  меншіктеген 
дұрыс.  
(1)-ші  формуладан  көрініп  тұрғандай  өлшеудің  ұсынылған  сызбанұсқасы  бұл  пікірді 
ескереді.  Сонымен  қатар,  (1)-формулада  күрделі  терминдердің  салмақтарын  жай 
терминдердің санына байланысты жоғарылату ескерілген. 
Қорытындылай  келсек,  онтологияны  қолданатын  классификаторлар  тиімді  болып 
табылады.  Онтологияны  қолдану  арқылы  дұрыс  классификацияланған  құжаттар  пайызы 
едәуір  жоғары  болып  отыр.  Мұндай  жағдайда  классификациялау  сапасы  құрылған 
онтологияға  тікелей  қатысты  болады.  Онтологиялар  білімдерді  басқарудың  басқа  да 
есептерінде  қолданылуы  мүмкін,  оның  тиімділігі  оларды  құру  мен  қолдау  шығындары 
тұрғысынан  дәлелденіп  отыр.  Құжатты  тақырыпқа  жатқызу  ондағы  нақты  терминдердің 
болуымен ғана емес, сонымен қатар, құжат пен онтологияның жақындық  шамасын есептеу 
негізінде  жүргізіледі.  Сондықтан  да,  қарастырылып  отырған  тәсіл  құжаттарды 
классификациялауда  бұрыннан  бар  әдістердің  тиімділігі  мен  жаңадан  шыққан    әдістердің 
әмбепаптығын өзіне біріктіреді. 
 

Достарыңызбен бөлісу:
1   ...   20   21   22   23   24   25   26   27   ...   39




©emirsaba.org 2024
әкімшілігінің қараңыз

    Басты бет