Атты І халықаралық конференция ЕҢбектері


Онтологияны  классификациялау  мен  кластерлеу  есептерінде  қолдану



Pdf көрінісі
бет216/326
Дата07.01.2022
өлшемі8,57 Mb.
#19269
1   ...   212   213   214   215   216   217   218   219   ...   326
Онтологияны  классификациялау  мен  кластерлеу  есептерінде  қолдану.  Құжаттарды 
классификациялау  мен  кластерлеу  есептерінде  онтологияны  қолдану  табысты  нәтижелерге 
жеткізіп  отыр.  Келтірілген  жағдайлардың  барлығында  онтологияны  қолдану  пәндік  саланы 
айқындайтын  маңызды  концепттер  жинағын  ұсынады.  Олардың  қолданылуы  пәндік  салаға 
жатпайтын ұғымдарды талдауға кететін машиналық уақытты жоғалтпауға мүмкіндік береді, 
ал классификациялауда – классификатордың аса шығындық оқытуларын жүргізбейді, себебі 
классификатор  құрастырылған  онтологиямен  беріледі.  Аталған  есептерді  шешу  сапасы 
құрастырылған онтологияның сапасы мен толықтығына тікелей байланысты болады. 
Құжаттық  деректер  қорын  пайдаланатын  мамандарға  жұмыс  барысында  құжаттардың 
барлық  жиынтығы  емес,  тек  оны  қызықтыратын  пәндік  салаға  сәйкес  құжаттар  ғана  қажет 
болуы  мүмкін.  Мұндайда,  деректер  қорындағы  құжаттарды  категориялар  бойынша 
классификациялау  есебі  өзекті  болып  табылады.  Мысал  келтірсек,  құжаттарды 
классификациялау  спамдарды  фильтрлеу  есептерінде,  хаттарды  тақырыптар  бойынша 
таратуда, электронды сауда жүйелерінде және де басқа көптеген интеллектуальды жүйелерде 
ерекше  орын  алады.  Сонымен  қатар,  ақпараттық  іздестіру  есептерінде  құжатты  белгілі  бір 
класқа  алдын-ала  топтастыру,  сұраныс  тақырыбына  жатпайтын  құжаттарды  алып  тастауға 
мүмкіндік береді, әрі уақыт пен есептеу қорларын үнемдейді. 


212 
 
Құжаттарды  тақырыптар  бойынша  қолмен  орналастыру  классификациялаудың  алғашқы 
әдісі  болып  табылады.  Бірақ,  бүгінгі  таңда  өңдеуге  болатын  құжаттардың  саны  өте  көп,  ал 
бұл сарапшылар жұмысы барысында, пайдамен салыстыруға келмейтін құралдар мен уақыт 
шығындарына  әкеп  соғады.  Сондықтан,  1960  жылдардан  бастап  мәтіндік  құжаттарды 
автоматты түрде классификациялау мәселелері үлкен қызығушылыққа ие болып келеді. Бұл 
саладағы  сарапшы  жұмысын  автоматтандыруға  арналған  бастапқы  тәсілдер,  мәтінді  өңдеу 
жүйелеріне  «егер  –  онда»  түріндегі  ережелерді  жазудан  тұрды,  яғни  сарапшы  берген  шарт 
орындалған  жағдайда  құжат  нақты  тақырыпқа  бөлініп  отырды.  Классификациялау  шарты 
мынадай  түрде  болды:  Егер  (ДНФ)  →  Онда  (категория),  мұндағы,  ДНФ  –  дизъюнктивті 
нормальды  формада  өрнектелген  шарт,  ал  категория  –  бұл  ДНФ  ақиқат  болғанда  құжатты 
орналастыратын тақырыптар. Бұл әдістің қарапайым және тиімді екендігі көрініп тұр, бірақ 
ережелерді жазу және олардың өзектілігін негіздеу  үшін сарапшы жұмысы талап етіледі. 
Өткен  ғасырдың  90-жылдарының  басында  мұндай  ережелер  машиналық  оқыту 
әдістерімен  ығыстырылды.  Бұл  әдістердің  артықшылығы,  көрініп  тұрғандай,  жүйелер 
сарапшының қатысуын талап етпейді және классификациялау ережесін жазуға мұқтаж емес. 
Ережелерді  оқытатын  таңдамалар  негізіндегі  жүйелер  құрастырады.  Қазіргі  кезде, 
классификациялау  есептерін  шешуде  «қарапайым»  байес  классифкаторы,    Роккио  әдісі,  «k 
жақын  көршілестер»  әдісі,  тіректік  вектор  әдісі  және  осы  әдістердің  түрлі  нұсқалары 
(модификациялары)  аса  танымал  болып  отыр.  Ықтималды  байес  классификаторынан  басқа 
әдістердің барлығы құжаттың векторлық бейнеленуін қолданады, оның мазмұны құжат ішіне 
кіретін  терминдердің  векторы  түрінде  ұсынылады.  Классификатор  –  бұл  маңызды  құжат, 
оның векторы оқыту кезеңінде құрылады және термин салмақтарының мәнін  орташа мәнге 
келтіруден  тұрады.  Жоғарыда  келтірілген  әдістердің  барлығы  ортақ  қасиеттерге  ие,  тек 
вектор-классификаторды  оқыту  және  құрастыру  әдісімен  ерекшеленеді.  Екі  вектор 
арасындағы  бұрышты  олардың  ұқсас  дәрежелері  ретінде  есептеу  классификацияның  өзі 
болып табылады: егер құжат векторы классификатор векторына жақындау болса, онда құжат 
сол берілген категорияға жатқызылады. 
Егер  классификациялау  үшін  пәндік  саланың  онтологиясы  қолданылатын  болса,  онда 
құжат  векторын  онтология  векторының  өзімен  салыстыруға  болады.  Мұнда  машиналық 
оқытудың  классикалық  әдістерінен  екі  маңызды  айырмашылық  байқалады.  Бірінші 
айырмашылық:  онтологияны  қолдану  классификаторды  оқыту  кезеңінен  бас  тартуға 
мүмкіндік  береді.  Пәндік  саланы  онтология  түрінде  сипаттаудың  өзі  классификатор  болып 
табылады, сондықтан оқытатын таңдамалардан орташа мәнге ие («орташаланған») құжатты 
құрастыру  үшін  уақыт  пен  есептеу  қорлары  жұмсалмайды.  Екінші  айырмашылық: 
қарастырылатын  онтологияға  кірген  терминдер  ғана  құжат  векторына  кірістіріледі.  Бұл 
дегеніміз,  онтология  концепттерінің  жинағына  кірмейтін  ұғымдар,  терминдердің 
салмақтарын  есептеу  процесінен  алынып  тасталады.  Сонымен  қатар,  онтология  түріндегі 
классификатор  «орташаланған»  құжат  түріндегі  классификатордан  ерекшеленеді.  Екі 
жағдайда да классификатор пәндік салаға сәйкес «эталонды» құжат моделі болып табылады. 
Егер  ол  «орташаланған»  құжат  болып  табылса,  онда  оның  құрамына  құжаттарда 
қолданылған,  бірақ  сипаттайтын  бөлімге  қатысы  жоқ  терминдер  кіруі  мүмкін.  Онтология 
жағдайында,  керісінше,  ешқандай  артық  ұғымдарсыз,  классификатор  пәндік  саланың 
сипаттамасы  болып  табылады.  Жалпы  айтқанда,  бұл  классификатор  –  түрлі  жүйелер  мен 
түрлі есептер құрамында қолдану тұрғысынан қарастырғанда анағұрлым әмбебап. 
Құжаттың  класқа  (онтологияға)  сәйкес  келу  дәрежесі  құжатта  табылған,  берілген 
онтологиядағы барлық терминдер салмақтарының қосындысы ретінде есептеледі [2]: 



C
t
td
dC
w
R

мұндағы, 
dC
  – 
d
  құжатының 
C
кластерге  сәйкестік  дәрежесі, 
td
  – 
d
  құжатындағы   
терминінің салмағы. 


213 
 
Онтологиядағы концепттердің рольдер бойынша бөлінгенін ескере отырып, рольдер үшін 
әр  түрлі  салмақтар  енгізу  қажет,  сонымен  бірге  күрделі  концепттерді  бөлек  өңдеу  керек. 
Өлшеудің келесі әдісі біршама жақсы: 










,
*
1
,
1
.
0
,
tf
k
tf
tf
w
td
 
егер концепт қарапайым және оның ролі «нысан», 
егер концепт қарапайым,                                                (1) 
егер концепт күрделі, 
мұндағы, 
tf
  –  концепттің  құжатқа  ену  саны, 
k
  –  концепттің  күрделілігін  ескеретін 
коэффициент. 
Пәндік  сала  «нысан»  типіндегі  концептпен  анағұрлым  толық  сипатталады  деген  болжам 
бар, ал қалған типтегі концепттер әр түрлі пәндік салаға қатысты инвариантты болуы мүмкін. 
Бұл  тұжырым  классификаторды  тексеру  барысында  экспериментальды  түрде  расталған  – 
егер құжатта кездескен барлық қарапайым концепттерге олардың мәтінге ену санына сәйкес 
келетін  тең  салмақтары  меншіктелсе,  онда  құжат  бірден  тең  ықтималдылықпен  барлық 
кластарға  жатқызылатын  болады.  Бұдан  шығатын  қорытынды,  нысан  –  ұғымын  анағұрлым 
маңызды  ету  керек,  ал  қалғандарына  салмақтарды  басқа  сызбанұсқа  бойынша  меншіктеген 
дұрыс.  
(1)-ші  формуладан  көрініп  тұрғандай  өлшеудің  ұсынылған  сызбанұсқасы  бұл  пікірді 
ескереді.  Сонымен  қатар,  (1)-формулада  күрделі  терминдердің  салмақтарын  жай 
терминдердің санына байланысты жоғарылату ескерілген. 
Қорытындылай  келсек,  онтологияны  қолданатын  классификаторлар  тиімді  болып 
табылады.  Онтологияны  қолдану  арқылы  дұрыс  классификацияланған  құжаттар  пайызы 
едәуір  жоғары  болып  отыр.  Мұндай  жағдайда  классификациялау  сапасы  құрылған 
онтологияға  тікелей  қатысты  болады.  Онтологиялар  білімдерді  басқарудың  басқа  да 
есептерінде  қолданылуы  мүмкін,  оның  тиімділігі  оларды  құру  мен  қолдау  шығындары 
тұрғысынан  дәлелденіп  отыр.  Құжатты  тақырыпқа  жатқызу  ондағы  нақты  терминдердің 
болуымен ғана емес, сонымен қатар, құжат пен онтологияның жақындық  шамасын есептеу 
негізінде  жүргізіледі.  Сондықтан  да,  қарастырылып  отырған  тәсіл  құжаттарды 
классификациялауда  бұрыннан  бар  әдістердің  тиімділігі  мен  жаңадан  шыққан    әдістердің 
әмбепаптығын өзіне біріктіреді. 
 


Достарыңызбен бөлісу:
1   ...   212   213   214   215   216   217   218   219   ...   326




©emirsaba.org 2024
әкімшілігінің қараңыз

    Басты бет