213
Онтологиядағы концепттердің рольдер бойынша бөлінгенін ескере отырып, рольдер үшін
әр түрлі салмақтар енгізу қажет, сонымен бірге күрделі концепттерді бөлек өңдеу керек.
Өлшеудің келесі әдісі біршама жақсы:
,
*
1
,
1
.
0
,
tf
k
tf
tf
w
td
егер концепт қарапайым және оның ролі «нысан»,
егер концепт қарапайым, (1)
егер концепт күрделі,
мұндағы,
tf
– концепттің құжатқа ену саны,
k
– концепттің күрделілігін ескеретін
коэффициент.
Пәндік сала «нысан» типіндегі концептпен анағұрлым толық сипатталады деген болжам
бар, ал қалған типтегі концепттер әр түрлі пәндік салаға қатысты инвариантты болуы мүмкін.
Бұл тұжырым классификаторды тексеру барысында экспериментальды түрде расталған –
егер құжатта кездескен барлық қарапайым концепттерге олардың мәтінге ену санына сәйкес
келетін тең салмақтары меншіктелсе, онда құжат бірден тең ықтималдылықпен барлық
кластарға жатқызылатын болады. Бұдан шығатын қорытынды, нысан – ұғымын анағұрлым
маңызды ету керек, ал қалғандарына салмақтарды басқа сызбанұсқа бойынша меншіктеген
дұрыс.
(1)-ші формуладан көрініп тұрғандай өлшеудің ұсынылған сызбанұсқасы бұл пікірді
ескереді. Сонымен қатар, (1)-формулада күрделі терминдердің салмақтарын жай
терминдердің санына байланысты жоғарылату ескерілген.
Қорытындылай келсек, онтологияны қолданатын классификаторлар тиімді болып
табылады. Онтологияны қолдану арқылы дұрыс классификацияланған құжаттар пайызы
едәуір жоғары болып отыр. Мұндай жағдайда классификациялау сапасы құрылған
онтологияға тікелей қатысты болады. Онтологиялар білімдерді басқарудың басқа да
есептерінде қолданылуы мүмкін, оның тиімділігі оларды құру мен қолдау шығындары
тұрғысынан дәлелденіп отыр. Құжатты тақырыпқа жатқызу ондағы нақты терминдердің
болуымен ғана емес, сонымен қатар, құжат пен онтологияның жақындық шамасын есептеу
негізінде жүргізіледі. Сондықтан да, қарастырылып отырған тәсіл құжаттарды
классификациялауда бұрыннан бар әдістердің тиімділігі мен жаңадан шыққан әдістердің
әмбепаптығын өзіне біріктіреді.
Достарыңызбен бөлісу: