М. ЕРГЕШ
Л.Н.Гумилев атындығы Еуразия ұлттық университеті, Астана, Қазақстан
ҚҰЖАТТАРДАҒЫ КІЛТТІК СӨЗДЕРДІ ВЕКТОРЛЫҚ МОДЕЛЬ
АРҚЫЛЫ ІЗДЕУ
Электронды түрдегі мәтіндік ақпараттар көлемі күн өткен сайын еселеніп көбейіп келеді.
Сондықтан қазіргі таңда ақпараттық іздеу есептерін шешетін жүйелер жасау қажетілігі туып
тұр. Қолданушының ақпараттық сұранысын қанағаттандыратындай құжаттар жиынынан
іздеу процесі ақпараттық іздеудің классикалық мәселесі. Кілттік сөздерді анықтап, олардың
маңыздылығын анықтау ақпараттық іздеу үшін қажетті мәселелердің бірі. Кілттік сөздің
салмағы сөз формасының ақпараттылығын анықтайды және ол қолданушының сұранысына
байланысты есепке алынады.
Ақпараттық іздеу әдістерінің белгілі бірнеше тәсілдері бар: бульдік модель, векторлық
модель, ықтималдық модель. Бұл жұмыста құжаттардағы кілттік сөздерді табуға векторлық
моделдің қолданылуын қарастырамыз. Қазақ тілді құжаттардағы кілттік сөздерді табу
арқылы ақпараттық іздеу жүйелерінің қазақ тілді мәтіндерді іздеудің толықтығын және
релевантылығын арттыруға болады.
264
Ақпараттық жүйелердің тиімдігінің басты белгісі 1960-шы жылдары енгізілген толықтық
пен нақтылық. Іздеудің толықтығы берілген релеванттық құжаттырдың релеванттық
құжаттардың жалпы санына қатынасы ретінде анықталған, ал іздеудің нақтылығы берілген
релевантты құжаттардың шығарылған құжаттардың жалпы санына қатынасымен
анықталады.
Векторлық модель – ақпараттық іздеуде құжаттар жиынын векторлық кеңістікте
векторлармен сипаттау.
Векторлық моделде құжаттар реттелмеген термдер жиыны ретінде қарастырылады.
Ақпараттық іздеуде термдер деп мәтіннің сөздері мен элементтері аталады, мысалы: кітап,
ақпарат, 2010.
Құжаттағы термдердің салмағын түрлі тәсілдермен анықтауға болады - берілген мәтін
үшін сөздің «маңыздылығы». Мысалы, термнің жиілігі (tf) деп аталатын құжаттағы термнің
қолданылу санын жай ғана есептеуге болады, яғни құжатта сөз көбірек кездескен сайын
сөздің салмағы да үлкен болады. Сәйкесінше, құжатта терм кездеспесе, сол құжаттағы
салмағы нөлге тең болады.
Өңделіп жатқан жиындағы құжаттарда кездесетін барлық термдерді реттеуге болады. Егер
кейбір құжат үшін ретімен салмағы бойынша барлық термдерді кездеспесе де жазып шығу
керек.
Сол вектор құжаттың векторлық кеңістіктегі көрінісі болады. Вектордың өлшемі
кеңістіктің өлшемі сияқты, барлық жиындағы түрлі термдердің санына тең болады және
барлық құжаттар үшін бірдей болады.
Құжаттың векторлық көрінісі
d
j
= (w
1j
, w
2j
, …, w
nj
)
мұнда d
j
—j-шы құжаттың векторлық көрінісі, w
ij
—i-ші термнің j-ші құжаттағы
салмағы, n —жиындағы құжаттардағы түрлі термдердің жалпы саны.
Құжаттардың осындай векторлық көрінісі арқылы кеңістіктегі нүтелердің арасындағы ара
қашықтықты тауып, құжаттардық ұқсастығын табу мәселесін шешуге болады. Нүктелер жиі
орналасқан сайын, сәйкесінше құжаттар ұқсас болады.
Құжаттағы сөздің маңыздылығын анықтаудың қарапайым тәсілі құжаттағы сөздің қолдану
жиілігін анықтау.
Жиындағы сөздің қолдану жиілігі сол сөз бар құжаттардың жиындағы санын (df) есептеу
арқылы шығаруға болады. df өскен сайын құжаттағы сөздің салмағы төмендей береді. Оны tf
құжаттағы сөздің қолдану жиілігін оның кері шамасы idf-қа көбейту арқылы шығаруға
болады. Сөйтіп құжаттағы сөздің салмағы tf*idf формуласымен есептеледі. idf төмендегі
формула арқылы есептеледі:
idf
tj
= log(N/n
j
)
мұнда, N – жиындағы құжаттар саны, n
j
- t
j
кездескен құжаттар саны.
Сонымен, D = (d
1
,...,d
n
) –жиындағы құжаттар жиыны, T = (t
1
,..,t
M
) – сөздер жиыны. Әрбір
тұрақты i үшін d
i
құжаты төмендегі салмақ векторы арқылы сипатталады:
W
ij
= tf
ji*
idf
ji
= 1…M,
мұнда tf
ji
- dj құжатындағы t
j
сөзінің кездесі жиілігі, idf
ji
– барлық құжаттардағы t сөзінің
кездесу жиілігіне кері шама.
Құжаттағы барлық сөздердің салмағын есептегеннен кейін құжатты вектор ретінде
көрсетеміз, ондағы әрбір компонент құжаттағы бөлек сөздерге сәйкес келеді. Құжаттарды
ондағы сөздердің векторы түрінде көрсету ақпараттық іздеудің векторлық моделінің негізі
болып табылады.
Ақпараттық іздеудің векторлық моделінің артықшылығы реттелген ақпараттық жүйені
жасау үшін қарапайым модель береді. Сонымен қатар, шешіліп жатқан мәселеге және жұмыс
265
жиынына байланысты құжаттағы сөздер салмағын есептеудің тәсілдері өзгере беуі мүмкін.
Мәтіндегі сөздердің бір біріне тәуелді болмайды деп қарастыру векторлық моделдің
кемшілігі болып табылады, себебі мәтіндегі сөздер бір бірімен мағына қатысты байлынысып
тұрады.
Достарыңызбен бөлісу: |