А.Я с а у и у н и в е р с и т е т і н і њ х а б а р ш ы с ы, №6, 2010
А.С.ҚАСЫМБЕКОВ
техника ғылымдарының кандидаты, доцент
А.Ясауи атындағы ХҚТУ
АҚПАРАТТЫҚ-ІЗДЕСТІРУ ЖҮЙЕЛЕРІНДЕГІ БІЛІМ БЕРУ РЕСУРСТАРЫН
ИНДЕКСТЕУ ӘДІСТЕРІ
В статье рассмотрены методы индексирования образовательных ресурсов в ИПС,
использующие для описания содержания документа ключевые слова, а также статистические и
синтаксические закономерности естественно-языковых текстов.
In article methods of indexing of educational resources in the IRS using for the description of the
maintenance of the document keywords, and also statistical and syntactic laws of natural language texts are
considered.
Ақпараттық-іздеcтіру жүйелерін, білім беру ресурстарының индекстеу
үдерістері типтеріне байланысты – толық мәтінді индексті іздеcтіру жүйесі
және абстарктылы іздеcтіру машиналары деп, екі негізгі класқа бөлуге болады
[1].
Толық мәтінді индексті іздеcтіру жүйесі құжаттағы барлық сөздерді,
тіпті сол құжаттың мағынасын білдірмейтін сөздерді де, есепке алады. Сөздің
сол құжат тақырыбына жататындығын не жатпайтындығын анықтау үшін,
бәрінен бұрын, қолданыста бар жүйелердегі сөздердің кездесу жиілігі мен
құжат мәтініндегі орналасу орнына талдау жасалынады.
Индекстердің басқа типтерімен жұмыс істейтін абстарктылы іздеcтіру
машиналары құжаттың тақырыбын анықтау және оның мағынасын дәлме-
дәл сипаттаушы түйінді сөздерді бөліп қарау үшін, күрделі эвристикалық
әдістерді пайдаланады.
Индекстеу үдерісінің қолданыстағы бар алгоритмдері, мысалы – белгілі
бір өрістер бойынша индексті қалыптастыру, тек қана іздеcтіру үдерісін
тездетіп қоймай, сонымен бірге жоғары релеванттылық көрсеткішіне қол
жеткізеді.
Индекстеу әдістерін, жіктеудің негізін қалаушы Стивенс жүйесіне сәйкес,
келесі әдістерге бөліп қарауға болады [2]:
деривантты индекстеу – мәтіннен түйінді сөзді шығарып алуға
негізделген болып, мұндағы құжаттар мен сұраныстардың іздестіру
кескіндері құжаттың толық мәтінінде, рефератта, міндетті түрде бас
тақырыбында болатын түйінді сөздерден тұрады;
қосымша жазылған индекстеу – бұл кезде термин, пәндік рубрика
немесе пәндік жіктеу элементтерінің кодтары құжатқа мазмұндық
сипаттаушы ретінде тіркеледі және құжаттың мәтінінде болмауы мүмкін;
автоматты түрде жіктеу, автоматты түрде құрастырылған
тезаурустарды пайдалану кезіндегі қосымша жазылған индекстеуді
білдіреді.
Жоғарыда келтірілген жіктелу әдістерінің одан әрі дамуына
Н.Б.Совер
еңбегінде ұсынылған және құжаттың іздестіру бейнесі
құрылымына негізделген
40
А.Я с а у и у н и в е р с и т е т і н і њ х а б а р ш ы с ы, №6, 2010
Қасымбеков А.С.Ақпараттық-іздестіру жүйелеріндегі білім беру ресурстарын индекстеу әдістері
жіктеулердегі индекстеу әдістері үш топқа бөлінеді [2]:
құжаттың мазмұнын сипаттау үшін пайдаланатын түйінді сөздерді
индекстеу әдістері, сондай-ақ табиғи-тілдік мәтіндердің синтаксистік және
статистикалық заңдылықтары;
лексикамен бақыланатын дескрипторлық ақпараттық-іздестіру
тілдерін пайдаланатын индекстеу әдістері;
классификациялық типтегі ақпараттық-іздестіру тілдері негізінде
индекстеу құралдары.
Статистикалық әдістерде құжат мәтінінің статистикалық критерийлерін:
құжатта кездесетін терминдердің жиілігі, құжаттар коллекциясындағы
терминдердің таралуы және т.б. есепке алады. Индекстеу әдістерінің бұл
түрінің негізгі кемшіліктеріне мәтін семантикасының есепке алынбауы мен
олардың кездесуінің төменгі жиілігі кезіндегі ақпараттық құндылықтары бар
терминдердің шашырап кетуі жатады. Осы аталған кемшіліктердің
жағымсыз
ықпалын
индекстелу
нәтижесінде
болдырмау
үшін,
лингвистикалық әдістердің элементтерін пайдалану есебінен статистикалық
әдістерді «күшейтеді». Атап айтқанда, төменгі жиіліктегі терминдерді
есепке алу үшін, терминнің маңыздылығы анықталады. Бұл құжаттар
коллекциясындағы терминдердің таралу қызметі (функциясы) болып
табылатын құжат мазмұнын шын мәнісінде сипаттаушы болып келуі
мүмкін:
N
i
A
i
2
log
мұнда:
i
– і терминінің маңыздылығы; А – і термині кездесетін құжаттар
саны; N – коллекциядағы құжаттар саны.
Осы формулаға сәйкес, құжаттар коллекциясында термин қаншалықты
сирек кездессе, терминнің маңыздылығы соншалықты жоғары болады.
Мәтін семантикасын есепке алу үшін құжаттың іздестіру бейнесін
кеңейтетін статистикалық әдіс пайдаланылады. Кеңейту құжаттың
ассоциациялық үйлесуі негізінде анықталған іздестіру бейнесіне қосымша
терминдерді ендіру есебінен жүргізіледі. Ассоциация коэффициенті (АК) кез
келген і және j термині үшін мына төмендегі формулаға сәйкес есептеп
шығарылады:
,
)
)(
(
2
2
j
B
N
i
A
N
j
B
i
A
N
N
j
B
i
A
ij
C
ij
KA
мұнда: А – тек қана t
i
терминімен индекстелген құжаттар саны; B - тек қана t
j
терминімен индекстелген құжаттар саны; С – t
i
және t
j
терминдерімен бір
мезгілде индекстелген құжаттар саны; N - коллекциядағы құжаттардың жалпы
саны.
41
А.Я с а у и у н и в е р с и т е т і н і њ х а б а р ш ы с ы, №6, 2010
Қасымбеков А.С. Ақпараттық-іздестіру жүйелеріндегі білім беру ресурстарын индекстеу әдістері
Құжаттың негізгі терминдері үшін ассоциацияның есептеп шығарылған
коэффициенттері құжаттың іздестіру бейнесін кеңейтуге қызмет жасайды.
Лингвистикалық әдістер жіктеуде интуитивті-прагматикалық, синтаксистік,
семантикалық әдістермен берілген. Ең кеңінен таралған интуитивті-
прагматикалық әдістің негізінде терминдердің салмағын анықтау мен мәтіндегі
терминдердің орналасуы есепке алынады. Терминдердің салмағы, сол берілген
құжаттың терминдерге сәйкес келу дәрежесін көрсететін анықталған сандық
мағынаны білдіреді. Мәтіндегі терминнің орналасуын есепке алу кезінде мәтін
терминінің ақпараттық құндылығы құжаттағы оның орналасуына байланысты
анықталады: құжаттың бас тақырыбында кездесетін термин, мысалы, құжаттың
кез келген жерінде кездесетін терминге қарағанда, құжат мазмұнын сипаттау
үшін қолдануға ыңғайлы болып келеді.
Синтаксистік әдістер мәтіннің синтаксистік құрылымын анықтау негізінде
индекстеу үдерісі орындалатын синтаксистік талдаудың орындалуын білдіреді.
Семантикалық әдістер мәтінді семантикалық талдау арқылы мәтіннің
семантикасын анықтауға бағытталады, оның негізіне қарапайым мағыналар мен
мағыналық қатынастарды білдіретін категорияларды бөліп қарау жатады.
Бақыланатын лексикалық дескрипторлық ақпараттық-іздестіру тілдерін
пайдаланушы индекстеу әдістері кеңінен таралған. Бұл жерде индекстеу
үдерісінде кездесетін терминдер тізбегін тану және оның бірегей
идентификатормен
белгіленуі
орындалады.
Терминдердің
олардың
идентификаторларымен сәйкес келуі арнайы сөздіктерде көрсетіледі,
олардың лексикалық құрамы қатаң шектеулі және белгіленген болып
келеді.
Дескрипторлық ақпараттық-іздестіру тілдерін пайдаланудан, сөздіктің
терминдері арасындағы мәтіндік қатынастар алдын ала белгілі болмайды.
Классификациялық типтегі ақпараттық-іздестіру тілдерін пайдалануды
индекстеу кезінде сондай-ақ, түрлі сөздіктерді қолдануға негізделеді, бірақ та
қазіргі жағдайда сөзжасамның мәтінінен сөздікте қатаң берілген терминдер
арасындағы қатынастарды көрсету жолымен бөліп қарауға болады. Индекстеу
әдісінің осы түріне жататын әдістің ең қарапайым мысалына рубрикатор
арқылы индекстеу жатады.
Ең кеңінен таралғандар индекстеудің статистикалық әдістері болып
табылады, олардың арасында терминнің айырмалаушы күшін есепке алушы
моделі мен жиілік модель жиі пайдаланылады [3]. Үлкен тиімділікке қол
жеткізу үшін олар осы топтың басқа әдістерімен үйлесуде пайдаланылады,
мысалы, лингвистикалық, синтаксистік немесе семантикалық әдістермен
пайдаланылады.
Жиілікке негізделген модельді қарастырамыз. Осы модельге сәйкес
негізінен массивтің құжаттарындағы жеке терминдердің көріну жиілігі есепке
алынады. Бұл кезде массивтің жекелеген құжаттарында жоғары жиілікпен
кездесетін терминдерге артықшылықтар беріледі, сонымен бірге олардың
42
А.Я с а у и у н и в е р с и т е т і н і њ х а б а р ш ы с ы, №6, 2010
Қасымбеков А.С. Ақпараттық-іздестіру жүйелеріндегі білім беру ресурстарын индекстеу әдістері
құжаттар массивінде көрінуінің жиынтық жиілігі онша жоғары емес.
Алғаш рет жеке құжаттарда терминдердің көрінуінің теп-тең
жиілігінің терминдер салмағы Лунның еңбектерінде пайдаланылған. Осы
теорияға сәйкес іздестірудің жоғары толықтығына қол жеткізіледі, бұл
кезде іздестіру нәтижесіне релевантты емес құжаттар түспеуі тиіс болған,
Лунның алдыңғы теориясын толықтыратын К.Sparck-Jones жүйесі
құрылды. Осы теорияға сәйкес іздестіру жағынан алып қарағанда ең
маңызды жиі кездесетін терминдер емес, сирек кездесетін терминдер
саналады. Құжаттық жиілікке кері, өлшеуші функция мына төмендегі
формула бойынша есептеп шығарылады:
,
1
)
(
i
D
f
N
f
i
IDF
мұндағы f(x) = log
2
(x) , N – массивтегі құжаттар саны, i – құжаттың термині,
D
i
– i терминінің құжаттық жиілігі.
Бұл функция тек бірнеше құжаттарда кездесетін терминдердің үлкен
мөлшерін білдіреді. Жоғарыда қарастырылған теорияның қосылуына
іздестірудің толықтығы мен дәлдігінің жоғары көрсеткіштерін қамтамасыз
етуші теория жатуы мүмкін. Бұған терминдердің салмағын өлшеу кезінде
жеке құжаттағы және де кері құжаттық жиіліктегі терминдер жиілігі
ретінде қол жеткізуге болады:
,
i
IDF
i
TF
i
W
мұндағы W
i
– і терминінің салмағы, TF
i
– құжаттағы і терминінің көріну
жиілігі, IDF
i
- і терминінің кері құжаттық жиілігі.
Терминнің айырмаланатын күшін есепке алушы модельде терминнің
айырмаланатын күшін бағалауға назар аударылады, ол құжаттар арасындағы
айырма негізінде анықталатын құжаттың іздестіру бейнесі терминінің
маңыздылығының өлшемі ретінде түсініледі. Құжаттарды бір-бірінен барынша
қашықтатын термин индекстеу кезінде барынша маңызды болып табылады,
және де керісінше, құжаттарды ұқсас ететін термин құжатты сипаттау
жағынан алып қарағанда нашар болып табылады.
Терминнің айырмаланатын күші құжаттардағы құжаттық іздестіру бейнесі
орташа мәнінің жұп болуы арасындағы айырма ретінде анықталады, егер де
термин құжаттардың векторында жоқ және бар болса, құжаттардың құжаттық
іздестіру бейнесінің орташа мәні жұп болады. Терминнің айырмаланатын күшін
анықтаудың есептеу жұмысын қажет етуін азайту мақсатында құжаттардың
кеңістігінің центроидының түсінігі пайдаланылады, ол мағынасы бойынша
«орташа» С құжатының анықтамасына сәйкес келеді:
N
j
ij
W
N
i
C
N
C
C
C
1
,
1
,...,
1
мұндағы: С – құжаттардың кеңістігінің центроиды; С
i
– коллекциялар құжаты; N
– коллекция құжаттарының саны; W
i j
– у құжатындағы і терм салмағы.
43
А.Я с а у и у н и в е р с и т е т і н і њ х а б а р ш ы с ы, №6, 2010
Қасымбеков А.С. Ақпараттық-іздестіру жүйелеріндегі білім беру ресурстарын индекстеу әдістері
Бұл кезде құжаттар кеңістігі (коллекциясы) Q, шамасымен сипатталуы
мүмкін, ол кеңістіктің жинақтылығы деп аталады және S(C, Vj)
векторларын
салыстыру фукциясы мағынасының жиынтығына тең болады,
мұнда С – центроид, V
j
– j құжатының векторы.
N
j
j
V
C
S
Q
1
)
,
(
Екі векторды салыстыру функциясының маңызы салыстырылып отырған
векторлар қаншалықты ұқсас болса, соншалықты үлкен болады.
Терминнің айырмаланатын күшінің шамасы келесі формула бойынша
анықталады:
Q
Q
i
DV
'
Мұнда, Q
’
– құжат кеңістігінің і терминсіз жинақтылығы, яғни i термині
құжаттардың барлық векторларынан алып тасталынады.
Индекстеудің бұл моделін пайдалану кезіндегі құжаттарды сипаттау үшін,
айырма ерекшелігі күшінің жағымды мағыналы терминдерін пайдаланған жөн
болады.
Егерде, іздестіру жүйесіндегі толықтығы бойынша талаптар іздеу
жолымен жиілік терминдерін қанағаттандыратын, ал талаптардың дәлдігі
бойынша айырма ерекшелігі күшінің жағымдылығына байланысты болса, ол
кезде терминдер салмағын мына формула бойынша есептеуге болады:
i
DV
i
TF
i
W
Іс жүзінде индекстеудің барлық қолданыстағы бар әдістері құжаттардың
мазмұнын көрсетпейтін кейбір жоғары жиіліктегі терминдерді алып тастауды
қарастырады. Терминдерді алып тастау арнайы стоп-сөздер сөздіктерін
пайдалану жолымен жүргізіледі, ол сөздіктерде орыс тілді жүйе үшін көмекші
сөздер, есімшелер, етістіктер, жалғаулықтар және т.б. болады. Стоп-сөздермен
қатар құжаттар олардың мазмұнын сипаттау үшін онша маңызды болмайды.
Бұл массивтің барлық құжаттарында бар сөздер болуы да мүмкін, және де бір
немесе екі құжатта кездесетін, яғни сирек кездесетін сөз болуы мүмкін.
Мұндай сөздерді сақтау үшін жадтың айтарлықтай көлемі жұмсалады. Олар
бар кезде іздеу тиімділігі оншалықты ұлғаймайды.
Ұсынылған тәсіл индекстелуші құжат сөздерінің бастапқы ағымының
терминдер санының 60% қысқартуға мүмкіндік береді. Осы тәсілге сәйкес
алдымен бір ғана құжатта кездесетін терминдер алып тасталынады. Мұндай
терминдер іздестіру кезінде аз көмектеседі, өйткені олар бір құжатты ғана
табуға ықпал етеді. Сонымен бірге, оларды алып тастау қарастырылып
отырған сөздер ағымын 45 %-ға қысқартуға мүмкіндік береді. Одан әрі жиі
кездесетін сөздер, “s“ – соңғы сөзбен аяқталатын сөздер, стоп-сөздер мен
айыру күші теріс мағыналы сөздер алып тасталынады.
Индекстеу сөздігінің одан әрі азаюы терминдерді олардың мағынасына
қарай азайту ретімен алып тастау есебінен жүзеге асырылады. Бұлайша
жасалған сандық эксперименттерде терминдердің 17% қалады. Индекстеу
кезіндегі сөздер ағынының мұндай қысқаруы іздестірудің дәлдігі мен
толықтығына айтарлықтай жағымсыз әсер етпейді. Егер де айырма ерекшелік
44
А.Я с а у и у н и в е р с и т е т і н і њ х а б а р ш ы с ы, №6, 2010
Қасымбеков А.С. Ақпараттық-іздестіру жүйелеріндегі білім беру ресурстарын индекстеу әдістері
күші аз мағыналы терминдерді қысқартуды жалғастырсақ, ол кезде тиімділік
айтарлықтай құлдырайды, яғни құжатты сипаттаушы сөздердің оңтайлы
санын анықтауға мүмкіндік беретін кейбір айырма ерекшелігінің күші болады.
Әдетте терминдердің кездесу жиілігінің таралу функциясы тығыздығын
Зипф (Zipf) заңы деген белгілі гиперболалық тарамдалумен сипатталады.
Зипфтің бірінші заңына сәйкес, бір тілдің ішіндегі табиғи тілдегі
мәтіндерді сипаттаудың жиілігін өлшеу кезінде, кейбір өзгермейтін шама
болады. Бұл өзгермейтін шаманы G деп белгілеп, оны табу ықтималдылығы:
r
p
G
Мұнда, р – сөздерді табу ықтималдылығы; r – жиілік дәрежесі. Жиілік
дәрежесі деп жиіліктің реттелген тізіміндегі жиіліктің реттік нөмірі аталады.
Сөздерді табу ықтималдылығы, осы сөздің мәтіндегі сөз санына ену
жиілігінің қатынасына тең болады:
,
/ N
tf
p
Мұнда, t f - мәтіндегі сөздердің ену жиілігі; N – мәтіндегі сөздердің
жалпы саны.
G константасының мағынасы түрлі тілдер үшін әртүрлі болып, біртілдік топтың
ішінде өзгеріссіз қалады. Атап айтар болсақ, ағылшын тіліндегі мәтіндер үшін
мысалы, Зипф (Zipf) константы шамамен 0,1-ге тең. Ал славян(орыс) тілдері үшін G
= 0,06-0,07-ге, ал түркі (қазақ) тілдері үшін – 0,08-ге тең шамалас болады.
Орыс тілінде үлкен жиіліктегі сөздер көбінесе, көмекші сөздер, есімше немесе
жалпы қолданылатын сөздер болып , ал ағылшын тілінде – артикль болып келеді.
Сирек кездесетін сөздерде, көп жағдайда, шешуші мағынасы болмайды. Сонымен,
барынша маңызды сөздер, диаграмманың ортаңғы бөлігінде жатады. Зерттеліп
отырған мәтіннен құжатты алдын ала өңдеу кезінде «шуды» азайту үшін кейбір
сөздер алып тасталынады. Бұл үшін керек емес сөздердің сөздігі – стоп-сөздер
құрылады. Мысалы, ағылшын тіліндегі мәтіндер үшін стоп-сөздерге: the, a, an, in, to, of,
and, that және т.б. терминдер жатады. Орыс тіліндегі мәтіндер үшін стоп-сөздер
тізіміне барлық көмекші сөздер, қосымшалар, есімшелер қосылады.
Сонымен, индекстеу үдерісінің қолданыстағы бар әдістеріне жасалған шолу
нәтижесінде ең кеңінен таралған әдістерге – құжаттың мазмұнында түйінді
сөздерді сипаттау үшін пайдаланылатын индекстеу әдістермен қатар, табиғи-
тілдік мәтіндердің статистикалық және синтаксистік заңдылықтары жатады.
Бұлардың ең тиімдісі, индекстелуші құжаттың семантикасын іздестіру бейнесінде
көрсетуге мүмкіндік беретін құрастырылған статистикалық әдістер болып, ол
морфологиялық талдауды қажет етеді.
ӘДЕБИЕТТЕР
1.
Когаловский М. Р. Перспективные технологии информационных систем. М.: Компания АйТи, 2003. -
288 с.
2.
Сэлтон Г. Автоматическая обработка, хранение и поиск информации. Под ред. А.И. Китова. - М.:
Сов. радио, 1973. - 560 с.
3.
Ермаков А.Е. Полнотекстовый поиск: проблемы и их решение // Мир ПК. -2000.-N5. 23-28 с.
Достарыңызбен бөлісу: |