32
4.7-сурет
. Ч.Дарвин бойынша жануарлардың топтастыру фрагменті
Автоматтандырылған
жүйелерде
қазір
тезаурустар
кӛптен
қолданылады (
4.1- кесте
) және фасетты жіктеулер (
4.8-сурет
).
4.8-сурет.
Фасетты жіктеу
Иерархиялық топтастыру жүйенің негізгі артықшылығы – үлкен
ақпараттық кӛлем және іздестірудің оңайлығы (қолмен іздеу мүмкіндігі).
Кемшіліктері – құрылым иілгішінің аз болуы, түрлі белгілердің еркін үйлесуі
бойынша объектілерді агрегаттауға мүмкін емес.
Алфавит-заттық топтастыру
– бұл
алфавит ретінде орналасқан
(телефон анықтамалығы) кластар жүйесі (олардың әрбіреуі заттың немесе
фактілердің бір түріне сәйкес). Осындай жіктеудің
мысалы ағылшын-қазақ
сӛздігі. Сӛздер алфавит ретіне сәйкес қатаң орналасқан.
Кейде басқа принцип ыңғайлы – әртүрлі әріпке басталатын,
бірақ бір
жағдайға немесе затқа қатысатын барлық сӛздерді қатар қою. Мысалы,
«полиция», «аурухана», «сақтандыру» сӛздерді «авария» бӛліміне
орналастыру орынды. Бұл жағдайда заттық жіктеумен жұмыс істейміз.
Тезаурус
– құжаттың немесе ақпараттық сұраныстың орталық нүктесі
(тақырып). Әдетте, қарапайым кластар есімі болып табылатың, табиғи тілдің
кейбір қарапайым сӛздердің және сӛз тіркестерінің тізбегі түрінде
кӛрсетіледі. Осындай сӛздер –
n
-ӛлшемді тақырып-заттық кеңістігіндегі
құжат координаталары. Құжаттық немесе
ақпараттық сұраныстың
33
координаталы индексациялау үшін толық мәнді (қызметтік емес) сӛздер
пайдалану мүмкін, олар тікелей индексацияланатың мәтіндерден алынады.
Осындай сӛздер мен тіркелер – кілтті болады. Тезаурусты құру процесі
4.1-
кестеде
келтірілген.
Достарыңызбен бөлісу: