termNormName, termLinkID,
termScopeNote қосу арқылы түрлендірілді, бұл тезаурусқа терминнің қалыпты
формасын
қосуды, оның
бірегейлігін
қамсыздандыруын, метамодельге
терминнің дәл қысқа сипаттамасын қосуды мүмкін етті. Көп тілді тезауруста
термин бірегейлігі тезаурустың тіл-компоненттеріндегі терминдер арасында бір
мағыналы сәйкестікті қамтамасыз етеді.
Ғылыми-білім беру
қызметінде
қолдаудың
ақпараттық
жүйесінің
концептуалды
моделі
құрылды.
Жүйені
құрудың
мақсаты
ғалым-
зерттеушілердің екі типті ақпараттық мұқтаждықтарын қанағаттандыру болып
табылады: керекті ғылыми ақпарат дереккөздері туралы мәліметтерге қажеттілік
және керекті ғылыми ақпараттың өзіне деген қажеттілік. Концептуалды модель
зерттемесі DELOS DLRM және OAIS RM модельдеріне негізделген. Модельде
пайдаланылатын негізгі болмыстар, сондай-ақ, олардың кластары мен ішкі
кластары, метадеректер мен қатынастар типтері айқындалған және жан-жақты
қарастырылған. Модель құжаттың ғылыми ақпараттық кеңістіктің басты
болмысы ретіндегі ұғымына негізделеді, оған мақала, тұлға, ұйым, факт, кілттік
термин және т.б., сондай-ақ олардың арасындағы қатынастар секілді болмыстар
жатады.
Ақпараттық жүйе қызметінің функциялары мен түрлері сипатталған,
сонымен қатар, ресурстарды идентификациялау – функциясының жүзеге
асырылуы қарастырылған.
Ғылыми-білім беру қызметін қолдау АЖ-не арналған клиент-сервер үш
деңгейлі архитектурасының сипаттамасы келтірілген, институционалды
репозиторий оның бір элементі болып табылады.
Институционалды репозиторий сандық интероперабельділік пен ашық
мұрағаттар (OAI) бастамасы мәселелерімен байланысты, сонымен бірге,
электронды кітапхана – яғни жинау, сақтау, классификациялау, каталогтау мен
сандық контентке қолжетімділікті қамтамасыз ету функцияларымен ішінара
байланысты. Ақпараттық жүйеге сандық репозиторийді (дерек қоймасы)
интеграциялау процесі агрегирлеу және OAI-PMH хаттамасына сәйкес
метадеректерді тарату моделіне негізделген, ол ақпараттық ресурстарды
сақтауға арналған жүйелердің көпшілігімен сүйемелденеді. Репозиторий құруға
арналған БҚ салыстырмалы талдауы Dspace бағдарламалық қамсыздандыруды
қолданудың артықшылығын көрсетті,
онда Dublin Core схемасы мен оның
өрістеріне негізделген метадеректер саясаты қолжетімді.
DSpace кітапхана саласына арналған OAI-PMH, OpenURL және SWORD
хаттамаларының стандарттарымен жұмыс істейді.
Табиғи
тілде
іздеу
процесінде
мәтін
сөздерін
табиғи
тілде
идентификациялау, оларды қалыпты түрге келтіру мен оларды тезаурустағы
кілттік терминдермен салыстыру мәселесі туындайды. Бұл мәселе мәтін
сөздерінің морфологиялық белгілері берілетін және сөздердің қалыптанған түрі
айқындалатын, морфологиялық талдауышты қолдану арқылы шешіледі.
Сөзжасамдарды
автоматты
морфологиялық
талдау
және
мәтін
морфологиясының математикалық моделін құру мәселелері кез-келген табиғи
тілге, сонымен қатар, түркі тілдері тобының өкілі ретінде қазақ тілі үшін де өзекті
болып келеді. Морфологиялық талдағыш бағдарламалары бары қазақ тілі үшін
толықтай жарамды емес, себебі ол агллютинативті тілге жатады және ондағы
сөзжасамдар сөз негізіне жалғануы арқылы жасалады. Қазақ тілі сөздеріне
арналған жалғаулардың сөздіктері айқындалды және бөлшектерді анықтаудың
(сөздерді қалыпқа келтіруде) автоматтандырылған модулі ретінде KazNormTerm
қазақ тілінің сөздерін қалыпты түрге келтіретін бағдарламаны қолдану
ұсынылған. Қазақ тілі морфологиясын есепке ала отырып сөздердің қалыпты
формасын айқындау алгоритмі сипатталған.
Құжаттарды координатты индекстеу алгоритмі мәтінге кіретін, белгілі бір
пәндік саланы сипаттайтын терминдердің (сөздер мен сөз тіркестердің)
классификациялық
белгілерін есептеуге негізделген. Мәтін мағынасын
білдіретін, мәнді сөздер жиыны тезаурустан ғана сұрыпталмай, мәтіннің өзінен
де және метадеректерінен де (TF-IDF көмегімен) сұрыпталатын тәсіл таңдап
алынды. Алгоритмді тестілеуде, құжат мәтінінде табылған кілттік терминдер
олардың жиіліктерімен бірге басылым метадеректерінің «мақалада табылған
кілттік терминдер» алаңында сақталады.
Құжаттарды рубрикалау (классификациялау) мәселесі, яғни құжатты бір
немесе бірнеше тақырыпқа жатқызу, толық мәтінді ақпарат қолжетімділігі
көлемінің өсуіне байланысты аса өзекті болып табылады. Басылымдарды
рубрикалар бойынша тарату мәселесі олардың жуықтығының кейбір өлшемінен
шығатын, кластерлердің біріне анағұрлым жақын экземпляр класын анықтау
мәселесіне саяды. Жұмыста тезаурусты қолдана отырып, құжаттарды автоматты
рубрикалау технологиясы сипатталады.
Алгоритмдерді тестілеу ЕТИ СБ РҒА жасаған «Электронды кітапханаларды
басқару жүйесі» электронды дерек
қорында
өткізілді, онда басылым
топтамалары мен тақырыптық класс топтамалары қамтылған.
Ғылыми мұра материалдарымен жұмыс істейтін, ақпараттық жүйенің
қарастырылған моделі, АТ-технология пәндік саласы мысалында жүзеге
асырылады.
Ақпараттық
жүйе
метадеректері
серверінің
ақпараттық
ресурстарының негізгі каталогы метадеректер схемасына сәйкес құрылады.
Құрылған схема Dublin Core метадеректер схемасының негізгі талаптарын
ескереді. Құжаттарды ұзақ мерзімді сақтау үшін DSpacе репозиторийі
қолданылады. Сонымен бірге, OAI сервисі жүзеге асырылған, ол пакетті
режимде мерзімді түрде, кестеге сәйкес, репозиторий метадеректеріне және
метадеректер серверіне синхрондау өткізеді.
Құжаттарды (ақпараттық ресурстарды) іздеу функционалдылығы ақырғы
пайдаланушыларға үш жолмен қолжетімді болады: ақпараттық жүйенің
(метадеректер сервері) пайдаланушылық интерфейсі арқылы, арнайы іздеу
сервисі арқылы (сыртқы қосымшалар үшін) және DSpace репозиторийінің
пайдаланушылық интерфейсі арқылы.
Диссертациялық жұмыстың негізгі нәтижелері
Ғылыми-білім
беру
қызметін
қолдау
АЖ-нің
лингвистикалық
қамсыздандыруы
жасалды,
оның
ішінде,
Z39.50
хаттамасына
және
түрлендірілген Zthes деректер схемасына сәйкес, шағын пәндік саланың көптілді
тезаурусы құрылды.
1. Пайдаланушылардың ақпараттық мұқтаждықтарын талдау негізінде
DELOS DLRM және OAIS RM стандарттарына сәйкес
ғылыми-білім беру
қызметін қолдау ақпараттық жүйесінің концептуалды моделі жасалды.
2. «Клиент-сервер» үш деңгейлі архитектурасын таңдаудың OAI-PMH
хаттамасына сәйкес түрлі санатты пайдаланушылармен ғылыми-зерттеу, білім
беру ұйымдарында жасалатын институционалды репозиториясын айқындайтын
негіздемесі жүргізілді.
3. Құрылған және жүзеге асырылған алгоритмдер:
‒ агглютинативті тіл ретінде, қазақ тілі морфологиясын ескере отырып
сөздерді қалыпқа келтіру;
‒ Ақпараттық технологиялар бойынша терминдердің классификациялық
белгілерін ескере отырып координатты индекстеу;
‒ Ақпараттық технологиялар бойынша терминдермен сипатталатын,
белгілік кеңістіктегі жақындығын ескере отырып мәтіндік
құжаттарды
тақырыптық классификациялау
‒ АРБЖ ЕТИ СБ РҒА (Ақпараттық ресурстарды басқару жүйесі Есептеу
технологиялары институты СБ РҒА) бағдарламалық платформасын қолдана
отырып жасалған ғылыми-білім беру қызметін қолдаудың ақпараттық жүйесінің
лингвистикалық қамтамасыз етудің концептуалды моделі қолданысқа енгізілді.
Достарыңызбен бөлісу: |