Мадина аралбаевна самбетбаеваның 6D070300 – Ақпараттық жүйелер мамандығы бойынша философия докторы (PhD) дәрежесін алу үшін дайындаған



Pdf көрінісі
бет20/37
Дата31.12.2021
өлшемі277,18 Kb.
#22945
түріДиссертация
1   ...   16   17   18   19   20   21   22   23   ...   37
termNormName,

termLinkID, termScopeNote,что  позволило  включить  в  тезаурус  нормальную

форму  термина,  обеспечить  его  уникальность,  добавить  в  метамодель  точную

краткую характеристику термина.

Разработана концептуальная модель информационной системы поддержки

в  научно-образовательной  деятельности.  Целью  создания  системы  является

удовлетворение 

двух 

типов 


информационных 

потребностей 

ученых-

исследователей: потребности в сведениях об источниках необходимой научной

информации  и потребности  в  сам

ой  необходимой  научной  информации.

Разработка концептуальная модель основана на моделях DELOS DLRM и OAIS

RM. Выделены  и  подробно  рассмотрены  основные  сущности,  используемые  в

модели, а также их классы и подклассы, типы метаданных и отношений. Модель

базируется  на  понятии  документа  как  основной  сущности  научного

информационного  пространства,  которое  включает  в  себя  такие  сущности  как

публикация, персона, организация, факт, ключевой термин и др., а также связи

(отношения) между ними.

Описаны  функции  и  виды  деятельности  информационной  системы,  также

рассмотрена реализация функции - идентификация ресурсов.

Приведено  описание  трехуровневой  архитектуры  клиент-сервер  для  ИС

поддержки  в  научно-образовательной  деятельности,  одним  из  элементов

которой является институциональный репозиторий.

Ин

ституциональные  репозитории  связаны  с  вопросами



цифровой

интероперабельности и  с  инициативой  открытых  архивов  (OAI),  а  также

частично  связаны  с  понятием  электронной  библиотеки – то  есть  c  функциями

сбора,  хранения,  классификации,  каталогизации  и  обеспечение  доступа  к




цифровому контенту. Процесс интеграции цифрового репозитория (хранилища

данных)  в  информационную  систему  основан  на  модели  агрегирования  и

распространения  метаданных

согласно  протоколу

OAI-PMH,  который

поддерживается  большинством  систем,  предназначенных  для  хранения

информационных  ресурсов.  Сравнительный  анализ  ПО  для  разработки

репозиториев показал преимущества использования программного обеспечения

Dspace, в котором доступна политика метаданных, основанная на схеме Dublin

Core и  ее  расширениях. DSpace  работает  со  стандартными  для  библиотечной

сферы протоколами OAI-PMH, OpenURL и SWORD.

В процессе поиска на естественном языке возникает задача идентификации

слов текста на естественном языке, приведение их к нормализованному виду и

сопоставление  их  ключевым  терминам  из  тезауруса.  Она  решается

использованием 

морфологического 

анализатора, 

в 

котором 



задаются

морфологические  признаки  слов  текста  и  определяются  нормализованные

формы слов.

Вопросы  автоматического  морфологического  анализа  словоформы  и

построения математической модели морфологии текста являются актуальными

для любого естественного языка, в том числе и для казахского, как представителя

группы  тюркских  языков. Существующие  программы – морфологические

анализаторы  не  в  полной  мере  пригодны  для  казахского  языка,  поскольку  он

относится к группе агллютинативных языков и словоформы в нем формируются

присоединением к основе слова окончаний. Был выделен словарь окончаний для

слов  казахского  языка  и в  качестве  автоматизированного  модуля  определения

частей  (при  приведении  слова  к  нормальной  форме),  рекомендовано

использование морфологизатора  PHPMorphy.  Описан  алгоритм  выделения

нормальной формы слова с учетом морфологии казахского языка.

Алгоритм  координатного  индексирования  документов  основан  на  учете

классификационных  признаков  входящих  в  текст  терминов  (слов  и

словосочетаний),  характеризующих  ту  или  иную  предметную  область.

Был


выбран  подход,  когда  набор  значащих  слов,  выражаюших  значение  текста

отбирается как из тезауруса, так и из самого текста и метаданных (с помощью

TF-IDF). При тестировании алгоритма найденные в тексте документа ключевые

термины  вместе  с  их  частотами  сохраняются  в  поле  «ключевые  термины,

найденные в статье» метаданных публикации.

Для  систематизации  материалов  публикаций  и  подтверждения  авторства

текстов был  использован  алгоритм k-средних, который четко  разделяет

публикации  на  классы,  соответствующие  тематической  классификации  базы

данных, сделанной экспертом.

Задача  рубрикации  (классификации)  документов,  то  есть  отнесение

документа к одной или нескольким темам, является весьма актуальной в связи с

ростом  объема  доступной  полнотекстовой  информации.  Задача  распределения

публикации  по  рубрикам  сводится  к  задаче  определения  наиболее  близкого

экземпляра  класса  в  один  из  кластеров исходя  из некоторой  меры  близости.  В

работе  описывается  технология  автоматической  рубрикации  документов  с

использованием тезауруса.

Тестирование  алгоритмов проводилось  на  электронной  базе  данных



«Система управления электронными библиотеками», разработанная в ИВТ СО

РАН,  содержащей  в  себе  коллекцию  публикации  и  коллекцию  тематических

классов.

Рассмотренная 

модель 

информационной 

системы, 

работающей 

с

материалами  научного  наследия,  реализуется  на  примере  предметной  области



ИТ-технологий.  Основной  каталог  информационных  ресурсов  сервера

метаданных  информационной  системы  строится  в  соответствии  со  схемой

метаданных.  Разработанная  схема  учитывает  основные  требования  схемы

метаданных  Dublin  Core.  Для  долговременного  хранения  документов

использовался  репозитарий  DSpacе.  Реализован  также  OAI  сервис,  который  в

пакетном  режиме  периодически,  в  соответствии  с  расписанием,  проводит

синхронизацию метаданных репозитария  и сервера метаданных.

Функциональность  поиска  документов  (информационных  ресурсов)

доступна  конечным  пользователям  тремя  путями:  через  пользовательский

интерфейс 

информационной 

системы 


(сервера 

метаданных), 

через

специализированный  поисковый  сервис  (для  внешних  приложений)  и  через



пользовательский интерфейс репозитория DSpace

Основные результаты диссертационной работы

1. Разработано  лингвистическое  обеспечение  ИС  поддержки  в научно-

образовательной  деятельности, в  частности,  многоязычный  тезаурус  узкой

предметной области в соответствии с протоколом Z39.50 и модифицированной

схемы данных ZThes.

2. На  основе  анализа  информационных  потребностей  пользователей

разработана  концептуальная  модель  информационной  системы  поддержки  в

научно-образовательной  деятельности  в  соответствии  со  стандартами  DELOS

DLRM и OAIS RM.

3. Проведено  обеснование  выбора  трехуровневой  архитектуры  «клиент-

сервер» с выделением институционального репозитария, создаваемого в научно-

исследовательских, образовательных организациях различными категориями

пользователей в соответствии с протоколом OAI-PMH.

4. Разработаны и реализованы алгоритмы:

4.1


нормализации  слов  с  учетом  морфологии  казахского  языка,  как

агглютинативного языка;

4.2

координатного  индексирования  с  учетом  классификационных



признаков-терминов по ИТ-технологиям

;

4.3



тематической  классификации  текстовых  документов  с  учетом

близости  в    признаковом  пространстве,  описываемых  терминами  по  ИТ-

технологиям

4.4


Проведена  реализация  концептуальной  модели  и  разработанного

лингвистического обеспечения информационной системы поддержки в научно-

образовательной  деятельности  с  использованием  программной  платформы

СУИР  ИВТ  СО  РАН  (Систему  управления  информационными  ресурсами

Института вычислительных технологий СО РАН).



Достарыңызбен бөлісу:
1   ...   16   17   18   19   20   21   22   23   ...   37




©emirsaba.org 2024
әкімшілігінің қараңыз

    Басты бет