termNormName,
termLinkID, termScopeNote,что позволило включить в тезаурус нормальную
форму термина, обеспечить его уникальность, добавить в метамодель точную
краткую характеристику термина.
Разработана концептуальная модель информационной системы поддержки
в научно-образовательной деятельности. Целью создания системы является
удовлетворение
двух
типов
информационных
потребностей
ученых-
исследователей: потребности в сведениях об источниках необходимой научной
информации и потребности в сам
ой необходимой научной информации.
Разработка концептуальная модель основана на моделях DELOS DLRM и OAIS
RM. Выделены и подробно рассмотрены основные сущности, используемые в
модели, а также их классы и подклассы, типы метаданных и отношений. Модель
базируется на понятии документа как основной сущности научного
информационного пространства, которое включает в себя такие сущности как
публикация, персона, организация, факт, ключевой термин и др., а также связи
(отношения) между ними.
Описаны функции и виды деятельности информационной системы, также
рассмотрена реализация функции - идентификация ресурсов.
Приведено описание трехуровневой архитектуры клиент-сервер для ИС
поддержки в научно-образовательной деятельности, одним из элементов
которой является институциональный репозиторий.
Ин
ституциональные репозитории связаны с вопросами
цифровой
интероперабельности и с инициативой открытых архивов (OAI), а также
частично связаны с понятием электронной библиотеки – то есть c функциями
сбора, хранения, классификации, каталогизации и обеспечение доступа к
цифровому контенту. Процесс интеграции цифрового репозитория (хранилища
данных) в информационную систему основан на модели агрегирования и
распространения метаданных
согласно протоколу
OAI-PMH, который
поддерживается большинством систем, предназначенных для хранения
информационных ресурсов. Сравнительный анализ ПО для разработки
репозиториев показал преимущества использования программного обеспечения
Dspace, в котором доступна политика метаданных, основанная на схеме Dublin
Core и ее расширениях. DSpace работает со стандартными для библиотечной
сферы протоколами OAI-PMH, OpenURL и SWORD.
В процессе поиска на естественном языке возникает задача идентификации
слов текста на естественном языке, приведение их к нормализованному виду и
сопоставление их ключевым терминам из тезауруса. Она решается
использованием
морфологического
анализатора,
в
котором
задаются
морфологические признаки слов текста и определяются нормализованные
формы слов.
Вопросы автоматического морфологического анализа словоформы и
построения математической модели морфологии текста являются актуальными
для любого естественного языка, в том числе и для казахского, как представителя
группы тюркских языков. Существующие программы – морфологические
анализаторы не в полной мере пригодны для казахского языка, поскольку он
относится к группе агллютинативных языков и словоформы в нем формируются
присоединением к основе слова окончаний. Был выделен словарь окончаний для
слов казахского языка и в качестве автоматизированного модуля определения
частей (при приведении слова к нормальной форме), рекомендовано
использование морфологизатора PHPMorphy. Описан алгоритм выделения
нормальной формы слова с учетом морфологии казахского языка.
Алгоритм координатного индексирования документов основан на учете
классификационных признаков входящих в текст терминов (слов и
словосочетаний), характеризующих ту или иную предметную область.
Был
выбран подход, когда набор значащих слов, выражаюших значение текста
отбирается как из тезауруса, так и из самого текста и метаданных (с помощью
TF-IDF). При тестировании алгоритма найденные в тексте документа ключевые
термины вместе с их частотами сохраняются в поле «ключевые термины,
найденные в статье» метаданных публикации.
Для систематизации материалов публикаций и подтверждения авторства
текстов был использован алгоритм k-средних, который четко разделяет
публикации на классы, соответствующие тематической классификации базы
данных, сделанной экспертом.
Задача рубрикации (классификации) документов, то есть отнесение
документа к одной или нескольким темам, является весьма актуальной в связи с
ростом объема доступной полнотекстовой информации. Задача распределения
публикации по рубрикам сводится к задаче определения наиболее близкого
экземпляра класса в один из кластеров исходя из некоторой меры близости. В
работе описывается технология автоматической рубрикации документов с
использованием тезауруса.
Тестирование алгоритмов проводилось на электронной базе данных
«Система управления электронными библиотеками», разработанная в ИВТ СО
РАН, содержащей в себе коллекцию публикации и коллекцию тематических
классов.
Рассмотренная
модель
информационной
системы,
работающей
с
материалами научного наследия, реализуется на примере предметной области
ИТ-технологий. Основной каталог информационных ресурсов сервера
метаданных информационной системы строится в соответствии со схемой
метаданных. Разработанная схема учитывает основные требования схемы
метаданных Dublin Core. Для долговременного хранения документов
использовался репозитарий DSpacе. Реализован также OAI сервис, который в
пакетном режиме периодически, в соответствии с расписанием, проводит
синхронизацию метаданных репозитария и сервера метаданных.
Функциональность поиска документов (информационных ресурсов)
доступна конечным пользователям тремя путями: через пользовательский
интерфейс
информационной
системы
(сервера
метаданных),
через
специализированный поисковый сервис (для внешних приложений) и через
пользовательский интерфейс репозитория DSpace
Основные результаты диссертационной работы
1. Разработано лингвистическое обеспечение ИС поддержки в научно-
образовательной деятельности, в частности, многоязычный тезаурус узкой
предметной области в соответствии с протоколом Z39.50 и модифицированной
схемы данных ZThes.
2. На основе анализа информационных потребностей пользователей
разработана концептуальная модель информационной системы поддержки в
научно-образовательной деятельности в соответствии со стандартами DELOS
DLRM и OAIS RM.
3. Проведено обеснование выбора трехуровневой архитектуры «клиент-
сервер» с выделением институционального репозитария, создаваемого в научно-
исследовательских, образовательных организациях различными категориями
пользователей в соответствии с протоколом OAI-PMH.
4. Разработаны и реализованы алгоритмы:
4.1
нормализации слов с учетом морфологии казахского языка, как
агглютинативного языка;
4.2
координатного индексирования с учетом классификационных
признаков-терминов по ИТ-технологиям
;
4.3
тематической классификации текстовых документов с учетом
близости в признаковом пространстве, описываемых терминами по ИТ-
технологиям
4.4
Проведена реализация концептуальной модели и разработанного
лингвистического обеспечения информационной системы поддержки в научно-
образовательной деятельности с использованием программной платформы
СУИР ИВТ СО РАН (Систему управления информационными ресурсами
Института вычислительных технологий СО РАН).
Достарыңызбен бөлісу: |