Мадина аралбаевна самбетбаеваның 6D070300 – Ақпараттық жүйелер мамандығы бойынша философия докторы (PhD) дәрежесін алу үшін дайындаған

жүктеу/скачать 277,18 Kb.

Pdf көрінісі

бет	20/37
Дата	31.12.2021
өлшемі	277,18 Kb.
	#22945
түрі	Диссертация

1 ... 16 17 18 19 20 21 22 23 ... 37

Байланысты:
sam-ann

termNormName,

termLinkID, termScopeNote,что позволило включить в тезаурус нормальную

форму термина, обеспечить его уникальность, добавить в метамодель точную

краткую характеристику термина.

Разработана концептуальная модель информационной системы поддержки

в научно-образовательной деятельности. Целью создания системы является

удовлетворение

двух

типов

информационных

потребностей

ученых-

исследователей: потребности в сведениях об источниках необходимой научной

информации и потребности в сам

ой необходимой научной информации.

Разработка концептуальная модель основана на моделях DELOS DLRM и OAIS

RM. Выделены и подробно рассмотрены основные сущности, используемые в

модели, а также их классы и подклассы, типы метаданных и отношений. Модель

базируется на понятии документа как основной сущности научного

информационного пространства, которое включает в себя такие сущности как

публикация, персона, организация, факт, ключевой термин и др., а также связи

(отношения) между ними.

Описаны функции и виды деятельности информационной системы, также

рассмотрена реализация функции - идентификация ресурсов.

Приведено описание трехуровневой архитектуры клиент-сервер для ИС

поддержки в научно-образовательной деятельности, одним из элементов

которой является институциональный репозиторий.

Ин

ституциональные репозитории связаны с вопросами

цифровой

интероперабельности и с инициативой открытых архивов (OAI), а также

частично связаны с понятием электронной библиотеки – то есть c функциями

сбора, хранения, классификации, каталогизации и обеспечение доступа к

цифровому контенту. Процесс интеграции цифрового репозитория (хранилища

данных) в информационную систему основан на модели агрегирования и

распространения метаданных

согласно протоколу

OAI-PMH, который

поддерживается большинством систем, предназначенных для хранения

информационных ресурсов. Сравнительный анализ ПО для разработки

репозиториев показал преимущества использования программного обеспечения

Dspace, в котором доступна политика метаданных, основанная на схеме Dublin

Core и ее расширениях. DSpace работает со стандартными для библиотечной

сферы протоколами OAI-PMH, OpenURL и SWORD.

В процессе поиска на естественном языке возникает задача идентификации

слов текста на естественном языке, приведение их к нормализованному виду и

сопоставление их ключевым терминам из тезауруса. Она решается

использованием

морфологического

анализатора,

котором

задаются

морфологические признаки слов текста и определяются нормализованные

формы слов.

Вопросы автоматического морфологического анализа словоформы и

построения математической модели морфологии текста являются актуальными

для любого естественного языка, в том числе и для казахского, как представителя

группы тюркских языков. Существующие программы – морфологические

анализаторы не в полной мере пригодны для казахского языка, поскольку он

относится к группе агллютинативных языков и словоформы в нем формируются

присоединением к основе слова окончаний. Был выделен словарь окончаний для

слов казахского языка и в качестве автоматизированного модуля определения

частей (при приведении слова к нормальной форме), рекомендовано

использование морфологизатора PHPMorphy. Описан алгоритм выделения

нормальной формы слова с учетом морфологии казахского языка.

Алгоритм координатного индексирования документов основан на учете

классификационных признаков входящих в текст терминов (слов и

словосочетаний), характеризующих ту или иную предметную область.

Был

выбран подход, когда набор значащих слов, выражаюших значение текста

отбирается как из тезауруса, так и из самого текста и метаданных (с помощью

TF-IDF). При тестировании алгоритма найденные в тексте документа ключевые

термины вместе с их частотами сохраняются в поле «ключевые термины,

найденные в статье» метаданных публикации.

Для систематизации материалов публикаций и подтверждения авторства

текстов был использован алгоритм k-средних, который четко разделяет

публикации на классы, соответствующие тематической классификации базы

данных, сделанной экспертом.

Задача рубрикации (классификации) документов, то есть отнесение

документа к одной или нескольким темам, является весьма актуальной в связи с

ростом объема доступной полнотекстовой информации. Задача распределения

публикации по рубрикам сводится к задаче определения наиболее близкого

экземпляра класса в один из кластеров исходя из некоторой меры близости. В

работе описывается технология автоматической рубрикации документов с

использованием тезауруса.

Тестирование алгоритмов проводилось на электронной базе данных

«Система управления электронными библиотеками», разработанная в ИВТ СО

РАН, содержащей в себе коллекцию публикации и коллекцию тематических

классов.

Рассмотренная

модель

информационной

системы,

работающей

материалами научного наследия, реализуется на примере предметной области

ИТ-технологий. Основной каталог информационных ресурсов сервера

метаданных информационной системы строится в соответствии со схемой

метаданных. Разработанная схема учитывает основные требования схемы

метаданных Dublin Core. Для долговременного хранения документов

использовался репозитарий DSpacе. Реализован также OAI сервис, который в

пакетном режиме периодически, в соответствии с расписанием, проводит

синхронизацию метаданных репозитария и сервера метаданных.

Функциональность поиска документов (информационных ресурсов)

доступна конечным пользователям тремя путями: через пользовательский

интерфейс

информационной

системы

(сервера

метаданных),

через

специализированный поисковый сервис (для внешних приложений) и через

пользовательский интерфейс репозитория DSpace

Основные результаты диссертационной работы

1. Разработано лингвистическое обеспечение ИС поддержки в научно-

образовательной деятельности, в частности, многоязычный тезаурус узкой

предметной области в соответствии с протоколом Z39.50 и модифицированной

схемы данных ZThes.

2. На основе анализа информационных потребностей пользователей

разработана концептуальная модель информационной системы поддержки в

научно-образовательной деятельности в соответствии со стандартами DELOS

DLRM и OAIS RM.

3. Проведено обеснование выбора трехуровневой архитектуры «клиент-

сервер» с выделением институционального репозитария, создаваемого в научно-

исследовательских, образовательных организациях различными категориями

пользователей в соответствии с протоколом OAI-PMH.

4. Разработаны и реализованы алгоритмы:

4.1

нормализации слов с учетом морфологии казахского языка, как

агглютинативного языка;

4.2

координатного индексирования с учетом классификационных

признаков-терминов по ИТ-технологиям

;

4.3

тематической классификации текстовых документов с учетом

близости в признаковом пространстве, описываемых терминами по ИТ-

технологиям

4.4

Проведена реализация концептуальной модели и разработанного

лингвистического обеспечения информационной системы поддержки в научно-

образовательной деятельности с использованием программной платформы

СУИР ИВТ СО РАН (Систему управления информационными ресурсами

Института вычислительных технологий СО РАН).

жүктеу/скачать 277,18 Kb.

Достарыңызбен бөлісу:

1 ... 16 17 18 19 20 21 22 23 ... 37