Объем и структура диссертации.
Диссертационная работа написана на казахском языке, состоит из введения,
трех взаимосвязанных разделов, которые разбиты на подразделы, заключения и
списка использованных источников.
Во введении обосновывается актуальность диссертационной работы,
сформулированы цели, задачи, объект, предмет и методы исследования,
показаны научная новизна и практическая ценность полученных результатов,
описан личный вклад соискателя-докторанта в работу, приводится информация
об апробации работы и связанных с ней публикациях.
Первая глава диссертации посвящена анализу методологических подходов
и технологий, пригодных для построения информационных систем поддержки в
научно-образовательной деятельности.
Проведено исследование информационных потребностей научного
сообщества в свете изменений, вызванных распространением интернет-
технологий, основанное на сравнении характеристик информационных
потребностей. Формулируются основные требования к информационной
системе поддержки в научно-образовательной деятельности. В частности, такая
система должна поддерживать надежное долговременное и защищенное от
исчезновения хранение информации; включать большое количество словарей-
классификаторов для обеспечения идентификации и классификации ресурсов;
поддерживать слабо структурированные информационные ресурсы, взаимосвязи
между информационными ресурсами; включать интеллектуальные службы
обслуживания запросов пользователя, а также программные интерфейсы для
поддержки аналитической работы пользователя; удовлетворять требованиям
интероперабельности и т.д.
В результате анализа технологий построения цифровых репозиториев и су-
ществующих платформ для информационной системы поддержки в научно-
образовательной деятельности была выбрана платформа DSpace.
Обсуждаются вопросы выбора классификатора предметной области,
используемого при создании тезауруса. Сделан краткий обзор некоторых
используемых
в
научной
деятельности
классификаторов.
С
целью
автоматизации процесса тематической классификации документов были
рассмотрены основные принципы координатного индексирования, принципы
построения и схемы данных тезаурусов, а также существующие инструменты
для проведения морфологического анализа.
Во второй главе описывается концептуальная модель информационной
системы поддержки в научно-образовательной деятельности, включающая
основные сущности, их классы и подклассы, типы метаданных и отношений.
Принципиально
построенная
модель
удовлетворяет
всем
описанным
информационным
потребности
пользователей,
включая:
однозначную
идентификацию ресурсов, связи между документами, обеспечение выделения
ресурсов, общесистемные пользовательские требования. Сделан вывод, что ин-
формационная модель системы должна быть
многоуровневой и состоять как
минимум из двух компонент:
подсистема хранения данных (цифровой
репозиторий) и
подсистема сервисов управления информационными ресурсами.
Разработана методика создания тезаурусов на основе схемы данных Zthes.
В третьей главе описана программная реализация информационной
системы поддержки в научно-образовательной деятельности. Описана
архитектура информационной системы и протокол взаимодействия между ее
частями – репозиторием и сервисами управления информационными ресурсами.
Приведены
результаты
разработки
многоязычного
тезауруса
по
информационным технологиям, позволяющего решать задачи систематизации и
классификации информационных ресурсов, проведения аналитической работы с
ресурсами и обеспечения интеграции ресурсов как внутри каждой из систем, так
и с внешними системами. Предложен новый алгоритм приведения слов
казахского языка к нормальной форме.
Предложены алгоритмы автоматизации основных этапов научно-
информационного процесса с участием слабоструктурированных документов,
включая
извлечение
метаданных,
кластеризацию
и
тематическую
классификацию документов. Был разработан и протестирован способ задания
меры сходства публикации и тематических рубрик, основывающийся на
сравнении атрибута – ключевые термины (дескрипторы). Был предложен
алгоритм тематической классификации документов на основе данной меры.
В заключении диссертации приведены основные теоретические и
практические результаты и выводы.
Развитие информационных технологий в целом, а также технологий в
области передачи и обработки информации, в частности, привело к появлению
принципиально новых возможностей организации практически всех этапов
научно-образовательного процесса, что, в свою очередь, обусловило
качественный рост информационных потребностей научного сообщества.
Важной проблемой остается разработка структур представления научной и
научно-организационной информации. Поскольку на практике большинство
рядовых пользователей испытывают затруднения в самостоятельном построении
запросов более сложных, нежели простой контекстный или атрибутивный поиск,
постольку необходимо, чтобы базовая структура представления информации и
логических
компонентов
интеллектуальной
системы
отвечала
такой
совокупности заранее сформулированных информационных запросов, которая
была бы в состоянии удовлетворить основные информационные потребности
пользователей (независимо от их квалификации в области информатики) в
информации и знаниях, получаемых на основе данных систем.
С целью разработки лингвистического обеспечения информационной
системы поддержки в научно-образовательной деятельности азработан
многоязычный тезаурус по ИТ-технологиям в виде БД в среде СУБД PostgreSQL,
который содержит 10195 терминов на казахском языке (11433 русских
эквивалентов, 500 английских). Многоязычность позволяет решать проблемы
обмена информацией на языках-компонентах. С помощью тезауруса и
словарных статей описывается избранная, достаточно узкая, предметная
область, интересующая пользователя, ее основные понятия и связи между ними
в описываемой предметной области. Как правило предметная область
ограничивается изучаемым учебным курсом или конкретной темой курса.
Создание и использование специализированных многоязычных тезаурусов в
информационных системах поддержки в научно-образовательной деятельности
представляет несомненный интерес и переводит систему совершенно другой
качественный класс.
В рамках построения распределенных информационных систем, технологий
доступа к распределенным информационным ресурсам (коллекциям, базам
данных и т.п.) логично обеспечить доступ к тезаурусам в технологии «клиент-
сервер» с использованием единого стандартаANSI/NISO Z39.50. Использование
стандартной схемы данных Zthes, которая поддерживается протоколом Z39.50,
позволяет скрыть частные различия структур различных баз данных тезаурусов
и обеспечить единый интерфейс без перегенерации последних. Классическая
схема Zthes была модифицирована добавлением трех полей:
Достарыңызбен бөлісу: |