АННОТАЦИЯ
диссертационной работы
САМБЕТБАЕВОЙ МАДИНЫ АРАЛБАЕВНЫ
«Разработка многоязычного тезауруса по информационным технологиям с
учетом морфологии казахского языка для информационной системы
поддержки научно-образовательной деятельности»,
представленную на соискание степени доктора (PhD) по специальности:
6D070300 – Информационные системы
Актуальность темы исследования. В настоящий момент значительная
часть информационных ресурсов хотя и переведена в цифровую форму, но
недоступна
широкому
кругу
научной
общественности,
а
ресурсы,
представленные в Интернет, разрознены, недостаточно систематизированы и
структурированы. Поэтому в процессе научно-образовательной деятельности
очень часто необходима систематизация и классификация имеющихся
информационных ресурсов.
Развитие информационных технологий в целом, а также технологий в
области передачи и обработки информации, в частности, привело к появлению
принципиально новых возможностей организации практически всех этапов
научно-образовательного процесса, что, в свою очередь, обусловило
качественный
рост
информационных
потребностей
его
участников.
Современный
пользователь,
вооруженный
компьютером,
повседневно
использующий возможности сети Интернет, не может быть удовлетворен
традиционным режимом учебного процесса и обычными форматами учебных
материалов, как то учебники, книги или плоские текстовые файлы. Учебные
материалы могут быть сегодня предоставлены во множестве цифровых
форматов,
они
должны
поддерживаться
различными
поисковыми
и
классификационными сервисами.
В процессе научно-образовательной, деятельности много времени и сил
отнимает работа с литературными источниками, разного рода материалами и
документами: поиск необходимых документов, систематизация и классификация
документов в соответствии с поставленной задачей. Для удовлетворения
информационных потребностей современных пользователей в сфере научно-
образовательного деятельности необходима поддержка тонких функций поиска
и классификации информации, а также просмотр ресурсов по категориям
(рубрикам) и словарям-классификаторам. Наиболее важной задачей является
задача систематизации ресурсов (тематическая классификация), для решения
которой необходимо четко определить состав логико-семантических категорий
(фасетов) и ключевых терминов (понятий), покрывающих избранную достаточно
узкую предметную область, интересующую пользователя.
В настоящее время существуют достаточно мощные информационные
системы, так или иначе ориентированные на поддержку научных исследований.
Среди них следует отметить информационные системы, близкие к
фактографическим, например, ИСИР (ЕНИП) РАН
1
, ИРИС СО РАН
2
, euroCRIS
3
,
и документальные, например, eLibrary
4
, Информика
5
, MathNET
6
. Названные
системы в той или иной степени удовлетворяют информационные потребности
научно-образовательного сообщества в информации, однако каждая из них
имеет функциональные недостатки.
Основными недостатками большинства систем являются ограниченность
возможностей проведения аналитической работы с ресурсами и обеспечения
интеграции ресурсов как внутри каждой из систем, так и с внешними системами
(часто не учитываются международные стандарты и рекомендации, низкая
интероперабельность). Это крайне неудобно в сфере научно-образовательной
деятельности, одна из главных задач состоит в том, что необходимо установить
связи между конкретными научными фактами (например, «что означает термин
кибернетика» или «кто автор данной статьи») и сущностями информационной
системы (персоны, факты, документы, публикации и т.п.).
Стандартным
подходом
к
систематизации
информации
является
классификация документов с помощью таксономий. Таксономия – это
предметная классификация, которая группирует термины в виде управляемого
словаря (тезауруса) и упорядочивает их (словари) в виде иерархических
структур. Для описания какой-либо предметной области обычно используется
определенный набор ключевых терминов, каждый из которых обозначает или
описывает какое-либо понятие из данной предметной области. Основу
классификации
составляет
выделение
понятий
(ключевых
терминов),
установление парадигматических отношений (например, типа родитель –
потомок) между ними и сопоставление анализируемого документа выделенным
понятиям.
Самое
неприятное
в
обеспечении
информационных
научно-
образовательных систем заключается в том, что технологии классификации и
систематизации информации, выработанные библиотеками на протяжении
последних ста лет, не работают в узких предметных областях вследствие
тематической близости классифицируемых документов. Например, наиболее
удобные для классификации ресурсов по математике или информатике словари
УДК
7
и MSC2000
8
или тезаурус ЮНЕСКО
9
, как правило, относят все ресурсы,
отобранные для конкретного учебного курса, к одной категории.
Разработка специализированных тезаурусов актуальна сама по себе как
развитие и систематизация понятийного аппарата предметной области (в данном
случае информатики), так и для логического поиска информации в
1
Единое научное информационное пространство Российской Академии Наук
2
Интегрированная распределенная информационная система СО РАН
3
European current research information systems
4
Российская научная электронная библиотека, интегрированная с Российским индексом научного цитирования (РИНЦ)
5
Институт для осуществления комплексной поддержки развития и использования новых информационных технологий и
телекоммуникаций в сфере образования и науки
6
Общероссийский математический портал
7
Универсальная десятичная классификация (УДК), поддерживаемая Международной федерацией по документации (МФД -
Federation Internationale de Documentation - FID) и Консорциумом УДК (UDC Consortium http://www.udcc.org/), русская
версия УДК поддерживается ВИНИТИ РАН.
8
Mathematics Subject Classification (http://www.ams.org/msc/) – Классификатор математических сущностей, поддерживаемый
Американским математическим обществом (AMS).
9
http://databases.unesco.org/thesru/
полнотекстовых базах данных, в Интернете, как средство формирования
поисковой
потребности,
формулирования
поисковых
предписаний
и
адекватного автоматического индексирования, систематизации и классификации
документов.
Основная проблема состоит в высокой трудоемкости и стоимости ручного
составления тезауруса, малой гибкости процесса его построения. В тезаурусах
для ручного индексирования совокупности близких понятий сводятся к одному,
наиболее представительному понятию для уменьшения субъективности
индексирования. В автоматизированных тезаурусах семантически близкие
понятия представлены в виде отдельных единиц, что позволяет использовать при
поиске
синонимические
ряды.
Трудность
построения
тезауруса,
соответствующего
всему
тематическому
многообразию
индексируемой
информации, является основной причиной его непопулярности в современных
информационных системах. Но если рассматривать вопрос об эффективности
информационных систем в определенных областях знаний, то создание и
использование специализированных тезаурусов в таких системах представляет
несомненный интерес и переводит систему совершенно другой качественный
класс.
Дополнительной особенностью при создании информационной системы
поддержки в научно-образовательной деятельности для таких стран как
Казахстан или Российская Федерация является необходимость поддерживать
поисковые и классификационные процессы одновременно на нескольких
языках: для России, в основном, на двух языках (русском и английском), а для
Казахстана – как минимум на трех (русском, английском и казахском) языках.
Следовательно, документы должны индексироваться в трех различных
пространствах, соответствующих трем языкам, между элементами которых
должны
быть
установлены
отношения
эквивалентности,
либо
в
интегрированном пространстве, который задается многоязычным тезаурусом.
Отметим, что элементы признаковых пространств могут быть представлены
в документе в различных словоформах, поэтому важнейшей проблемой является
учет морфологии конкретного языка при индексации документов.
Попытки построения систем классификации документов одновременно на
русском, английском и казахском языках автору неизвестны.
Вышесказанное дает основание утверждать, что создание информационной
системы поддержки в научно-образовательной деятельности, снабженной
тонкими поисковыми механизмами и адаптивными сервисами, призванными
удовлетворить информационные потребности исследователей, использующей
многоязычный тезаурус по информационным технологиям – весьма актуальная
задача, вносящая существенный вклад в развитие данной научной области.
Поставленные задачи имеют значимость в национальном и международном
масштабе, поскольку их решение внесет большой теоретический и практический
вклад в разработку специализированных лексикографических ресурсов для
тюркских языков.
Эффективность
систем
для
поддержки
научно-образовательной
деятельности напрямую зависит от использования специализированных
тезаурусов, поэтому данная работа является актуальной.
|