Мадина аралбаевна самбетбаеваның 6D070300 – Ақпараттық жүйелер мамандығы бойынша философия докторы (PhD) дәрежесін алу үшін дайындаған

АННОТАЦИЯ диссертационной работы

жүктеу/скачать 277,18 Kb.

Pdf көрінісі

бет	13/37
Дата	31.12.2021
өлшемі	277,18 Kb.
	#22945
түрі	Диссертация

1 ... 9 10 11 12 13 14 15 16 ... 37

Байланысты:
sam-ann

АННОТАЦИЯ

диссертационной работы

САМБЕТБАЕВОЙ МАДИНЫ АРАЛБАЕВНЫ

«Разработка многоязычного тезауруса по информационным технологиям с

учетом морфологии казахского языка для информационной системы

поддержки научно-образовательной деятельности»,

представленную на соискание степени доктора (PhD) по специальности:

6D070300 – Информационные системы

Актуальность темы исследования. В настоящий момент значительная

часть информационных ресурсов хотя и переведена в цифровую форму, но

недоступна

широкому

кругу

научной

общественности,

ресурсы,

представленные в Интернет, разрознены, недостаточно систематизированы и

структурированы. Поэтому в процессе научно-образовательной деятельности

очень часто необходима систематизация и классификация имеющихся

информационных ресурсов.

Развитие информационных технологий в целом, а также технологий в

области передачи и обработки информации, в частности, привело к появлению

принципиально новых возможностей организации практически всех этапов

научно-образовательного процесса, что, в свою очередь, обусловило

качественный

рост

информационных

потребностей

его

участников.

Современный

пользователь,

вооруженный

компьютером,

повседневно

использующий возможности сети Интернет, не может быть удовлетворен

традиционным режимом учебного процесса и обычными форматами учебных

материалов, как то учебники, книги или плоские текстовые файлы. Учебные

материалы могут быть сегодня предоставлены во множестве цифровых

форматов,

они

должны

поддерживаться

различными

поисковыми

классификационными сервисами.

В процессе научно-образовательной, деятельности много времени и сил

отнимает работа с литературными источниками, разного рода материалами и

документами: поиск необходимых документов, систематизация и классификация

документов в соответствии с поставленной задачей. Для удовлетворения

информационных потребностей современных пользователей в сфере научно-

образовательного деятельности необходима поддержка тонких функций поиска

и классификации информации, а также просмотр ресурсов по категориям

(рубрикам) и словарям-классификаторам. Наиболее важной задачей является

задача систематизации ресурсов (тематическая классификация), для решения

которой необходимо четко определить состав логико-семантических категорий

(фасетов) и ключевых терминов (понятий), покрывающих избранную достаточно

узкую предметную область, интересующую пользователя.

В настоящее время существуют достаточно мощные информационные

системы, так или иначе ориентированные на поддержку научных исследований.

Среди них следует отметить информационные системы, близкие к

фактографическим, например, ИСИР (ЕНИП) РАН

, ИРИС СО РАН

, euroCRIS

,

и документальные, например, eLibrary

, Информика

, MathNET

. Названные

системы в той или иной степени удовлетворяют информационные потребности

научно-образовательного сообщества в информации, однако каждая из них

имеет функциональные недостатки.

Основными недостатками большинства систем являются ограниченность

возможностей проведения аналитической работы с ресурсами и обеспечения

интеграции ресурсов как внутри каждой из систем, так и с внешними системами

(часто не учитываются международные стандарты и рекомендации, низкая

интероперабельность). Это крайне неудобно в сфере научно-образовательной

деятельности, одна из главных задач состоит в том, что необходимо установить

связи между конкретными научными фактами (например, «что означает термин

кибернетика» или «кто автор данной статьи») и сущностями информационной

системы (персоны, факты, документы, публикации и т.п.).

Стандартным

подходом

систематизации

информации

является

классификация документов с помощью таксономий. Таксономия – это

предметная классификация, которая группирует термины в виде управляемого

словаря (тезауруса) и упорядочивает их (словари) в виде иерархических

структур. Для описания какой-либо предметной области обычно используется

определенный набор ключевых терминов, каждый из которых обозначает или

описывает какое-либо понятие из данной предметной области. Основу

классификации

составляет

выделение

понятий

(ключевых

терминов),

установление парадигматических отношений (например, типа родитель –

потомок) между ними и сопоставление анализируемого документа выделенным

понятиям.

Самое

неприятное

обеспечении

информационных

научно-

образовательных систем заключается в том, что технологии классификации и

систематизации информации, выработанные библиотеками на протяжении

последних ста лет, не работают в узких предметных областях вследствие

тематической близости классифицируемых документов. Например, наиболее

удобные для классификации ресурсов по математике или информатике словари

УДК

и MSC2000

или тезаурус ЮНЕСКО

, как правило, относят все ресурсы,

отобранные для конкретного учебного курса, к одной категории.

Разработка специализированных тезаурусов актуальна сама по себе как

развитие и систематизация понятийного аппарата предметной области (в данном

случае информатики), так и для логического поиска информации в

Единое научное информационное пространство Российской Академии Наук

Интегрированная распределенная информационная система СО РАН

European current research information systems

Российская научная электронная библиотека, интегрированная с Российским индексом научного цитирования (РИНЦ)

Институт для осуществления комплексной поддержки развития и использования новых информационных технологий и

телекоммуникаций в сфере образования и науки

Общероссийский математический портал

Универсальная десятичная классификация (УДК), поддерживаемая Международной федерацией по документации (МФД -

Federation Internationale de Documentation - FID) и Консорциумом УДК (UDC Consortium http://www.udcc.org/), русская

версия УДК поддерживается ВИНИТИ РАН.

Mathematics Subject Classification (http://www.ams.org/msc/) – Классификатор математических сущностей, поддерживаемый

Американским математическим обществом (AMS).

http://databases.unesco.org/thesru/

полнотекстовых базах данных, в Интернете, как средство формирования

поисковой

потребности,

формулирования

поисковых

предписаний

адекватного автоматического индексирования, систематизации и классификации

документов.

Основная проблема состоит в высокой трудоемкости и стоимости ручного

составления тезауруса, малой гибкости процесса его построения. В тезаурусах

для ручного индексирования совокупности близких понятий сводятся к одному,

наиболее представительному понятию для уменьшения субъективности

индексирования. В автоматизированных тезаурусах семантически близкие

понятия представлены в виде отдельных единиц, что позволяет использовать при

поиске

синонимические

ряды.

Трудность

построения

тезауруса,

соответствующего

всему

тематическому

многообразию

индексируемой

информации, является основной причиной его непопулярности в современных

информационных системах. Но если рассматривать вопрос об эффективности

информационных систем в определенных областях знаний, то создание и

использование специализированных тезаурусов в таких системах представляет

несомненный интерес и переводит систему совершенно другой качественный

класс.

Дополнительной особенностью при создании информационной системы

поддержки в научно-образовательной деятельности для таких стран как

Казахстан или Российская Федерация является необходимость поддерживать

поисковые и классификационные процессы одновременно на нескольких

языках: для России, в основном, на двух языках (русском и английском), а для

Казахстана – как минимум на трех (русском, английском и казахском) языках.

Следовательно, документы должны индексироваться в трех различных

пространствах, соответствующих трем языкам, между элементами которых

должны

быть

установлены

отношения

эквивалентности,

либо

интегрированном пространстве, который задается многоязычным тезаурусом.

Отметим, что элементы признаковых пространств могут быть представлены

в документе в различных словоформах, поэтому важнейшей проблемой является

учет морфологии конкретного языка при индексации документов.

Попытки построения систем классификации документов одновременно на

русском, английском и казахском языках автору неизвестны.

Вышесказанное дает основание утверждать, что создание информационной

системы поддержки в научно-образовательной деятельности, снабженной

тонкими поисковыми механизмами и адаптивными сервисами, призванными

удовлетворить информационные потребности исследователей, использующей

многоязычный тезаурус по информационным технологиям – весьма актуальная

задача, вносящая существенный вклад в развитие данной научной области.

Поставленные задачи имеют значимость в национальном и международном

масштабе, поскольку их решение внесет большой теоретический и практический

вклад в разработку специализированных лексикографических ресурсов для

тюркских языков.

Эффективность

систем

для

поддержки

научно-образовательной

деятельности напрямую зависит от использования специализированных

тезаурусов, поэтому данная работа является актуальной.

жүктеу/скачать 277,18 Kb.

Достарыңызбен бөлісу:

1 ... 9 10 11 12 13 14 15 16 ... 37