Мадина аралбаевна самбетбаеваның 6D070300 – Ақпараттық жүйелер мамандығы бойынша философия докторы (PhD) дәрежесін алу үшін дайындаған


АННОТАЦИЯ диссертационной работы



Pdf көрінісі
бет13/37
Дата31.12.2021
өлшемі277,18 Kb.
#22945
түріДиссертация
1   ...   9   10   11   12   13   14   15   16   ...   37
АННОТАЦИЯ

диссертационной работы

САМБЕТБАЕВОЙ МАДИНЫ АРАЛБАЕВНЫ

«Разработка многоязычного тезауруса по информационным технологиям с

учетом морфологии казахского языка для информационной системы

поддержки научно-образовательной деятельности»,

представленную на соискание степени доктора (PhD) по специальности:

6D070300 – Информационные системы

Актуальность  темы  исследования. В  настоящий  момент  значительная

часть  информационных  ресурсов  хотя  и  переведена  в  цифровую  форму,  но

недоступна 

широкому 

кругу 

научной 


общественности, 

а 

ресурсы,



представленные  в  Интернет,  разрознены,  недостаточно  систематизированы  и

структурированы.  Поэтому  в  процессе  научно-образовательной  деятельности

очень  часто  необходима  систематизация  и  классификация  имеющихся

информационных ресурсов.

Развитие  информационных  технологий  в  целом,  а  также  технологий  в

области передачи и обработки информации, в частности, привело к появлению

принципиально  новых  возможностей  организации  практически  всех  этапов

научно-образовательного  процесса,  что,  в  свою  очередь,  обусловило

качественный 

рост 


информационных 

потребностей 

его 

участников.



Современный 

пользователь, 

вооруженный 

компьютером, 

повседневно

использующий  возможности  сети  Интернет,  не  может  быть  удовлетворен

традиционным  режимом  учебного  процесса  и  обычными  форматами  учебных

материалов,  как  то  учебники,  книги  или  плоские  текстовые  файлы.  Учебные

материалы  могут  быть  сегодня  предоставлены  во  множестве  цифровых

форматов, 

они 

должны 


поддерживаться

различными 

поисковыми 

и

классификационными сервисами.



В  процессе научно-образовательной,  деятельности  много  времени  и  сил

отнимает  работа  с  литературными источниками,  разного  рода  материалами  и

документами: поиск необходимых документов, систематизация и классификация

документов  в  соответствии  с  поставленной  задачей.  Для  удовлетворения

информационных  потребностей  современных  пользователей  в  сфере  научно-

образовательного деятельности необходима поддержка тонких функций поиска

и  классификации  информации,  а  также  просмотр  ресурсов  по  категориям

(рубрикам)  и  словарям-классификаторам.  Наиболее  важной  задачей  является

задача  систематизации  ресурсов  (тематическая  классификация),  для  решения

которой необходимо четко определить состав логико-семантических категорий

(фасетов) и ключевых терминов (понятий), покрывающих избранную достаточно

узкую предметную область, интересующую пользователя.

В  настоящее  время  существуют  достаточно  мощные  информационные

системы, так или иначе ориентированные на поддержку научных исследований.

Среди  них  следует  отметить  информационные  системы,  близкие  к



фактографическим, например, ИСИР (ЕНИП) РАН

1

, ИРИС СО РАН



2

, euroCRIS

3

,

и  документальные,  например,  eLibrary



4

,  Информика

5

,  MathNET



6

.  Названные

системы в той или иной степени удовлетворяют информационные потребности

научно-образовательного  сообщества  в информации,  однако  каждая  из  них

имеет функциональные недостатки.

Основными  недостатками  большинства  систем  являются  ограниченность

возможностей  проведения  аналитической  работы  с  ресурсами  и  обеспечения

интеграции ресурсов как внутри каждой из систем, так и с внешними системами

(часто  не  учитываются  международные  стандарты  и  рекомендации,  низкая

интероперабельность).  Это  крайне  неудобно  в  сфере  научно-образовательной

деятельности, одна из главных задач состоит в том, что необходимо установить

связи между конкретными научными фактами (например, «что означает термин

кибернетика»  или  «кто  автор  данной  статьи»)  и  сущностями  информационной

системы (персоны, факты, документы, публикации и т.п.).

Стандартным 

подходом 

к 

систематизации 



информации 

является


классификация  документов  с  помощью  таксономий.  Таксономия – это

предметная  классификация,  которая  группирует  термины  в  виде  управляемого

словаря  (тезауруса)  и  упорядочивает  их  (словари)  в  виде  иерархических

структур.  Для  описания  какой-либо  предметной  области  обычно используется

определенный  набор  ключевых  терминов,  каждый  из  которых  обозначает  или

описывает  какое-либо  понятие  из  данной  предметной  области.  Основу

классификации 

составляет 

выделение 

понятий 


(ключевых 

терминов),

установление  парадигматических  отношений (например,  типа  родитель –

потомок) между ними и сопоставление анализируемого документа выделенным

понятиям.

Самое 


неприятное 

в 

обеспечении 



информационных 

научно-


образовательных  систем  заключается  в  том,  что  технологии  классификации  и

систематизации  информации,  выработанные  библиотеками  на  протяжении

последних  ста  лет,  не  работают  в  узких  предметных  областях  вследствие

тематической  близости  классифицируемых  документов.  Например,  наиболее

удобные для классификации ресурсов по математике или информатике словари

УДК


7

и MSC2000

8

или тезаурус ЮНЕСКО



9

, как правило, относят все ресурсы,

отобранные для конкретного учебного курса, к одной категории.

Разработка  специализированных  тезаурусов  актуальна  сама  по  себе  как

развитие и систематизация понятийного аппарата предметной области (в данном

случае  информатики),  так  и  для  логического  поиска  информации  в

1

Единое научное информационное пространство Российской Академии Наук



2

Интегрированная распределенная информационная система СО РАН

3

European current research information systems



4

Российская научная электронная библиотека, интегрированная с Российским индексом научного цитирования (РИНЦ)

5

Институт для осуществления комплексной поддержки развития и использования новых информационных технологий и



телекоммуникаций в сфере образования и науки

6

Общероссийский математический портал



7

Универсальная десятичная классификация (УДК), поддерживаемая Международной федерацией по документации (МФД -

Federation Internationale de Documentation - FID) и Консорциумом УДК (UDC Consortium http://www.udcc.org/), русская

версия УДК поддерживается ВИНИТИ РАН.

8

Mathematics Subject Classification (http://www.ams.org/msc/) – Классификатор математических сущностей, поддерживаемый



Американским математическим обществом (AMS).

9

http://databases.unesco.org/thesru/




полнотекстовых  базах  данных,  в  Интернете,  как  средство  формирования

поисковой 

потребности, 

формулирования 

поисковых 

предписаний 

и

адекватного автоматического индексирования, систематизации и классификации



документов.

Основная проблема состоит в высокой трудоемкости и стоимости ручного

составления  тезауруса,  малой  гибкости  процесса  его  построения.  В  тезаурусах

для ручного индексирования совокупности близких понятий сводятся к одному,

наиболее  представительному  понятию  для  уменьшения  субъективности

индексирования.  В  автоматизированных  тезаурусах  семантически  близкие

понятия представлены в виде отдельных единиц, что позволяет использовать при

поиске 


синонимические 

ряды. 


Трудность 

построения 

тезауруса,

соответствующего 

всему 

тематическому 



многообразию 

индексируемой

информации,  является  основной  причиной  его  непопулярности  в  современных

информационных  системах.  Но  если  рассматривать  вопрос  об  эффективности

информационных  систем  в  определенных  областях  знаний,  то  создание  и

использование  специализированных  тезаурусов  в  таких  системах представляет

несомненный  интерес  и  переводит  систему  совершенно  другой  качественный

класс.


Дополнительной  особенностью  при создании  информационной  системы

поддержки  в  научно-образовательной  деятельности для  таких  стран  как

Казахстан  или  Российская  Федерация  является  необходимость  поддерживать

поисковые  и  классификационные  процессы  одновременно  на  нескольких

языках: для России, в основном, на двух языках (русском и английском), а для

Казахстана – как минимум на трех (русском, английском и казахском) языках.

Следовательно,  документы  должны  индексироваться  в  трех  различных

пространствах,  соответствующих  трем  языкам,  между  элементами  которых

должны 

быть 


установлены 

отношения 

эквивалентности, 

либо 


в

интегрированном пространстве, который задается многоязычным тезаурусом.

Отметим, что элементы признаковых пространств могут быть представлены

в документе в различных словоформах, поэтому важнейшей проблемой является

учет морфологии конкретного языка при индексации документов.

Попытки построения систем классификации документов одновременно на

русском, английском и казахском языках автору неизвестны.

Вышесказанное дает основание утверждать, что создание информационной

системы  поддержки  в  научно-образовательной  деятельности,  снабженной

тонкими  поисковыми  механизмами  и  адаптивными  сервисами,  призванными

удовлетворить  информационные  потребности  исследователей,  использующей

многоязычный тезаурус по информационным технологиям – весьма актуальная

задача, вносящая существенный вклад в развитие данной научной области.

Поставленные задачи имеют значимость в национальном и международном

масштабе, поскольку их решение внесет большой теоретический и практический

вклад  в  разработку  специализированных  лексикографических  ресурсов  для

тюркских языков.

Эффективность 

систем 

для 


поддержки 

научно-образовательной

деятельности  напрямую  зависит  от  использования  специализированных

тезаурусов, поэтому данная работа является актуальной.






Достарыңызбен бөлісу:
1   ...   9   10   11   12   13   14   15   16   ...   37




©emirsaba.org 2024
әкімшілігінің қараңыз

    Басты бет