Key words: special clothes, ergonomic design, dynamics, statics, dimensional signs, dynamic effect.
УДК 004.8
Г. Жомарткызы, Т.Г. Балова
(Восточно-Казахстанский государственный технический университет им. Д. Серикбаева
Усть-Каменогорск, Республика Казахстан, zhomartkyzyg@gmail.com)
РЕАЛИЗАЦИЯ ТЕХНОЛОГИЧЕСКОГО ПОДХОДА УПРАВЛЕНИЯ
НАУЧНЫМИ ЗНАНИЯМИ ВУЗА
Аннотация. Основной целью данной работы является разработка методов и моделей информационного
обеспечения процессов управления научными знаниями вуза. В качестве основы системы управления
научными знаниями вуза используется методология On-To-Knowledge. Для разработки онтологической
информационной модели и обработки информационных ресурсов используются технологий Text Mining и
Semantic Web. Описаны разработанная информационная модель научных знаний вуза, методы формирования
научных профилей и концепция семантического портала научных знаний вуза.
Ключевые слова: системы управления знаниями, процессы преобразования знаний, интеллектуальный
капитал, методология On-To-Knowledge, семантический портал, метод kNN, MI метод.
Введение
Знание как интеллектуальный капитал постепенно становится одним из важнейших факторов
развития экономики и общества. Для современного высшего учебного заведения как открытой
социально-экономической и самоорганизующейся системы процессы создания, накопления,
использования и распространения знаний становятся ключевыми и обеспечивающими подготовку
конкурентоспособных специалистов.
Большой объем накопленных информационных ресурсов, высокая скорость поступления новой
информации предъявляют всё более высокие требования к современным системам, предназначенным
для информационного обеспечения научных процессов вуза. Источником новых знаний является
интеллектуальный капитал или нематериальные активы вуза. Человеческий и инновационный
капитал непосредственно связан с научными знаниями вуза.
Целью управления знаниями вуза является повышение человеческого и инновационного
капитала для ускорения собственного развития и повышения конкурентоспособности на рынке
образовательных услуг, в проектной, научно-практической и инновационной деятельности. Важность
разработки систем управления знаниями (СУЗ) обусловлена тем, что знания, которые
распространяются, приобретаются и обмениваются, генерируют новые знания. В данной работе
рассматривается технология поддержки управления научными знаниями вуза.
Система управления научными знаниями вуза
Управление знаниями в организации - это систематический процесс идентификации,
использования и передачи информации, знаний, которые люди могут создавать, совершенствовать и
применять. Это процесс, в ходе которого организация генерирует знания, накапливает их и
использует в интересах получения конкурентных преимуществ [1].
В данной работе система управления научными знаниями (СУНЗ) вуза рассматривается как
совокупность информационных, программных, технических средств, а также организационных
решений, направленных на эффективное управление имеющимися интеллектуальными ресурсами
вуза и подготовку специалистов, соответствующих требованиям современности.
Цель создания СУНЗ вуза - формирование уникальной интегрированной интеллектуальной
среды на основе онтологий для повышения конкурентоспособности науки и образования
университета. СУНЗ вуза выступает в качестве технологической составляющей СУЗ вуза, которая
обеспечивает создание, организацию и распространение научных знаний сотрудников вуза. СУНЗ
вуза объединяет вместе интеллектуальные ресурсы, инструменты управления знаниями и процессы
преобразования знаний. Существует следующие подходы по управлению знаниями:
● Техникалыќ єылымдар
ЌазЎТУ хабаршысы №5 2014
37
организационный и технологический [2, 3]. Технологический подход в один ряд с организационными
мерами ставит применение информационных технологий.
Для управления знаниями вуза в качестве основы используется методология On-To-Knowledge
[4], ориентированная на процесс. Методология разработки и сопровождения СУЗ основана на
процессе и мета процессе работы со знаниями (Knowledge Meta Process и Knowledge Process). В
основе мета процесса работы со знаниями (Knowledge Meta Process) лежит разработка онтологии,
состоящая из следующих шагов: изучение осуществимости проекта, начало, уточнение, оценка,
поддержка и эволюция.
Онтология является связующим звеном/(связующим элементом) объектов знаний и
соединительным мостом между различными шагами процессов преобразования знаний (Knowledge
Processes). Разработка онтологии является важным аспектом при сопровождении решения по
управлению знаниями (УЗ-решения). Разработка и развёртывание приложений по управлению
знаниями учитывает требования “Knowledge Process” и рассматривает такие процессы/вопросы как:
- мета процесс работы со знаниями (Knowledge Meta Process).
- инженерию разработки программного обеспечения (разработка и проектирование
программного обеспечения - Software engineering)
- корпоративную культуру организации.
Процесс работы со знаниями (Knowledge Process) нацелен на использование УЗ-решений, т.е.
после того, как приложения по УЗ будут полностью реализованы и внедрены в организации,
выполняется цикл преобразования знаний. Цикл преобразования знаний состоит из следующих
шагов: создание, накопление, поиск и доступ, использование. Цикл преобразования научных знаний
приведен на рисунке 1.
Рис. 1. Цикл преобразования научных знаний
Основные функции управления научными знаниями (УНЗ) вуза согласуются с функциями,
определёнными в [5], и подразделяются на аналитические, интеграционные и создание новых знаний.
К аналитическим функциям УНЗ относятся:
- поиск знания в потоке информации, фильтрация информации;
- идентификация и классификация по определённым критериям существующих знаний,
формирование научного профиля сотрудников и мониторинг развития научных школ вуза.
Интеграционная функция УНЗ обеспечивает:
- внесение классифицированных знаний в корпоративную память и оценка их интеграции с
реализацией образовательных программ;
- извлечение знаний из корпоративной памяти, путём обмена знаниями между
подразделениями, различными уровнями управления, а также обмена экспертными знаниями и
опытом сотрудников;
- обеспечение доступности знаний при принятии управленческих решений, поиске и
генерировании идей, обучении.
Функция создания новых знаний обеспечивает фиксирование явных и неявных знаний в базе
научных знаний вуза. Внедрение СУНЗ вуза или её компонент позволит:
● Технические науки
№5 2014 Вестник КазНТУ
38
- получать нужную информацию в нужном месте в нужном формате своевременно и с
минимальными затратами усилий;
- уменьшить количество ошибок сотрудников и увеличить качество принимаемых решений;
- улучшить коммуникации, снизить информационные потери и искажения;
- стимулировать обмен знаниями, лучшими практиками и наработками.
Разработанная модель технологического подхода управления знаниями на основе выше
указанной методологии приведена на рисунке 2.
Внедрение управления знаниями и связанных с ним процессов разработки и сопровождения
СУЗ в организации, обычно, предполагает работу с неструктурированными информационными
ресурсами. Процесс создания включает в себя генерацию неявных и явных знаний научного
сообщества вуза.
Накопление знаний – это сложный по составу работ процесс в цикле преобразования знаний
[6]. Этап получения знаний включает в себя:
- получение знаний путем анализа документов (Text Mining) и баз данных (Data Mining);
- аннотирование/формирование метаданных;
- извлечение неявных знаний сотрудников;
- структурирование/классификацию;
- формирование организационной памяти, интеграция и хранение знаний.
Рис. 2. Модель технологического подхода к управлению знаниями
Накопление знаний включает в себя: онтологию как концептуальную структуру для описания
ресурсов знаний и совокупность методов для формирования базы научных знаний вуза;
Распределение знаний заключается в предоставлении пользователям возможностей
семантического поиска и навигации. Обмен с неявными знаниями, предназначенный для
коммуникации научного сообщества и формирования новых знаний. Участниками обмена неявными
знаниями могут быть отдельные сотрудники, отдельные научные группы;
Использование знаний предполагает, что доступное знание используется сотрудниками вуза
для выполнения своей работы более результативно и эффективно, вновь созданное знание влияет как
на научную, так и на образовательную деятельность.
Информационная модель научной деятельности вуза
Онтология, выступая общим языком в управлении знаниями, представляет концептуальную
модель предметной области в виде системы понятий, их свойств и отношений. Информационную
модель знаний вуза можно описать как онтологию научной деятельности, которая описывает
основные понятия научной деятельности вуза, такие как организационная структура, субъекты,
объекты научных школ и исследований, информационные ресурсы, разделы наук и пр. [7]. В
онтологии научной деятельности в классе «Научные направления» подклассы соответствуют
● Техникалыќ єылымдар
ЌазЎТУ хабаршысы №5 2014
39
основным научным направлениям вуза. Подклассы состоят из класс, которые соответствуют
рубрикам классификатора областей знаний [ГРНТИ]. Применение онтологий в СУЗ позволяет:
- интегрировать информацию, распределённую по различным хранилищам документов, базам
данных и знаний;
- обобщить и систематизировать имеющуюся информацию, выступив в качестве метамодели;
- использовать автоматизированный логический вывод для улучшения результатов поиска,
получения новых знаний и анализ информации;
- использовать более эффективные механизмы получения, визуализации и поиска знаний.
Компонент «Интеллектуальные ресурсы вуза» в общей структуре СУЗ определяет человеческие и
структурные ресурсы, которым соответствует формализованный человеческий и инновационный
капитал вуза. Источниками ресурсов научных знаний являются: электронная версия научного журнала
вуза, электронная версия материалов конференции, библиографическая база «Ирбис».
Процедура обработки информационных ресурсов вуза и формирования научных профилей.
Этапы обработки информационных ресурсов вуза. Ниже приведены основные этапы
обработки информационных ресурсов вуза с целью формирования научных школ и научных
направлений вуза.
Этап 1 - извлечение терминологических коллокаций. В качестве метода для выявления
коллокации используется метод критерий
2
x
Пирсона [8];
Этап 2 - выбор признаков. В качестве метода для оценки важности терминов, выбран метод
взаимной информации (Mutual Information) [9, 10].
Этап 3 - классификация текстов по научным направлениям, для классификации текстов
используется метод k ближайших соседей (kNN) [9, 10, 11].
Работа с текстовыми файлами корпуса для выполнения статистических расчётов требует
предварительно выполнить следующие действия:
- файлы различного формата (pdf, doc, .docx) в корпусе перевести в txt формат;
- удалить все переносы слов;
- провести лемматизацию (lemmatization) текстов всех файлов корпуса, удалить все знаки
препинания, перевести все заглавные (uppercase) буквы в строчные буквы (lowercase).
Корпус документов для обработки (для обучения классификаторов) собран из статей,
опубликованных в журнале «Физика твёрдого тела» по различным направлениям, учредителями
которого являются: Российская Академия Наук, отделение Общей Физики и Астрономии РАН,
физико-технический институт им. А.Ф.Иоффе РАН [12]. Детальное описание каждого этапа
обработки описаны в следующих разделах.
Извлечение коллокаций и выбор признаков для классификации научных текстов.
Множество терминологических коллокаций, выделяемое на заданной коллекции научных текстов,
характеризует узкую предметную область (темы и подтемы) этой коллекции. Для автоматического
извлечения терминологических коллокаций из научных текстов используется интерфейс свободно
распространяемой Java-библиотеки LingPipe [8]. Массив полученных коллокаций ранжируется в
порядке значимости, где последовательность лексем являются зависимыми. Значимость коллокаций
вычисляется на основе статистики независимости Пирсона. Чем выше значение величины значимости
коллокаций, тем меньше вероятность того, что последовательности лексем являются независимыми.
Основная модификация метода, основанного на статистическом подходе, заключается в
предварительном использовании морфологических шаблонов фильтров [13]. Для документов на
русском языке это морфологические шаблоны фильтров следующего вида:
[сущ.+прил.(р.п.)+сущ.(р.п.)]
[прил.+прил.+сущ.]
[прил.+сущ.+сущ.(р.п.)]
[сущ.+сущ.(р.п.)+сущ.(р.п.)]
[прил.+сущ.]
[прич.+сущ.]
[сущ.+сущ.(р.п.)]
[сущ.+сущ.)]
В соответствии с [13] при описании шаблона используются следующие сокращения: сущ. –
существительное, прил. – прилагательное, р.п. – родительный падеж.
● Технические науки
№5 2014 Вестник КазНТУ
40
Для получения списка доминантных терминов с помощью критерия
2
x
необходимо решить
следующие задачи:
- извлечение коллокаций с вычисленным коэффициентом значимости;
- определение для каждого слова в n-грамме морфологических характеристик;
- удаление стоп-слов и отбор словосочетаний, которые удовлетворяют шаблонам;
- сохранение словосочетаний в таблице базы данных.
Полученные таким образом термины-кандидаты формируют список n-грамм (биграммы,
триграммы). Однословные термины извлекаются на основе комбинации частоты и обратной
документной частоты термина
c
t
Idf
Tf
,
. Вес однословного термина расчитывается по формуле:
)
1
(
log
,
,
t
c
t
df
N
c
t
tf
Idf
Tf
где
c
t
tf ,
– частота термина в коллекции класса c ;
t
df
– количество документов коллекции класса c ,
содержащих термин;
N
- количество документов в коллекции.
Сформированный список терминов с весами
c
t
Idf
Tf
,
ранжируется, с помощью определенного
порогового значения отбирается часть терминов, которые далее записываются в таблицу базы данных.
Для биграммы и триграммы были заданы следуюшие ограничения: минимальная частота
биграммы - 10, минимальная частота триграммы - 15.
Дальнейшим этапом формирования предметного словаря является выбор признаков для
исключения терминов-шумов. Выбор признаков способствует повышению эффективности обучения
классификатора за счет уменьшения размера лексикона и точности классификации. Для каждого
класса c вычисляется мера полезности
)
,
( c
t
A
каждого термина из лексикона и выбирается
N
терминов, имеющих наибольшее значение
)
,
( c
t
A
. Все другие термины отбрасываются и в
классификации не участвуют. Для удаления неинформативных терминов в работе выбран метод
взаимной информаций. Мера взаимной информации оценивает, сколько информации о классе в
теоретико-информационном смысле содержит термин. Вычисляется мера полезности
)
,
(
c
t
MI
k
и
выбирается
k
терминов с наибольшими значениями этой меры.
Результаты применения метода взаимной информации для выбора признаков, полученных на
предыдущем этапе, приведены в таблице 3. В таблице 3 указаны неинформативные слова с высоким
критическим значением
2
x
(такие как: окончательный редакция), а также информативные слова с
более низким значением
2
x
(сверхпроводящий свойство, сверхпроводящий параметр).
Таблица-3. Сопоставление показателей взаимной информации и
2
x
терминов для области
знаний «Физика твёрдого тела»
Термины
Критическое значение
2
x
Значение MI
окончательный редакция
40462,68
0,093
точка зрение
23093,13
0,100
сверхпроводящий гранула
15534,01
1,000
межкристаллитный граница
14328,13
1,000
первый очередь
13659,12
0,212
высокотемпературный
сверхпроводник
11518,91
1,000
сверхпроводящий переход
6566,12
1,000
фазовый превращение
4703,25
1,000
объект исследование
4413,52
0,415
объемный доля
3584,50
0,263
обсуждение результат
3196,66
0,553
настоящий время
3175,12
0,263
тройной сплав
2434,56
1,000
металлический проводимость
2288,77
1,000
указанный выше
2243,87
0,652
аморфный пленка
1910,57
1,000
● Техникалыќ єылымдар
ЌазЎТУ хабаршысы №5 2014
41
Продолжение таблицы-3
максимальный значение
1832,25
0,049
система уравнение
744,95
0,000
сверхпроводящий состояние
665,31
1,000
электронный спектр
460,36
1,000
сверхпроводящий свойство
256,72
1,000
сверхпроводящий параметр
144,78
1,000
Как иллюстрирует таблица 3 некоторые термины с невысокими показателями
2
x
(сверхпроводящий параметр и сверхпроводящий свойство) имеют высокое значение MI. На данном
этапе необходимо выполнить выбор информативных терминов с учетом показателя взаимной
информации MI , которые отбираются в предметный словарь и используются затем для
классификации текста.
Формирования научного профиля на основе классификаций информационных ресурсов
по научным направлениям. Для классификации научных ресурсов используется - классификация.
Задача классификации в машинном обучении - это задача отнесения объекта к одному из заранее
определенных классов на основании его формализованных признаков.
Метод
kNN
(метод k ближайших соседей) – модель векторной классификации, когда –
классификатор
)
(d
j
возвращает либо метку класса
j
c
, либо метку класса
j
c
, т.е.
}
,
{
)
(
j
j
j
c
c
d
, где
d
– тестируемый документ. Параметр k в методе
kNN
часто выбирается на основании опыта или
знаний о решаемой задаче классификации.
В результате обработки научных ресурсов вуза формируется профили документов. Профиль
документа определяется как вектор всех его релевантных тем онтологии [14]:
)
3
(
)
,...,
(
)
(
1
d
c
d
R
R
d
PD
где:
d
c
R
- релевантные темы документа
d
. Соответственно научный профиль сотрудника
определяется как профиль всех его публикаций:
)
4
(
)
,...,
(
)
(
1
da
i
da
R
R
a
PD
где,
da
i
R
- все документы автора. Завершающим шагом классификации текстов является
формирование семантического профиля документа посредством создания индивидов класса
«Информационные ресурсы» онтологии научной деятельности.
Классификатор написан на языке Java, для обработки текста дополнительно используется набор
инструментов таких как: LingPipe и Apache Lucene (свободные Java библиотеки для обработки текста
и высокоскоростного полнотекстового поиска).
В качестве лемматизатора используется библиотека russianmorphology, которая расширяет
функционал Apache Lucene. Результатами классификации являются ранжированные классы k
ближайших соседей, параметр k равен 5
Достарыңызбен бөлісу: |