№ 3–2021 Вестник СПб ун-та ГПС МЧС России http://vestnik.igps.ru
188
Труды молодых ученых
Рис. 6.
Пример графа конфигурации ГРИС
При этом часть связей – иерархическая, к примеру: сервер системы виртуализации
обеспечивает работу ряда виртуальных серверов, а одно устройство маршрутизации запросов
обеспечивает связь группы серверов с остальными, размещенными в
локальной сети. При
выходе из строя такого «родительского» элемента также выйдут из строя и его «дочерние»
элементы, в результате чего будут зафиксированы превышения пороговых значений на ряде
серверов. Однако при таком сбое процедура, которая позволит восстановить
работоспособность ГРИС, будет связана с воздействием на «родительский» элемент,
а воздействие на «дочерние» элементы эффекта иметь не будет. Таким образом, для выбора
точки приложения процедуры восстановления целесообразным является прагматический
анализ событий системы мониторинга на иерархическую связь серверов, с которых эти
события пришли, между собой.
Таким образом, имея в каждый момент набор событий
, из каждого из них
может быть извлечена информация о сервере
s, с которого оно пришло:
. А для
каждого сервера определено множество
S его «родительских» серверов
,
являющееся подмножеством всех серверов
C из
конфигурации, хранящейся в CMDB.
Пересечение
P всех множеств
и будет являться искомым общим «родительским» узлом:
∩
.
Гипотетически, это поможет оператору службы эксплуатации быстрее выявить «точку
отказа» и применить соответствующую процедуру устранения сбоя.
В соответствии с практиками эксплуатации ГРИС, описанными в вышеупомянутых
стандартах (ITIL, SRE), служба эксплуатации ведет учет всех процедур восстановления
ГРИС в базе данных известных ошибок (Known Error DataBase, KEDB). Соответственно, при
возникновении сообщения о сбое целесообразным является анализ этого сообщения
на соответствие одной или нескольким процедурам восстановления.
Производя анализ данных о состоянии серверов ГРИС, в случае превышения
порогового значения система мониторинга «обогащает» исходное сообщение текстовым
сообщением, предназначенным для восприятия и обработки оператором. Такими
сообщениями могут быть, например, следующие:
BGP connection with 206.81.80.248: is not established.
Free /mnt/rclogbackup-sjc51 space < 10%
Volume Usage (vol/vserver grouped by node/aggregate)-mss_dir1_6_rp/iad41-c01-efs07-svm01
SpacePercentUsed.
№ 3–2021 Вестник СПб ун-та ГПС МЧС России http://vestnik.igps.ru
189
Труды молодых ученых
Эти сообщения могут содержать информацию о
конкретном сервере и конкретном
значении метрики; однако составляются системой мониторинга по определенному шаблону.
Операция на соответствие сообщения шаблону может быть произведена в простейшем
случае с помощью регулярных выражений [9], таких как:
Free CMS memory (heap|is) .*
Network partitioning is detected on .*
.*Volume (Usage|.apacity) .*lg_st01.*
В результате решение оператора упрощается с необходимости выбора процедуры
восстановления из многих до согласия/несогласия с предложенной процедурой.
Потенциально, в
ряде случаев, применение процедуры восстановления может быть
автоматизировано.
Резюмируем предложенное выше в виде пошаговой методики прагматического
анализа информации состояние «облачного» сервиса.
Шаг 1. Анализ событий системы мониторинга на связь с недавними изменениями
в ГРИС посредством сопоставления списка серверов, на которых производились изменения,
с сервером, с которого пришло событие.
Шаг 2.
Анализ событий системы мониторинга на принадлежность к одному из сбоев,
зарегистрированных в системе управления сбоями, посредством сравнения списка серверов,
отнесенных к сбою, с сервером, с которого пришло событие.
Шаг 3. Анализ событий системы мониторинга на взаимную иерархическую связь. Для
этого список серверов, с которых пришли активные в данный момент события, проверяется
на наличие общего «родительского» элемента в соответствии с графом конфигурации ГРИС,
хранящимся в CMDB.
Шаг 4. Анализ событий системы мониторинга на принадлежность к одному или
нескольким процедурам восстановления ГРИС, описанным в KEDB.
Достарыңызбен бөлісу: