Методика прагматического анализа информации состояния «облачного» сервиса в интересах организации интерфейса службы

жүктеу/скачать 1,48 Mb.

Pdf көрінісі

бет	2/8
Дата	10.01.2023
өлшемі	1,48 Mb.
	#60825

1 2 3 4 5 6 7 8

Байланысты:
metodika-pragmaticheskogo-analiza-informatsii-sostoyaniya-oblachnogo-servisa-v-interesah-organizatsii-interfeysa-sluzhby-ekspluatatsii-globalno-raspredelennoy-informatsionnoy-sistemy

Архитектура системы мониторинга ГРИС

Введение
В настоящее время широкое распространение получили «облачные» информационные
услуги (или сервисы), такие как телефония, видеосвязь, услуги мгновенного обмена
сообщениями, хранения данных и прочие. Согласно исследованию Джеймса Антони
из FinancesOnline [1] среднее количество различных «облачных» сервисов, используемых
американскими компаниями, выросло на 30 % в 2019 г. по отношению к 2018 г.
и достигло 137. Согласно прогнозам аналитического агентства Gartner [2] рынок «облачных»
услуг вырастет на 23,1 % в 2021 г. по отношению к 2020 г. и составит
332,3 млрд долл. (270 млрд долл. в 2020 г.).
Для того чтобы а) иметь возможность обслуживать пользователей по всему миру;
б) обрабатывать запросы большого числа пользователей; в) обеспечивать высокую
надежность за счет резервирования вычислительных мощностей, поставщики «облачных»

№ 3–2021 Вестник СПб ун-та ГПС МЧС России http://vestnik.igps.ru
184
Труды молодых ученых
услуг задействуют большое количество вычислительных машин (серверов), размещенных
в центрах обработки данных (ЦОД) по всему миру. Так компания RingCentral, являющаяся
лидером телекоммуникационных услуг на рынках Северной Америки, Европы и Азиатско-
Тихоокеанского региона, использует для организации своего «облачного» сервиса более
20 000 серверов, размещенных в 12 ЦОД по всему миру.
Эти информационно-вычислительные
мощности
объединены
в глобально
распределенную информационную систему (ГРИС), к которой предъявляются высокие
требования по надежности для обеспечения необходимого уровня предоставления услуг
(Service Level Objective, SLO) [3]. Значением SLO для услуг компании RingCentral является
обработка 99,999 % запросов пользователей, что эквивалентно ≤ 5 мин в год, в течение
которых пользователи получают отказ в обслуживании.
Как правило, отказ в обслуживании не является запланированным событием,
а представляет из себя сбой в работе ГРИС, который, для достижения SLO, должен быть
максимально быстро устранен службой эксплуатации. Очевидно, для того чтобы устранить
сбой, необходимо первым делом получить информацию о том, что он произошел; такую
информацию предоставляет система мониторинга состояния ГРИС.
Система мониторинга состояния ГРИС, такая как Zabbix [4], также представляет
собой распределенную систему. Она состоит из базы данных, центрального сервера, прокси-
серверов и агентов мониторинга – приложений, запущенных на удаленных серверах
и периодически собирающих информацию об их состоянии; агенты отправляют собранную
информацию на центральный узел системы мониторинга. В случае когда запуск агента
на удаленном сервере невозможен, например, это касается сетевого оборудования, система
мониторинга может самостоятельно опрашивать удаленные сервера, используя
их программные интерфейсы (API, Application Programming Interface) (рис. 1).
Рис. 1. Архитектура системы мониторинга ГРИС

Центральный сервер системы мониторинга производит прагматический анализ
полученной информации с целью выявления ее полезности для обнаружения сбоя в работе
ГРИС. Информация считается полезной в случае, когда значение измеряемого параметра
превышает заранее заданное пороговое значение (например, оперативная память на сервере
занята более чем на 90 %) либо пороговое значение будет превышено в ближайшее время
(прогностический анализ) [5]. В предельном случае отклонением от порогового значения

№ 3–2021 Вестник СПб ун-та ГПС МЧС России http://vestnik.igps.ru
185
Труды молодых ученых
будет считаться любое значение, отличающееся от целевого. Сообщение, содержащее такую
информацию, называется событием системы мониторинга.
Как уже было упомянуто выше, обнаружение сбоя – это лишь первый шаг на пути
к конечной цели, а именно, к максимально быстрому его устранению. В случае
же масштабного сбоя, в результате которого выходят из строя сегменты ГРИС, состоящие
из нескольких тысяч серверов, поток информации о превышении пороговых значений
на каждом из них будет превосходить возможности восприятия и обработки данных
инженера службы эксплуатации для последующего принятия быстрого решения о выборе
процедуры восстановления работоспособности ГРИС. Таким образом, данный поток
информации не будет являться достаточно полезным.
В данной статье предложена методика прагматического анализа информации
о состоянии ГРИС с целью не только обнаружения сбоя, но и предоставления информации
о текущем состоянии системы инженеру службы эксплуатации таким образом и в таком
виде, чтобы он мог быстро выбрать процедуру восстановления, которая приведет
к устранению сбоя.

жүктеу/скачать 1,48 Mb.

Достарыңызбен бөлісу:

1 2 3 4 5 6 7 8