В редакцию портала поступил вопрос:
Добрый день, в процессе заключения SLA есть необходимость согласования подхода к корректному учету простоев ИТ-услуги (и даже сервисной операции), а именно: как справедливо определить, когда услуга простаивает полностью, а когда — частично, и как это учесть в расчете показателя доступности.
Например, части пользователей (или клиентов) функционал (=ИТ-услуга) доступен, а части — нет. При этом нет уверенности, что все затронутые сбоем потребители сообщили о недоступности, а систем мониторинга, которые точно бы определили число пострадавших, нет.
Если ориентироваться на то, что простоем считать только случаи, когда инфраструктура (сервера, БД) или прикладная часть отказывают полностью, то такие ситуации происходят крайне редко, и мы, не учитывая прочие сбои, которые случаются значительно чаще, получим некорректное представление о доступности ИТ-услуг.
Подскажите, пожалуйста, есть ли какие-то общепринятые подходы к учету полного и частичного простоя услуг? Насколько корректно будет ввести какой-то показатель количества затронутых потребителей в единицу времени, при достижении которого мы будем считать, что услуга недоступна полностью для всех (даже тех, кто не обратился)?
Приветствую. Поделюсь своим опытом.
В зависимости от масштаба системы (с учётом отсутствия адекватного мониторинга) – расчёт может быть простым:
– более N (кол-во) пользователей сообщили о сбое в течении ЧЧ (15,30,60 минут…)
– более N (кол-во) пользователей с X (кол-во площадок) площадок сообщили о возникшем сбое в течении ЧЧ (15,30,60 минут…)
Такой расчёт можно легко автоматизировать в системе (с учётом что услуги корректно выбираются) что бы она дальше сама мониторила и уведомляла об этом (и\или поднимала приоритет автоматически).
Удачи.
Всё что больше – считать КРИТОМ и полной недоступностью.