Портал №1 по управлению цифровыми
и информационными технологиями

Бесплатная экспертная база знаний по управлению ИТ

 
Анализ сбоев услуги
 
Деятельность, которая выявляет глубинные причины одного или нескольких прерываний ИТ-услуги. SFA выявляет возможности улучшить процессы и инструменты поставщика услуги, а не только ИТ-инфраструктуру. SFA является ограниченной по времени, похожей на проект деятельностью, а не непрерывным процессом анализа.
Answer
Оригинальный английский термин
service failure analysis
Answer
Подробности
Анализ сбоев услуги — это целенаправленная, ограниченная по времени работа, проводимая после одного или нескольких серьёзных прерываний ИТ-услуги, чтобы понять, почему сбой произошёл и что нужно изменить, чтобы он не повторялся. В отличие от подхода «починили и забыли», анализ рассматривает услугу целиком: как она проектируется, как выполняется предоставление и поддержка, как устроены процедуры, как используются инструменты мониторинга и какие решения принимаются в рамках управления изменениями. В практическом применении анализ сбоев услуги часто инициируют после крупного инцидента или серии повторяющихся инцидентов, когда требуется быстро собрать факты, выявить системные слабые места и согласовать улучшения с владельцем услуги и командами поддержки. Результатом обычно становятся конкретные инициативы по совершенствованию: корректировки моделей изменения, доработки автоматизации, уточнение ролей, улучшение измерения и отчётности, повышение наблюдаемости услуги. Вне области применения анализа сбоев услуги находится оперативное восстановление услуги и обработка пользовательских обращений в момент инцидента, а также бесконечный, постоянный анализ «вообще всего» без временных рамок и чётко определённого результата.
Answer
Нюансы
Частая ошибка — считать анализ сбоев услуги синонимом управления проблемами. Управление проблемами — это практика, которая может работать непрерывно и охватывать широкий портфель проблем, включая известные ошибки и обходные решения; анализ сбоев услуги, напротив, обычно запускают как отдельную, ограниченную по времени инициативу вокруг конкретных прерываний ИТ-услуги. Его также путают с «разбором полётов» после инцидента: разбор может закончиться фиксацией хронологии, а анализ сбоев услуги должен выявлять возможности улучшить процессы и инструменты поставщика услуги, а не ограничиваться технической причиной в ИТ-инфраструктуре. Ещё одна ловушка — чрезмерно узкий фокус на «виноватой» конфигурационной единице, игнорируя, например, неудачную модель изменения, недостаточную валидацию и тестирование или слабый мониторинг. Важно отделять выводы от предположений: опираться на факты из записей об инцидентах, данных мониторинга и событий, а также на информацию из CMDB, если она используется. Наконец, анализ сбоев услуги часто проваливается из-за отсутствия владельца улучшений: без привязки к постоянному совершенствованию результаты превращаются в отчёт, который не меняет ни процесс, ни инструменты.
Answer
Примеры
  • После двух прерываний ИТ-услуги интернет-банка за месяц проводится анализ сбоев услуги и выясняется, что первопричина не в кластере, а в процедуре экстренного изменения и отсутствии проверок в тестовой среде
  • После крупного инцидента с падением корпоративной почты анализ сбоев услуги выявляет недостатки мониторинга и настройки порогов событий, из-за чего команда поддержки поздно получила сигнал о деградации
  • Серия прерываний ИТ-услуги VPN для удалённых сотрудников приводит к анализу сбоев услуги, который показывает, что проблема системная: неактуальная документация, неоднозначная рабочая инструкция и ошибки в маршрутизации после стандартного изменения
  • После сбоя в цепочке непрерывной интеграции и непрерывного развёртывания анализ сбоев услуги выявляет пробелы в управлении релизами и валидации и тестировании, из-за чего дефект попал в рабочую среду
  • После нестабильности ИТ-услуги CRM анализ сбоев услуги показывает, что корень в процессе управления мощностями и производительностью: неверные допущения в планировании мощностей и отсутствие регулярного пересмотра метрик
Courses
Рекомендуемые продукты по этой теме
 
 
Что такое анализ сбоев услуги в ITIL и ITSM? Смотрите в глоссарии по управлению ИТ, входящим в бесплатную экспертную базу знаний по управлению ИТ от компании Cleverics.