Портал №1 по управлению цифровыми
и информационными технологиями

Бесплатная экспертная база знаний по управлению ИТ

 
Анализ корневых причин
 
Деятельность, которая выявляет корневую причину инцидента или проблемы. RCA обычно концентрируется на сбоях ИТ-инфраструктуры.
Answer
Оригинальный английский термин
root cause analysis, RCA
Answer
Подробности
Анализ корневых причин — это дисциплинированная деятельность, направленная на установление первопричины, из-за которой возник инцидент или проявилась проблема, а не только на устранение симптомов. В ITSM он применяется, когда организации важно не просто восстановить услугу, а предотвратить повторение, снизить риск и затраты, а также улучшить надёжность и доступность. На практике анализ корневых причин часто запускается после повторяющихся инцидентов, крупных инцидентов или при наличии устойчивого негативного тренда по метрикам, и выполняется совместно командами поддержки, владельцем услуги и специалистами по ИТ-инфраструктуре. Результатом обычно становится подтверждённая причина, корректирующие действия и изменения в эксплуатации, конфигурации, мониторинге или процессах работы, которые устраняют источник дефекта. Важно понимать границы термина: анализ корневых причин не является самим исправлением, не заменяет управление инцидентами и не сводится к поиску виновных; также он не предназначен для обоснования стратегических решений о трансформации, если отсутствует связь с конкретными инцидентами/проблемами и проверяемыми фактами.
Answer
Нюансы
Распространённая ошибка — считать, что анализ корневых причин обязателен для каждого инцидента. В реальной практике глубина RCA определяется воздействием и риском: для массовых или повторяющихся случаев он оправдан, а для единичных низкоприоритетных инцидентов может быть избыточен. Анализ корневых причин также часто путают с устранением инцидента: восстановление услуги может быть выполнено с помощью обходного решения, но корневая причина при этом остаётся и требует отдельной работы, обычно в рамках управления проблемами. Ещё одно типичное заблуждение — преждевременно фиксировать «корневую причину» как человеческую ошибку или нарушение процедуры; корректный RCA проверяет гипотезы данными и стремится выявить системные причины в ИТ-инфраструктуре, конфигурации, проектировании, мониторинге или контролях, включая условия, при которых ошибка стала возможной. Опасна и чрезмерная детализация: попытка «докопаться до самой последней причины» может увести в философские рассуждения вместо практических действий; хороший RCA завершается причиной, для которой существует реалистичное и экономически оправданное корректирующее действие. Наконец, важно не подменять RCA поиском единственной причины: иногда инцидент является результатом сочетания нескольких факторов, и тогда корректнее фиксировать набор причин и условий.
Answer
Примеры
  • Повторяющиеся перезагрузки узла виртуализации: RCA выявил деградацию контроллера хранения в ИТ-инфраструктуре и некорректные пороги мониторинга, из-за чего предупреждения не эскалировались вовремя
  • Периодические ошибки аутентификации пользователей: RCA установил рассинхронизацию времени на серверах из-за неверной конфигурации NTP, приводившую к сбоям проверки токенов
  • Инцидент с недоступностью веб-услуги после релиза: RCA показал утечку соединений из-за дефекта в конфигурации пула и отсутствия теста на устойчивость в рабочей среде
  • Серии проблем с производительностью базы данных: RCA выявил сочетание нехватки ресурсов, неудачного изменения индексов и отсутствия контроля мощности на пиковых окнах нагрузки
Courses
Рекомендуемые продукты по этой теме
 
 
Что такое анализ корневых причин в ITIL и ITSM? Смотрите в глоссарии по управлению ИТ, входящим в бесплатную экспертную базу знаний по управлению ИТ от компании Cleverics.