Портал №1 по управлению цифровыми
и информационными технологиями

Бесплатная экспертная база знаний по управлению ИТ

 
Среднее время наработки на отказ
 
Метрика того, как часто происходит сбой в работе услуги или конфигурационной единицы
 
Синонимы
MTBF
Answer
Оригинальный английский термин
mean time between failures, MTBF
Answer
Подробности
Среднее время наработки на отказ (MTBF) используется для количественной оценки надёжности услуги или конфигурационной единицы в эксплуатации. По смыслу это показатель «как часто ломается» в среднем: чем выше MTBF, тем реже происходят сбои. В управлении услугами MTBF применяют для анализа трендов доступности и надёжности, сравнения альтернативных архитектур, обоснования инвестиций в модернизацию, а также для постановки ожиданий к поставщикам и внутренним командам поддержки. На практике MTBF считают по данным мониторинга и истории инцидентов, сопоставляя моменты отказов и период нормальной работы между ними; важно договориться, что именно считается отказом и для какого уровня — для услуги целиком, для конкретной конфигурационной единицы, или для компонента в составе сервисной архитектуры. Термин не описывает скорость восстановления и не заменяет метрики, отражающие восстановление и устранение последствий; он про частоту отказов, а не про время ремонта, длительность простоя или качество обработки инцидентов.
Answer
Нюансы
Частая ошибка — воспринимать среднее время наработки на отказ как «гарантию», что отказ произойдёт ровно через это время. Это статистическая метрика, и реальное распределение отказов может быть неравномерным: после изменения, релиза или развёртывания частота сбоев может резко вырасти, даже если долгосрочный MTBF выглядит приемлемо. Также MTBF регулярно путают со средним временем восстановления услуги (MTRS): MTBF отвечает на вопрос «как часто ломается», а MTRS — «как быстро восстанавливаем». Ещё один подводный камень — смешивание уровней измерения: если считать MTBF для услуги, но фиксировать отказы на уровне конфигурационных единиц без учёта избыточности, можно получить завышенную частоту «отказов», которые фактически не повлияли на потребление услуги. Наконец, некорректные определения отказа и неполные данные мониторинга приводят к несопоставимым значениям: кратковременные деградации, плановые операции и отключения из-за катастрофы должны быть заранее классифицированы, иначе метрика будет искажать выводы и провоцировать неверные управленческие решения.
Answer
Примеры
  • MTBF для ИТ-услуги «Корпоративная почта» рассчитывается по числу отказов, при которых пользователи не могли отправлять или получать письма, за квартал
  • MTBF для конфигурационной единицы «маршрутизатор филиала» оценивается по истории событий и инцидентов, связанных с потерей связи
  • MTBF для кластера базы данных считается по отказам, приводящим к недоступности записи транзакций, с учётом переключения на резервный узел
  • MTBF для сервиса CI/CD в рабочей среде измеряется по числу падений пайплайна, которые блокировали развёртывание релизов
Courses
Рекомендуемые продукты по этой теме
 
 
Что такое среднее время наработки на отказ в ITIL и ITSM? Смотрите в глоссарии по управлению ИТ, входящим в бесплатную экспертную базу знаний по управлению ИТ от компании Cleverics.