Портал №1 по управлению цифровыми
и информационными технологиями

Бесплатная экспертная база знаний по управлению ИТ

 
Реактивный мониторинг
 
Мониторинг, который предпринимает действия в ответ на событие. Например, запуск пакетного задания после завершения предыдущего задания или регистрация инцидента при возникновении ошибки.
Answer
Оригинальный английский термин
reactive monitoring
Answer
Подробности
Реактивный мониторинг — это подход, при котором мониторинг не только обнаруживает событие, но и инициирует заранее определённое действие в ответ на него. В ITSM это чаще всего связано с практикой управления мониторингом и событиями и тесно интегрируется с сервис-деском и командами поддержки. Типовые реакции включают создание записи об инциденте, запуск автоматизированного восстановления, переключение на резервный компонент, выполнение скрипта диагностики или уведомление дежурной смены. Ценность реактивного мониторинга в том, что он сокращает время обнаружения и начала реакции, снижает ручную нагрузку и обеспечивает повторяемость действий по стандартным сценариям. На практике он применяется в рабочих средах для критичных ИТ-услуг, где важно быстро среагировать на сбой или деградацию, а также в операционных процессах, где следующий шаг допустимо автоматически запускать по факту завершения предыдущего. При этом реактивный мониторинг не охватывает задачи долгосрочного анализа трендов и прогнозирования, такие как планирование мощностей, и не заменяет проектирование устойчивости услуги и улучшение качества на уровне причины, что относится к управлению проблемами.
Answer
Нюансы
Частая ошибка — трактовать реактивный мониторинг как «пожарное» реагирование без правил. В зрелой организации реакция должна быть формализована: какие события считаются значимыми, какие действия допустимы автоматически, а где требуется эскалация и участие человека. Реактивный мониторинг также путают с мониторингом, который лишь собирает метрики и строит дашборды: ключевой признак здесь — выполнение действия в ответ на событие. Ещё одна ловушка — автоматически регистрировать инцидент на каждую ошибку, что приводит к «шторму» инцидентов и перегрузке сервис-деска; часто нужны корреляция событий, подавление повторов, корректные пороги и группировка по КЕ/ИТ-услуге. Следует помнить, что не каждое событие означает сбой: часть событий информативны и должны приводить только к уведомлению или записи, а не к инциденту. Наконец, автоматические действия могут влиять на конфигурацию и стабильность: запуск скриптов «лечения» без контроля версий и без согласованных процедур может усугубить ситуацию или скрыть первопричину, усложнив управление проблемами.
Answer
Примеры
  • После получения события о завершении ночного ETL автоматически запускается следующее пакетное задание
  • При возникновении события «ошибка записи в журнал БД» автоматически регистрируется инцидент в сервис-деске и отправляется уведомление команде поддержки
  • При событии «недоступен узел кластера» автоматически выполняется перевод трафика на оставшиеся узлы и создаётся инцидент
  • При событии «закончено место на файловой системе ниже порога» автоматически запускается скрипт очистки временных файлов и создаётся запись для последующей проверки
  • При событии «неудачная транзакция авторизации выше порога» автоматически повышается уровень логирования и отправляется предупреждение дежурному
Courses
Рекомендуемые продукты по этой теме
 
 
Что такое реактивный мониторинг в ITIL и ITSM? Смотрите в глоссарии по управлению ИТ, входящим в бесплатную экспертную базу знаний по управлению ИТ от компании Cleverics.