Портал №1 по управлению цифровыми
и информационными технологиями

Бесплатная экспертная база знаний по управлению ИТ

 
Практика управления мониторингом и событиями
 
Практика систематического наблюдения за услугами и компонентами услуг, а также записи и формирования отчётности по выбранным изменениям состояния, идентифицированным как события.
 
Синонимы
управление мониторингом и событиями
Answer
Оригинальный английский термин
monitoring and event management practice
Answer
Подробности
Практика управления мониторингом и событиями фокусируется на том, чтобы обеспечить постоянную «видимость» состояния услуг и их компонентов и своевременно выявлять значимые отклонения. В рамках ITSM она связывает технический мониторинг (инфраструктуры, платформ, приложений, сетей) с потребностями управления услугами: из потока телеметрии, логов и проверок доступности выделяются события, которые требуют реакции, анализа тренда или информирования заинтересованных сторон. Практика помогает подтверждать доступность и производительность, поддерживать выполнение SLA и снижать время обнаружения сбоев, обеспечивая входные данные для управления инцидентами, управления проблемами и управления изменениями. На практике здесь определяют, что именно наблюдать, какие пороги и корреляции использовать, как классифицировать и маршрутизировать события, какие события подлежат записи и отчётности, а какие могут быть отфильтрованы как шум. Вне области этой практики находятся собственно устранение инцидентов и восстановление услуги, а также поиск коренной причины и разработка долгосрочных исправлений — это относится к управлению инцидентами и управлению проблемами, хотя инициируется данными мониторинга.
Answer
Нюансы
Частая ошибка — считать, что мониторинг и события тождественны управлению инцидентами. Событие фиксирует изменение состояния и сигнал, но не всегда означает инцидент: предупреждение о росте использования диска или кратковременная деградация могут требовать наблюдения или плановых действий, а не немедленного восстановления услуги. Обратная путаница тоже распространена: инцидент может быть зарегистрирован по обращению пользователя даже без «технического» события, если мониторинг не покрывает нужный компонент или сценарий использования. Ещё одна ловушка — пытаться «регистрировать всё»: избыточный поток событий перегружает команду поддержки, ухудшает время реакции и снижает доверие к мониторингу. Корректнее управлять качеством событий: определять значимость, устранять дубли, использовать корреляцию и подавление, согласовывать пороги с реальной полезностью для услуги и её заказчика. Важно также не сводить практику только к инструментам: без договорённостей о правилах классификации, эскалации, владении и ответственности мониторинг превращается в набор разрозненных алертов. Наконец, отчётность по событиям не должна подменять метрики ценности: большое число событий может означать как улучшение обнаружения, так и ухудшение устойчивости услуги — интерпретация требует контекста.
Answer
Примеры
  • Событие «ИТ-услуга недоступна» по результату синтетической транзакции, автоматически инициирующее эскалацию в команду поддержки и регистрацию инцидента
  • Событие предупреждения о достижении 80% заполнения файловой системы, используемое для планирования расширения ресурсов и предотвращения будущего инцидента
  • Коррелированное событие «сбой узла кластера» на основе нескольких низкоуровневых сигналов (недоступность хоста, рост ошибок приложений, потеря сетевой связности)
  • Событие изменения состояния компонента услуги после развёртывания, используемое для подтверждения корректного возврата в рабочую среду и формирования отчётности по стабильности
  • События отклонения производительности (рост времени ответа API), используемые для выявления тренда и передачи данных в управление проблемами
Courses
Рекомендуемые продукты по этой теме
 
 
Что такое практика управления мониторингом и событиями в ITIL и ITSM? Смотрите в глоссарии по управлению ИТ, входящим в бесплатную экспертную базу знаний по управлению ИТ от компании Cleverics.