Данный материал рассказывает о том, как в специализированном проектном решении CleverENGINE реализована функция контроля доступности конфигурационных единиц (далее - CI).

Материал является частью описания новых функциональных возможностей решения CleverENGINE по сравнению с продуктом HP OpenView Service Desk 4.5.

В HP OpenView Service Desk 4.5 была реализована возможность ведения информации о простоях CI (CI Outage):

  • связанных с проведением регулярных регламентных работ, влекущих за собой приостановку функционирования. Для этого на форме CI задавалось расписание, которое позволяло определять периодичность плановых остановок CI, уровень воздействия (Severity) и вводить дополнительную информацию
  • связанных с выполнением работ, требующих приостановки функционирования, либо работ по устранению сбоев ИТ-инфраструктуры. Для этого определялась связь CI и задания (Work Order), в свойствах которой можно было задавать сроки начала/окончания простоя, длительность, уровень воздействия (Severity), а также дополнительную информацию.

Регистрацию событий, поступающих от систем мониторинга (например, остановка сервера, «падение» канала связи, восстановление работоспособности), предполагалось выполнять с помощью регистрации инцидентов (объект Incident). Рассмотрим ситуацию, когда регистрируются события от системы мониторинга канала связи: канал связи «упал» - зарегистрирован инцидент, через 10 секунд канал связи восстановлен. Фактически канал связи восстановлен за 10 секунд, но инцидент зарегистрирован, а значит, требуется его обработка. Чтобы избежать регистрации таких инцидентов требуется кропотливая настройка системы мониторинга (что на практике встречается крайне редко).

Таким образом, для обеспечения полноценного контроля доступности с помощью продукта HP OpenView Service Desk 4.5 не хватало консолидации имеющейся информации. Для определения состояния CI в текущий момент времени приходилось анализировать данные из различных источников, проверяя наличие связанных заданий, регламентных работ (выполняющихся в данное время), открытых инцидентов.

В решении OMNITRACKER CleverENGINE для удобства работы с данными CMDB и получения актуальной информации о состоянии CI в текущий момент времени предусмотрены специальные механизмы контроля доступности. Непосредственно на форме CI отображается вся информация об операционном состоянии (операционный статус), пример приведен на рисунке ниже.

Отображение информации об операционном статусе CI на форме объекта

Отображение информации об операционном статусе CI на форме объекта
(нажмите на изображении для увеличения)

Источниками информации об операционном состоянии являются следующие объекты (примеры приведены на рисунках ниже):

  • События с CI - фиксируют изменение операционного статуса CI и дату его изменения. Могут регистрироваться автоматически на основании данных систем мониторинга о некотором событии с CI (например, сервер недоступен/доступен), либо специалистом вручную.
  • Задания по CI. Регистрируются специалистом при связывании CI с заданием на выполнение работ (объект «Задание») и содержат информацию о том, что планируется перерыв в работе CI, а также определяют даты начала/окончания перерыва.

Событие с CI

Событие с CI
(нажмите на изображении для увеличения)

Задание по CI

Задание по CI
(нажмите на изображении для увеличения)

На основании информации о состоянии CI, полученной с помощью объектов «Задание по CI» и «Событие с CI», выполняется контроль доступности:

  • если статус задания по CI изменился на значение «Простой», либо в системе зарегистрировано некоторое событие с CI, имеющие статус «Простой», то:
    • операционный статус CI автоматически изменяется на значение «Простой». Если открыть диаграмму связей CI, то данная CI для наглядности будет выделена специальным значком (подробнее о средствах визуализации см. Визуализация CMDB)
    • фиксируется дата начала простоя,  а также данные об источнике информации о сбое в CI (группа полей [Причина текущего простоя])
  • если статус задания по CI изменяет свое значение на «ОК», либо в системе зарегистрировано событие, указывающее на восстановление CI (статус «ОК»), то:
    • операционный статус CI автоматически изменяется на значение «ОК»
    • фиксируется дата окончания простоя
    • в системе автоматически регистрируется запись о простое CI (см. рисунок ниже). В записи фиксируется длительность простоя, которая рассчитывается на основании операционного календаря, определяющего требования к доступности данной CI. Если простой CI зарегистрирован и устранен в нерабочее время (согласно операционному календарю), длительность простоя считается равной «0»

Запись о простое CI

Запись о простое CI
(нажмите на изображении для увеличения)

Регистрация записей о простое CI позволяет не просто получать отчетность обо всех зафиксированных случаях нарушения функционирования, но и определять критерии для автоматической регистрации инцидентов (так как разведены объекты «Событие с CI» и «Инцидент»). Например, решение можно настроить таким образом, чтобы автоматическая регистрация инцидентов выполнялась только если длительность простоя превышает 5 минут в рабочее время для данной CI.

На практике реализованные средства контроля доступности CI и ведение операционных календарей позволяют:

  • сократить время устранения возникающих инцидентов за счет предоставления оперативной информации о текущем состоянии CI, а так же ее отображения с помощью средств визуализации CMDB
  • выполнять регистрацию инцидентов по заданному критерию и таким образом избегать ошибочных регистраций, связанных с «шумом» от системы мониторинга
  • формировать отчеты о доступности CI за заданный отчетный период (доступность рассчитывается в соответствии с заданными в свойствах CI операционными календарями)
  • определять разные требования к доступности CI с помощью заданных в свойствах CI операционных календарей
  • упростить планирование регламентных работ.