Много раз уже слышали от различных Заказчиков "хотелку" под условным названием "доска аварий". Звучит она так: хотим, чтобы можно было быстро и наглядно увидеть инфраструктурные инциденты, которые еще оказывают влияние на предоставляемые ИТ-услуги.
Цель понятна: хочется иметь перед глазами краткий снимок инфраструктуры, на котором видны все проблемные области, для того чтобы быстро принимать решения о возможных причинах инцидентов, использовать эту информацию при диагностике, ответах звонящим пользователям и т.д.
Идея прекрасная, но смущает меня в ней следующее: влияние инфраструктурных инцидентов на ИТ-сервисы в каждом конкретном случае – вещь требующая вдумчивой оценки (иногда быстрой, иногда нет). Влияние может быть отложенным, влияние может никак не сказаться на пользователях и т.д. Поэтому вывешенный красный квадрат с названием упавшего сервера может привести к неправильным выводам. Для того чтобы этого избежать придется разбираться в деталях инфраструктурного инцидента, а это опять время и уже не получится "быстро и наглядно увидеть".
Развивая эту идею дальше возникает другая "хотелка", которая гласит: хотим зная упавший сервер по связям в CMDB узнать на какие ИТ-услуги будет оказано влияние. Но проблема та же, плюс для получения таких выводов придется слишком детально описывать в CMDB связи и взаимное влияние элементов инфраструктуры.
Поэтому пока, на мой взгляд реализация таких "хотелок" позволит лишь облегчить принятие решения, но исключить детальный анализ с использованием мозга, рук и мышки не позволит. Попадались ли вам удачные реализации подобных идей и насколько полезными они оказались?
Как минимум в заданном направлении думалось, до реализации не дошло.
В результате анализа выяснилось, что зависимости на сервисы могут быть условно отрисованы с помощью стандартных средств таких инструментов как Nagios и Geneos. Однако, как показала практика , не всегда это легко и приносит ощутимый по ценности результат в сравнении с усилиями над на разработку и поддержание данного технического решения. Картинка конечно в инструментах будет, но можно ли будет ее показывать и экспресс оценки кому-нибудь кроме инженера поддержки, способного корректно ее истолковать – не факт.
Также интересуюсь у кого какой опыт был на заданную тему.