Портал №1 по управлению цифровыми
и информационными технологиями

13 практических советов по управлению значительными инцидентами

Дело вот в чем. Как менеджер по управлению значительными инцидентами или менеджер по проблемам, вы можете пройти все курсы ITIL или управления ИТ-услугами (ITSM) в мире, но ничто не сможет подготовить вас к первому крупному инциденту или кризису. Это определенно то, что становится легче только с опытом.

Воунс Мерфи (Старший консультант по ITSM в i3Works) в течение многих лет время от времени работает менеджером по решению проблем и делится своими лучшими практическими советами, как справиться с кризисом, не прячась под столом, не куря и не употребляя алкоголь.


Совет 1: Сохраняйте спокойствие (даже если это значительный инцидент).


Воунс признает, что это легче сказать, чем сделать, она знает это по собственному опыту. Трудно быть спокойным, рассудительным человеком, когда все остальные выходят из себя, поэтому приходится осваивать искусство притворства. Идея заключается в том, чтобы внешне выглядеть спокойным; потому что если вы спокойны, окружающие вас люди начнут успокаиваться, и вы эффективно устраните чувство паники из ситуации.

Это может показаться очевидным, но когда вы имеете дело с серьезным инцидентом или кризисом, паника никому не поможет.


Совет 2: Позаботьтесь о своих сотрудниках

Находится ли кто-нибудь в непосредственной опасности из-за крупного инцидента?
Если да, задействуйте соответствующие протоколы безопасности, будь то кнопка аварийного отключения питания (EPO) или удаление людей с объекта и их доставка в безопасное место. Как только непосредственная опасность будет ликвидирована, вы сможете проанализировать, кто что делает, и извлечь уроки. Но в первую очередь позаботьтесь о своих людях.

Совет 3: Обратитесь за помощью в связи с значительным инцидентом

Насколько серьезен этот инцидент? Может быть, пришло время задействовать планы аварийного восстановления (DR)? Уведомите руководство о том, что для исправления ситуации может потребоваться внесение срочных изменений. А если ваша служба поддержки испытывает значительные трудности, обсудите, можно ли привлечь дополнительных сотрудников, чтобы снять нагрузку с существующей смены?

Совет 4: Общайтесь

Тон, который вам нужен, – спокойный, но бодрый, деятельный. Как кризисный менеджер, убедитесь, что все, кто вовлечен в значительный инцидент, знают, вас нужно держать в курсе всех новостей, чтобы затем вы могли разослать соответствующие обновления тем, кого нужно проинформировать. Это не только гарантирует, что у вас есть все данные для отчета, но и избавит вашу службу поддержки от необходимости задавать один и тот же вопрос десяти разным людям, освобождая время ваших специалистов для устранения проблемы.

Будьте как можно более активны в распространении информации. Например, для руководителя высшего звена нет ничего хуже, чем получить сообщение о происшествии от разгневанного клиента. Поэтому позаботьтесь о том, чтобы ваши руководители были в курсе всего, что им нужно знать о ситуации и ее влиянии.

Если вам совсем не повезет, возможно, вам придется иметь дело с прессой или регулирующими органами. За последний год или около того мы были свидетелями того, как многие крупные компании столкнулись с перебоями в работе ИТ, будь то Eircom в Ирландии, NatWest в Великобритании или Target в США. Воунс Мерфи всегда с искренним сочувствием относится к менеджерам, отвечающим за крупные инциденты, проблемы и службы технической поддержки, потому что, давайте посмотрим правде в глаза, что всегда «облегчает» управление кризисом?

Правильно, друзья, быть главным заголовком на новостных сайтах, попасть в национальную прессу или стать трендом в Twitter по самым худшим из причин, которые можно придумать.
Если у вас есть CMDB или каталог услуг, попробуйте выяснить, распространяется ли влияние проблемы на других клиентов или сервисные башни, и предупредите их соответствующим образом. Также убедитесь, что служба поддержки обновила приветственное сообщение в системе автоматического распределения вызовов (ACD), чтобы попытаться остановить лавину звонков.

Почему это так важно, спросите вы? Ну, во-первых, нет ничего более стрессового для аналитика службы поддержки, чем множество звонков в очереди, ожидающих ответа. Вторая причина – это то, что однажды произошло в дежурство Воунс на самой заре ее карьеры. Они с коллегами записали сообщение на систему ACD, но к тому времени, когда им удалось его развернуть, система не справилась с количеством звонков и рухнула. Теперь проблема стала намного хуже: не только бизнес-услуги не работали, но и служба поддержки, поэтому никто не мог дозвониться, чтобы сообщить о других проблемах, и команды поддержки должны были устранить не один, а два крупных инцидента. Нехорошо.

Совет 5: Есть возможность исправить серьезный инцидент? Протестируйте и проверьте

Блестяще: у некого Боба из серверной команды есть решение для случившегося значительного инцидента. Но было ли оно протестировано и проверено?

Помните, мы говорили с руководством по изменениям, чтобы предупредить их о том, что может потребоваться срочное изменение в рамках работы над исправлением? Поговорите с ними и запустите процесс согласования изменения с учетом всех имеющихся деталей, пока Боб проводит тестирование. Запись об изменении не обязательно должна быть идеальной, но в ней должны быть указаны ключевые действия, кто будет участвовать в выполнении работы и приблизительные сроки.

Совет 6: Управляйте устранением инцидента

Убедитесь, что у Боба есть все необходимое для успешного устранения инцидента. Убедитесь в наличии достаточного количества людей, например, других команд поддержки или сторонней поддержки, если это необходимо, чтобы не возникло никаких заминок.

Совет 7: Проверьте, все ли в порядке и все ли работает

“Ура, мы снова в деле!”. Воунс знает, что соблазн кричать об этом с крыш велик, но сначала необходимо провести быструю проверку на основе здравомыслия. Если ваш DNS-сервер не работал, проверьте, действительно ли вы можете теперь получить доступ к внешнему миру.

Не работала телефония? Проверьте, можете ли вы позвонить. Не работал веб-сайт? Проверьте, можете ли вы зайти на него и перейти по ссылкам на некоторые материалы, чтобы убедиться, что резервная копия сохранена полностью, а не только на целевой странице. Вы поняли идею: проверьте, все ли в порядке, прежде чем исполнять победный танец в честь решения значительного инцидента..

Совет 8: Имейте план управления сложным поведение людей

Крупный инцидент – это стресс. Никому не нравится иметь дело с массовым сбоем системы и недовольными пользователями, и иногда стресс заставляет людей вести себя не лучшим образом.

Вот несколько примеров:

СитуацияКак можно корректно ответить на ситуацию
Для решения значимого инцидента собрали общую встречу, но существует неопределенность в отношении того, что делать дальше; люди начинают метаться.“Хорошо, давайте начнем процесс. Мы выйдем на связь и соберем команду. У нас есть все необходимое; мы просто должны разобраться с инцидентом и определить дальнейшие шаги”.
Старший менеджер присоединяется к собранию по поводу значительного инцидента и начинает проявлять нервозность, прерывая работу по устранению неполадок.“Спасибо за вашу обратную связь, но пока мы стараемся сосредоточиться на исправлении ошибок. Мы сосредоточимся на X позже”.
Проходит несколько часов, никто не знает, в чем причина проблемы, и люди начинают паниковать.“Давайте быстро подытожим, что мы выяснили на данный момент, и продолжим. Есть ли еще какие-нибудь команды поддержки, которые мы должны подключить в данный момент?”.
Кто-то в одной из команд поддержки срывается – обвиняет другую команду, поставщика или бизнес.“Я вас понял, но это не то, что мы будем обсуждать на этом звонке. Мы поднимем этот вопрос позже на встрече по разбору значительного инцидента”.
Вы находитесь на общей встрече по поводу значительного инцидента, и кто-то нападает на члена вашей команды.Вмешивайтесь быстро и жестко. При необходимости отключите их или выключите звук (если это звонок), но никто не заслуживает агрессивного обращения или криков. Вы можете попробовать сценарий “вообще-то, мы сосредоточены на х”, как описано выше, но если кто-то так сильно выбивается из колеи, ему не стоит участвовать в разговоре.

Совет 9: Практика способствует достижению совершенства

Включите значительные инциденты в свои учебные материалы и тренинги. Пусть каждый сотрудник службы технической поддержки знает, как действовать в случае значительного инцидента, и сможет правильно отреагировать, если именно он примет звонок. Составляйте контрольные списки и приводите множество примеров сценариев, чтобы работа со значительными инцидентами стала для ваших сотрудников второй природой, что, в свою очередь, снимет с них часть стресса и беспокойства.

Совет 10: Изменения и значительные инциденты

Как и значительные инциденты, экстренные изменения – это не очень весело, но они часто необходимы для устранения серьезной неисправности. Убедитесь, что процессы решения значительных инцидентов и экстренных изменений тесно взаимосвязаны, и рассмотрите возможность включения члена команды по управлению/поддержке изменений в обсуждение по решению значительных инцидентов или включите его в список контактов, чтобы в случае необходимости экстренного изменения у команды поддержки было все необходимое для эффективного, результативного и безопасного устранения неисправности. Рассмотрите возможность разработки такой формы записи о значительном инциденте, чтобы при необходимости можно было автоматизировать рабочий процесс “требуется срочное изменение для устранения значительного инцидента”.

Совет 11: Разберитесь с непосредственными последствиями значительного инцидента

Зафиксируйте как можно больше информации об инциденте по ходу дела, потому что после того, как ситуация решена, люди обычно настолько сосредотачиваются на каком-нибудь следующем происшествии, что забывают обо всем. Поэтому убедитесь, что вы зафиксировали все, пока это еще свежо в памяти людей.

Совет 12: Встреча по обзору значительного инцидента

Так же известная как “разбор происшествия” или собрание по выяснению обстоятельств, но главное не как “охота на ведьм”.
Установите основные правила и убедите всех присутствующих в том, что собрание проводится для того, чтобы рассмотреть, что произошло и как можно предотвратить повторение, а не для того, чтобы назначить виновных. Если люди будут думать, что их обвинят, то они замкнутся в себе, и вы не продвинетесь далеко. Заставив людей расслабиться и почувствовать себя комфортно, вы гораздо быстрее доберетесь до первопричины, а также до любых действий, направленных на предотвращение повторения.
Когда вы выявите полученные уроки, убедитесь, что они задокументированы, распространены и приняты к исполнению. Самый простой способ сделать это – внести их в реестр CSI (реестр постоянного совершенствования), если таковой имеется в вашей организации. Что бы ни случилось, убедитесь, что уроки не забыты – если такой же крупный инцидент произойдет через шесть месяцев, люди будут гораздо менее снисходительны, если его можно было предотвратить.

Совет 13: Позаботьтесь о своих сотрудниках

Этот совет настолько важен, что стоит упомянуть о нем дважды. Итак, вы восстановили обслуживание, сообщили заинтересованным сторонам, разобрались с последствиями и зафиксировали полученные уроки. Есть вероятность, что вы и команда напряжены и разбиты. Поэтому сейчас самое время для мотивации в виде отгулов, кофеина или сплочения команды в виде быстрого похода в бар после работы. Это не то, что вы обязательно найдете в книге или учебном курсе по управлению значительными инцидентами, но это творит чудеса с моральным духом.

Оригинал статьи


Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

DevOps
Kanban
ITSM
ITIL
PRINCE2
Agile
Lean
TOGAF
ITAM