Портал №1 по управлению цифровыми
и информационными технологиями

Вопрос из зала: что делать с переклассификацией инцидентов

 

В редакцию портала поступил вопрос:

managerПри решении инцидентов иногда возникают ситуации, когда зафиксированное ранее для инцидента влияние требуется изменить.

Логичным в этом случае кажется и изменение срока решения инцидента.

Хотел бы услышать мнения экспертов по поводу следующего способа изменения срока решения инцидента при изменении его (зафиксированного) влияния.

Для упрощения возьмем следующую модельную ситуацию.

Срок решения инцидента определяется его влиянием.

Шкала влияния состоит из двух значение:

1 — за один час инцидента с таким влиянием бизнес теряет 1$

2 — за один час инцидента с таким влиянием бизнес теряет 2$

Сроки решения инцидентов:

1 час — для инцидентов с влиянием 1

30 минут — для инцидентов с влиянием 2

Таким образом при решении инцидентов вовремя бизнес теряет максимум 1$ независимо от влияния инцидента.

Изменение (зафиксированного) влияния инцидента может происходить по двум причинам:

1) Ранее влияние было неверно определено (то есть ранее влияние самом деле было таким, каким мы его фиксируем после изменения)

2) Влияние на самом деле изменилось (например, выросло вследствие дальнейшей деградации сервиса)

В случае когда меняется зафиксированное влияние предлагается поступать следующим образом:

1) В случае если ранее влияние было неверно определено, пересчитывать срок решения инцидента начиная с момента регистрации инцидента.

2) В случае если влияние на самом деле изменилось, пересчитывать срок решения сохраняя % времени, оставшийся на решение. Например, если пока влияние инцдента было на уровне 2 мы работали с ним 15 минут (50% времени, отведенного на решение), то при изменении влияния на 1 срок решения пересчитается так, чтобы у нас осталось ещё 30 минут (50% от времени, отведенного на решение для влияния 1).

Таким образом мы сохраним максимальное влияние на бизнес на необходимом уровне.

Какие плюсы/минусы вы видите в данном подходе?

Как вы поступаете с сроком решения инцидента при изменении его влияния?

Комментариев: 5

  • Можно представить ситуации с деградацией сервиса, повышающие степень влияния на бизнес, например изначально кассовые аппараты магазина работали с существенной задержкой вывода чека (1 минута), в последствии задержка увеличилась до неприемлимого значения (более 2 минут) или начали появляться сбои связи не позволяющие провести оплату покупки. Одним из вариантов подхода к этой ситуации может быть создание второго инцидента (о недоступности услуги) с высоким влиянием и своим SLA. Но реальная жизнь сложнее, в ней присутствуют ситуации, когда инцидент должен быть устранен строго не позже определенной даты/события (презентация, проводимая коммерческим директором, или закрытие операционной смены). Пока эти случаи не укладываются в предложенную модель. То, с какими параметрами они должны обрабатываться следует проговаривать с бизнесом. Предложенный подход плох тем, что он может повлечь за собой ситуацию, когда исполнитель, ответственный за устранение инцидента, будет неожиданно для него поставлен в ситуацию, когда он практически неизбежно становится виновным за нарушение срока (стремительно сокращенного, например с 8 часов по SLA Низкого влияния до 15 минут Высокого влияния). Если внутреннего поставщика услуг вам возможно удастся продавить, то внешние поставщики будут требовать от вас закрепления дедлайнов перед передачей инцидентов в их ответственность. Требуемый уровень "жесткости" подхожда к определению сроков сильно зависит от природы услуги и от её реального влияния на бизнес, поэтому возможны различные вариации. Соглашение об уровне услуги должно соблюдать интересы обеих сторон, в описанном кейсе сторона исполнителя может быть ущемлена в правах. В свою очередь, для ряда услуг предложенноя соглашение может быть приемлемым как для поставщика, так и для бизнеса.

  • Владимир

    В случае смены влияния с менее приоритетного к более приоритетному и пересчёта срока решения инцидента, начиная с момента регистрации инцидента: может оказаться так, что при передвижке срока – срок решения будет уже в прошлом. Поэтому целесообразнее подумать о пересчете срока с момента изменения влияния + ввести счетчик изменения влияния (минус в карму тому, кто установил неправильное влияние).

    Если влияние на самом деле изменилось … – а какая нам разница: изменилось влияние на самом деле или кто-то ошибся в определении влияния? (понятно, что минус в карму провинившегося, но как это и должно ли это как-то влиять на формулу изменения времени решения?)

    Пересчитывать срок решения инцидента начиная с момента регистрации инцидента – целесообразно только в случае понижения влияния.

  • Иван

    Kак вариант, не фиксировать в SLA время решения каждого инцидента, а зафиксировать, что все инциденты решаются ИТ как можно скорее в соответствии с приоритетами, установить время реакции, при этом, дабы все же иметь какие-то ориентиры для оценки качества работы ИТ, прописать что 95% инц приоритета 1 решаются в течение 4ч, 99% в течение 8ч, и 100% в течение 16ч, т.д. по каждому приоритету. Бизнесу в конце концов обещания ИТ неважны, важно чтобы сервис работал и инцидентов не было вообще, а уж если он и возник, то должен быть решен как можно скорее вне зависимости от его приоритета. Приоритеты инцидентов появляются тогда когда ресурсов для решения всех инцидентов немеделенно уже не хватает (вряд ли мы фиксируя срок на замену мышки 5 дней, будем 4 дня сидеть сложа руки и отдыхать, только потому что время еще есть и сроки SLA не нарушены. Но при этом если произойдет сбой критичной системы, то мы побежим ее поднимать, а замену мышки отложим на потом)

    Если говорить про стоимость простоев бизнеса и business continuity, то это другие процессы (не incident mgmt) и методы повышения доступности по большей части находятся в области резервирования и дублирования критичных компонентов, а также подготовки обходных решений, нежели чем надежда на решение инцидента в строго оговоренный срок. И стоимость простоя обычно выступает одним из факторов при составлении business case на вложения по повышению доступности.

  • Илья Рунов

    Интересная схема.

    Как планируется контролировать, что лицо , которое должно повысить влияние, правильно выберет вариант (пересчет от срока регистрации или пересчет с учетом % прошедшего времени)?

    Как планируется (де)мотивировать  лицо, которое должно повысить влияние, для варианта с сохранением % времени не откладывать сам момент повышения влияния?

  • Сергей Семикин

    С точки зрения "безответственного" ИТ исполнителя (мы же пытаемся обеспечить уровень обслуживания не хуже целевого, поэтому свои процессы будем строить именно от такого исполнителя) изначально занизить степень влияния инцидента -значит облегчить себе жизнь. Поэтому, как вариант, дать бизнесу/пользователю изначально  задавать приоритет, а себе оставить возможность переклассифицировать с оповещением инициатора, если посчитаем влияние завышенным (по срокам решений мы тут редко, что будем проигрывать, поэтому продолжать считать длительность решения от обращения). Это должно уменьшить количество первичных неверных определений срочности решения в сторону ее занижения. А если же все-таки ошибки будут, то время решения обнулять (новую запись об инциденте регистрировать или еще как-то). 

    Ну, и нормировать, и начать считать кол-во переклассификаций, чтобы наш по дефолту ленивый ИТ не злоупотреблял предоставленной возможностью.


Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

DevOps
Kanban
ITSM
ITIL
PRINCE2
Agile
Lean
TOGAF
ITAM