В редакцию портала поступил вопрос:
При решении инцидентов иногда возникают ситуации, когда зафиксированное ранее для инцидента влияние требуется изменить.
Логичным в этом случае кажется и изменение срока решения инцидента.
Хотел бы услышать мнения экспертов по поводу следующего способа изменения срока решения инцидента при изменении его (зафиксированного) влияния.
Для упрощения возьмем следующую модельную ситуацию.
Срок решения инцидента определяется его влиянием.
Шкала влияния состоит из двух значение:
1 — за один час инцидента с таким влиянием бизнес теряет 1$
2 — за один час инцидента с таким влиянием бизнес теряет 2$
Сроки решения инцидентов:
1 час — для инцидентов с влиянием 1
30 минут — для инцидентов с влиянием 2
Таким образом при решении инцидентов вовремя бизнес теряет максимум 1$ независимо от влияния инцидента.
Изменение (зафиксированного) влияния инцидента может происходить по двум причинам:
1) Ранее влияние было неверно определено (то есть ранее влияние самом деле было таким, каким мы его фиксируем после изменения)
2) Влияние на самом деле изменилось (например, выросло вследствие дальнейшей деградации сервиса)
В случае когда меняется зафиксированное влияние предлагается поступать следующим образом:
1) В случае если ранее влияние было неверно определено, пересчитывать срок решения инцидента начиная с момента регистрации инцидента.
2) В случае если влияние на самом деле изменилось, пересчитывать срок решения сохраняя % времени, оставшийся на решение. Например, если пока влияние инцдента было на уровне 2 мы работали с ним 15 минут (50% времени, отведенного на решение), то при изменении влияния на 1 срок решения пересчитается так, чтобы у нас осталось ещё 30 минут (50% от времени, отведенного на решение для влияния 1).
Таким образом мы сохраним максимальное влияние на бизнес на необходимом уровне.
Какие плюсы/минусы вы видите в данном подходе?
Как вы поступаете с сроком решения инцидента при изменении его влияния?
Можно представить ситуации с деградацией сервиса, повышающие степень влияния на бизнес, например изначально кассовые аппараты магазина работали с существенной задержкой вывода чека (1 минута), в последствии задержка увеличилась до неприемлимого значения (более 2 минут) или начали появляться сбои связи не позволяющие провести оплату покупки. Одним из вариантов подхода к этой ситуации может быть создание второго инцидента (о недоступности услуги) с высоким влиянием и своим SLA. Но реальная жизнь сложнее, в ней присутствуют ситуации, когда инцидент должен быть устранен строго не позже определенной даты/события (презентация, проводимая коммерческим директором, или закрытие операционной смены). Пока эти случаи не укладываются в предложенную модель. То, с какими параметрами они должны обрабатываться следует проговаривать с бизнесом. Предложенный подход плох тем, что он может повлечь за собой ситуацию, когда исполнитель, ответственный за устранение инцидента, будет неожиданно для него поставлен в ситуацию, когда он практически неизбежно становится виновным за нарушение срока (стремительно сокращенного, например с 8 часов по SLA Низкого влияния до 15 минут Высокого влияния). Если внутреннего поставщика услуг вам возможно удастся продавить, то внешние поставщики будут требовать от вас закрепления дедлайнов перед передачей инцидентов в их ответственность. Требуемый уровень "жесткости" подхожда к определению сроков сильно зависит от природы услуги и от её реального влияния на бизнес, поэтому возможны различные вариации. Соглашение об уровне услуги должно соблюдать интересы обеих сторон, в описанном кейсе сторона исполнителя может быть ущемлена в правах. В свою очередь, для ряда услуг предложенноя соглашение может быть приемлемым как для поставщика, так и для бизнеса.