Портал №1 по управлению цифровыми
и информационными технологиями

Вопрос из зала: что делать с переклассификацией инцидентов

 

В редакцию портала поступил вопрос:

managerПри решении инцидентов иногда возникают ситуации, когда зафиксированное ранее для инцидента влияние требуется изменить.

Логичным в этом случае кажется и изменение срока решения инцидента.

Хотел бы услышать мнения экспертов по поводу следующего способа изменения срока решения инцидента при изменении его (зафиксированного) влияния.

Для упрощения возьмем следующую модельную ситуацию.

Срок решения инцидента определяется его влиянием.

Шкала влияния состоит из двух значение:

1 — за один час инцидента с таким влиянием бизнес теряет 1$

2 — за один час инцидента с таким влиянием бизнес теряет 2$

Сроки решения инцидентов:

1 час — для инцидентов с влиянием 1

30 минут — для инцидентов с влиянием 2

Таким образом при решении инцидентов вовремя бизнес теряет максимум 1$ независимо от влияния инцидента.

Изменение (зафиксированного) влияния инцидента может происходить по двум причинам:

1) Ранее влияние было неверно определено (то есть ранее влияние самом деле было таким, каким мы его фиксируем после изменения)

2) Влияние на самом деле изменилось (например, выросло вследствие дальнейшей деградации сервиса)

В случае когда меняется зафиксированное влияние предлагается поступать следующим образом:

1) В случае если ранее влияние было неверно определено, пересчитывать срок решения инцидента начиная с момента регистрации инцидента.

2) В случае если влияние на самом деле изменилось, пересчитывать срок решения сохраняя % времени, оставшийся на решение. Например, если пока влияние инцдента было на уровне 2 мы работали с ним 15 минут (50% времени, отведенного на решение), то при изменении влияния на 1 срок решения пересчитается так, чтобы у нас осталось ещё 30 минут (50% от времени, отведенного на решение для влияния 1).

Таким образом мы сохраним максимальное влияние на бизнес на необходимом уровне.

Какие плюсы/минусы вы видите в данном подходе?

Как вы поступаете с сроком решения инцидента при изменении его влияния?

«VAP: Управление поддержкой ИТ-услуг»
Концентрация знаний и опыта без натаскивания на экзамен

Комментариев: 5

  • Можно представить ситуации с деградацией сервиса, повышающие степень влияния на бизнес, например изначально кассовые аппараты магазина работали с существенной задержкой вывода чека (1 минута), в последствии задержка увеличилась до неприемлимого значения (более 2 минут) или начали появляться сбои связи не позволяющие провести оплату покупки. Одним из вариантов подхода к этой ситуации может быть создание второго инцидента (о недоступности услуги) с высоким влиянием и своим SLA. Но реальная жизнь сложнее, в ней присутствуют ситуации, когда инцидент должен быть устранен строго не позже определенной даты/события (презентация, проводимая коммерческим директором, или закрытие операционной смены). Пока эти случаи не укладываются в предложенную модель. То, с какими параметрами они должны обрабатываться следует проговаривать с бизнесом. Предложенный подход плох тем, что он может повлечь за собой ситуацию, когда исполнитель, ответственный за устранение инцидента, будет неожиданно для него поставлен в ситуацию, когда он практически неизбежно становится виновным за нарушение срока (стремительно сокращенного, например с 8 часов по SLA Низкого влияния до 15 минут Высокого влияния). Если внутреннего поставщика услуг вам возможно удастся продавить, то внешние поставщики будут требовать от вас закрепления дедлайнов перед передачей инцидентов в их ответственность. Требуемый уровень "жесткости" подхожда к определению сроков сильно зависит от природы услуги и от её реального влияния на бизнес, поэтому возможны различные вариации. Соглашение об уровне услуги должно соблюдать интересы обеих сторон, в описанном кейсе сторона исполнителя может быть ущемлена в правах. В свою очередь, для ряда услуг предложенноя соглашение может быть приемлемым как для поставщика, так и для бизнеса.

  • Владимир

    В случае смены влияния с менее приоритетного к более приоритетному и пересчёта срока решения инцидента, начиная с момента регистрации инцидента: может оказаться так, что при передвижке срока — срок решения будет уже в прошлом. Поэтому целесообразнее подумать о пересчете срока с момента изменения влияния + ввести счетчик изменения влияния (минус в карму тому, кто установил неправильное влияние).

    Если влияние на самом деле изменилось … — а какая нам разница: изменилось влияние на самом деле или кто-то ошибся в определении влияния? (понятно, что минус в карму провинившегося, но как это и должно ли это как-то влиять на формулу изменения времени решения?)

    Пересчитывать срок решения инцидента начиная с момента регистрации инцидента — целесообразно только в случае понижения влияния.

  • Иван

    Kак вариант, не фиксировать в SLA время решения каждого инцидента, а зафиксировать, что все инциденты решаются ИТ как можно скорее в соответствии с приоритетами, установить время реакции, при этом, дабы все же иметь какие-то ориентиры для оценки качества работы ИТ, прописать что 95% инц приоритета 1 решаются в течение 4ч, 99% в течение 8ч, и 100% в течение 16ч, т.д. по каждому приоритету. Бизнесу в конце концов обещания ИТ неважны, важно чтобы сервис работал и инцидентов не было вообще, а уж если он и возник, то должен быть решен как можно скорее вне зависимости от его приоритета. Приоритеты инцидентов появляются тогда когда ресурсов для решения всех инцидентов немеделенно уже не хватает (вряд ли мы фиксируя срок на замену мышки 5 дней, будем 4 дня сидеть сложа руки и отдыхать, только потому что время еще есть и сроки SLA не нарушены. Но при этом если произойдет сбой критичной системы, то мы побежим ее поднимать, а замену мышки отложим на потом)

    Если говорить про стоимость простоев бизнеса и business continuity, то это другие процессы (не incident mgmt) и методы повышения доступности по большей части находятся в области резервирования и дублирования критичных компонентов, а также подготовки обходных решений, нежели чем надежда на решение инцидента в строго оговоренный срок. И стоимость простоя обычно выступает одним из факторов при составлении business case на вложения по повышению доступности.

  • Илья Рунов

    Интересная схема.

    Как планируется контролировать, что лицо , которое должно повысить влияние, правильно выберет вариант (пересчет от срока регистрации или пересчет с учетом % прошедшего времени)?

    Как планируется (де)мотивировать  лицо, которое должно повысить влияние, для варианта с сохранением % времени не откладывать сам момент повышения влияния?

  • Сергей Семикин

    С точки зрения "безответственного" ИТ исполнителя (мы же пытаемся обеспечить уровень обслуживания не хуже целевого, поэтому свои процессы будем строить именно от такого исполнителя) изначально занизить степень влияния инцидента -значит облегчить себе жизнь. Поэтому, как вариант, дать бизнесу/пользователю изначально  задавать приоритет, а себе оставить возможность переклассифицировать с оповещением инициатора, если посчитаем влияние завышенным (по срокам решений мы тут редко, что будем проигрывать, поэтому продолжать считать длительность решения от обращения). Это должно уменьшить количество первичных неверных определений срочности решения в сторону ее занижения. А если же все-таки ошибки будут, то время решения обнулять (новую запись об инциденте регистрировать или еще как-то). 

    Ну, и нормировать, и начать считать кол-во переклассификаций, чтобы наш по дефолту ленивый ИТ не злоупотреблял предоставленной возможностью.


Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

  • Рубрики

  •  
  • Авторы

  •  
  • Самое свежее

    • Новая модель предоставления ИТ-услуг: почему вам нужно ориентироваться на продукт
      Традиционно ИТ-организации делят все предоставляемые ими услуги на три уровня: инфраструктура (инфраструктура как услуга), платформа (платформа как услуга) и приложения
    • Как DevOps-командам следует использовать метрики DORA
      С момента выхода в 2018 году книги «Accelerate: Наука о бережливом программном обеспечении и DevOps», показатели DORA, которые она представила, стали популярным
    • Лучше делать хоть что-то, чем не делать ничего
      На конференциях по всяким Agile и DevOps мы часто слышим слово «unlearn» — забудьте то, что вы знали ранее! Измените свои представления о мире! Всё устроено
    • VI форум «Управление данными — 2021»: наведите порядок в данных!
      23 сентября 2021 года издательство «Открытые системы» в шестой раз проведет в Москве масштабный форум «Управление данными — 2021», объединяющий всех, кто определяет стратегию работы с данными, воплощает ее в жизнь и управляет предприятием на основе объективных достоверных данных. Участники форума обсудят не только инновационные стратегии и бизнес-модели работы с корпоративными данными, но и конкретные архитектурные и технологические решения.
    • Простые уловки, как ускорить процесс разработки программного обеспечения
      С некоторыми вещами люди из бизнеса вынуждены соглашаться, и одна из них заключается в том, что никто не хочет сердить свою команду разработчиков. Часто они являются краеугольным
    • Почему каждая инициатива DevOps должна начинаться с оценки возможностей
      Внедрение практики DevOps идет полным ходом. Организации сосредоточены на том, как внедрить возможности DevOps в командах и как масштабировать DevOps в масштабах предприятия. Но важным аспектом любого пути масштабной трансформации является оценка возможностей команды или организации на этом пути.
    • Что такое процесс и что такое практика в ITIL®4
      Продолжаем публиковать короткие видеоролики, посвященные актуальным вопросам управления ИТ. Сегодня поговорим о том, что такое процесс и что такое практика в ITIL4. Это не переименование процессов в практики, это два отдельных понятия. Рассказывает Игорь Фадеев, ITIL 4 Managing Professional и ITIL 4 Strategic Leader, аккредитованный тренер по ITIL4.
    • Аудит. Что может быть скучнее?!
      На прошедшей неделе участвовал в аудите (в качестве объекта аудита). Большинство людей, проходивших аудит, подозреваю, разделяет это ощущение: «Бюрократия, формальности и т.п.»
    • Как технический долг вредит вашей команде программистов — и вашей безопасности приложений
      Техническая долг может серьезно повлиять на здоровье организации - и на психическое здоровье ваших разработчиков. Более половины из 200+ членов инженерных команд, опрошенных в рамках отчета Stepsize "Состояние технического долга в 2021 году", считают, что технический долг негативно влияет на моральное состояние их команд.
    • Что люди не понимают в управлении потоком создания стоимости
      Нет ничего плохого в самом управлении потоками создания ценности (VSM), но есть много плохого в том, как его рассматривают и обсуждают блогеры, отраслевые маркетологи и другие, которые часто смешивают его с DevOps и Agile. Это не одно и то же.
  •  
  • Вход

  • DevOps
    Kanban
    ITSM
    ITIL
    PRINCE2
    Agile
    Lean
    TOGAF
    COBIT