Портал №1 по управлению цифровыми
и информационными технологиями

Влияние сбоев на ИТ-услуги

Обсуждали недавно интересный вопрос, касающийся договоренностей с бизнесом об уровне ИТ-сервисов. Допустим, для простоты, что уровень ИТ-сервиса включает в себя только характеристики поддержки. Например:

  • время поддержки
  • время решения инцидентов

И пусть мы в соглашении об уровне ИТ-сервиса фиксируем долю инцидентов решенных в обещанные сроки. Построить отчетность по времени решения инцидентов и соблюдению сроков довольно просто, любая система автоматизации нам это легко сделает. Да и с точки зрения процесса все более-менее понятно. Звонят пользователи, регистрируются и решаются инциденты, считаются сроки.

Но как только мы начинаем работать еще и с инфраструктурными инцидентами (сбоями), которые пришли не от пользователей, а стали известны, например в результате мониторинга. Тут же возникает вопрос, как объективно отразить из наличие в соглашениях с бизнесом.

Приведу пару примеров:

1. Вышел из строя почтовый сервер. Пользователи звонят, мы восстанавливая ИТ-сервис "Электронная почта" (пусть для простоты у нас такой есть :)) решим инциденты восстановив сервер. В отчетах по ИТ-сервису "Электронная почта" будут фигурировать вовремя решенные инциденты. 

2. Отключилось электропитание на одной из площадок. Т.е. не просто ИТ-сервисы перестали предоставляться, а жизнь полностью встала. Пользователи не могут даже чайник вскипятить. Возможно они будут звонить в ИТ со словами "мы не можем работать в программе ABCDE", но это вряд ли. И допустим, что питания нет, т.к. перерубили кабель, который будут восстанавливать пару дней. Что будет в отчетах по ИТ-сервисам? По-идее все прекрасно, пользователи не звонят, инцидентов нет. ИТ-сервис как предоставлялся, так и предоставляется. Фактически же картина другая. 

Выход? Для того чтобы отражать фактическое состояние дел надо включать в условия соглашения возможные перерывы в предоставлении ИТ-сервиса. Видится, что в соглашении можно описать тремя параметрами, понятными бизнесу:

  • максимальная продолжительность одного перерыва
  • частота перерывов
  • суммарная длительность перерывов за период (например, за месяц)

Остается только понять, какие сервисы перестанут предоставляться, если площадка оказалась без электричества или каналов связи. Но это уже дело техники 🙂

«VAP: Управление поддержкой ИТ-услуг»
Концентрация знаний и опыта без натаскивания на экзамен

Комментариев: 8

  • «Для того чтобы отражать фактическое состояние дел надо включать в условия соглашения возможные перерывы в предоставлении ИТ-сервиса»

    Ну да, так и есть. Деятельность по эксплуатации можно принципиально описать тремя KPI — по обработке обращений пользователей, по доступности VBF, по удовлетворённости заказчиков / ключевых потребителей услуг (давным-давно такую схему предлагал Гартнер). Учёт и анализ инфраструктурных инцидентов как раз позволяет выйти на второй KPI — по доступности (в отличие от индивидуальных обращений пользователей, которые годятся только для первого KPI). Классика жанра.

    «в соглашении можно описать тремя параметрами, понятными бизнесу»

    Зачем три? Достаточно два:

    1. максимальная продолжительность одного простоя;

    2. суммарная длительность простоев за период.

    Частота не нужна (да и договориться о частоте простоев, вероятно, будет не просто).

    • Георгий

      Учёт и анализ инфраструктурных инцидентов как раз позволяет выйти на второй KPI — по доступности

      Не согласен. Вернее, с тем, что это лучше чем учет индивидуальных обращений, то конечно, только вот просто мониторить инфтраструктурные инциденты, это не самый лучший способ определения доступности. Все-таки транзакционный мониторинг в этом плане более показателен, хотя мониторинг отдельных компонент тоже нужен конечно, для более детального анализа

      Для договоренностей в SLA действительно очень хорошо действует просто максимальное время простоя за период (неважно чем оно вызвано) + максимальное время единичного простоя. Частота простоев, полностью согласен с Димой, крайне сложный для согласования и контроля потом вариант, плюс при наличии двух первых он кажется еще и излишним

      А вообще опять таки +1 к Диме, это довольно тривиальная вещь, хотя не лишне иногда и такие повторять ) только жаль тут особо нечего обсуждать)

      • «Все-таки транзакционный мониторинг в этом плане более показателен, хотя мониторинг отдельных компонент тоже нужен конечно, для более детального анализа»

        А это смотря что мониторить и смотря когда регистрировать инфраструктурный инцидент. У меня как раз есть примеры ровно того, про что ты говоришь — инфраструктурный инцидент регистрируется при недоступности VBF, а не какой-нибудь очередной железки. И эта информация напрямую используется при оценке доступности за период.

        • Георгий

          я немного о другом, но это детали реализации уже, смысл точно таков да

    • > Частота не нужна

      Дима, как ни странно, есть и другое мнение на этот счет. Допустим договорились, что максимальная длительность 20 минут. И суммарная длительность не более 8 часов. Если система несколько дней подряд каждый час будет умирать на 20 минут, наверное не все обрадуются.

      Частоту можно заменить временем между простоями, что по сути одно и то же.

    • Grigory Kornilov

      Комментарии:

      1. Бизнес дал денег на Site Recovery? Если нет, лучше внести в SLA, что нарушением SLA не являются аварии в датацентре. Или вписать это как риски.

      2. Максимальная продолжительность одного простоя ... звучит не понятно, один простой может иметь разную продолжительность? А если между 2-мя простоями было 5 минутное восстановление функциональности? А если функциональность восстанавливалась в автоматическом режиме и так же падала в течении всех суток, а пользователю фактически из-за этого работать не получалось?

      KPI — стоятся к привязке к пунктам SLA, ведь мы хотим именно SLA гарантировать и его соблюдение оценивать, верно?

      Предлагаю : опишите в примере согласованные SLA и тогда предлагайте KPI по ним.

      • Григорий, мне кажется, что бизнес не в восторге будет от обсуждения исключений по принципу условия соглашения зависят от того, что сломалось. Хотя конечно такой вариант возможен, но он не очень бизнес-ориентирован.

        • Grigory Kornilov

          Бизнес ориентирован на получения достоверной информации о решении и возможных рисках.

          Предлагаю :

          1. опишите в примере согласованные SLA.

          2. опишите методику оценки KPI по пунктам SLA.

          3. несколько кейсов отказов\нейункциональности и влияния этого на показатели KPI и соответствия к SLA.

          Тогда можно будет добавить несколько своих кейсов к п3 и обсудить.


Добавить комментарий

Ваш адрес email не будет опубликован.

  • Рубрики

  •  
  • Авторы

  •  
  • Самое свежее

    • Внедрение ИИ для вашей службы поддержкиВнедрение ИИ для вашей службы поддержки
      Но что на самом деле означает внедрение ИИ для возможностей ITSM вашей организации, особенно для службы технической поддержки?
    • Бесплатная конференция IT-Entrance для тех, кто хочет стать айтишниками
        28 мая в Минске пройдет бесплатная 11-я международная конференция IT-Entrance. Это мероприятие для тех, кто хочет попасть в IT, для начинающих IT-специалистов уровня junior с
    • ITIL 4 Specialist: High-velocity IT. Что внутри?
      В дополнение к уже опубликованным обзорам курсов по направлению Managing Professional (MP) сертификационной линейки ITIL4, сегодня мы рассмотрим еще один модуль – ITIL 4 Specialist: High-velocity IT (HVIT).
    • Весення уборка в бэклоге продукта: порядок за четыре шага!
      Каждая команда, которая ведёт разработку ПО в соответствии с практиками Agile, имеет бэклог продукта или по крайней мере думает, что он у неё есть. Кажется, что это очень простой инструмент, но на практике я регулярно сталкиваюсь с неумением им пользоваться для планирования работы разработчиков. Давайте попробуем разобраться, для чего нужен бэклог продукта и как извлечь из него максимум пользы. 
    • Warranty и Utility в ITIL4
      У услуг, которыми мы управляем в рамках Service есть две основные характеристики: гарантия — Warranty и Utility — полезность. Эти характеристики нужны нам, чтобы определить, будет ли услуга способствовать достижению результатов, которые нужны пользователю, а как следствие — создавать для них ценность.
    • Шесть практик для лучшего взаимодействия бизнеса и ИТ
      Хотели бы вы, чтобы руководители предприятий и ИТ могли лучше работать вместе, совместно работать над проектами и в полной мере обмениваться информацией? Если вы похожи на большинство ИТ-руководителей, ответ — да. Преимущества эффективного сотрудничества между бизнесом и ИТ включают в себя специальные проекты, которые лучше соответствуют бизнес-целям, улучшенное управление изменениями и более активное участие в новых инициативах.
    • Используйте технологии для повышения эффективности рабочего процесса вашей ИТ-команды
      Эффективное рабочее место создает, так сказать, хорошо смазанную машину, повышая итоговую прибыль и, как следствие, успех вашего бизнеса. Дополнительное время на работе не всегда означает большее достижение. Важно то, что вы делаете с тем временем, которое у вас есть, а это все об эффективности рабочего процесса.
    • Хранение данных и «внутренний хомяк»
      Хранение информации, которая больше не пригодится, сопряжено со огромным количеством рисков. Иллюстрация этому — череда сливов персональных данных пользователей крупных сервисов, которую мы могли наблюдать с января по март. Кажется, что предприятиям нужны правила, когда и как избавляться от данных.
    • Action BiasAction Bias — известная ловушка, в которую мы всё равно постоянно попадаем
      Action Bias: склонность к реагированию и действию, даже если это не приведёт к положительным результатам. «Делать хоть что-то» создаёт иллюзию загрузки ресурсов полезной работой.
    • бэклог27 антипаттернов бэклога продукта
      Эта статья показывает 27 распространённых антипаттернов продуктового бэклога, включая процесс уточнения бэклога продукта, ограничивающих успех вашей Скрам-команды.
  •  
  • Вход

  • DevOps
    Kanban
    ITSM
    ITIL
    PRINCE2
    Agile
    Lean
    TOGAF
    COBIT