Портал №1 по управлению цифровыми
и информационными технологиями

Журнал недоступности

Опубликовано 12 февраля 2018
Рубрики: Управление доступностью
Комментарии

В продолжение темы, довольно активно обсуждавшейся на портале REALITSM.ru, например, здесь, хотелось бы поговорить про чуть более практические аспекты управления доступностью. Конкретно — про её учёт, то есть про «реактивную» часть, связанную с мониторингом и измерением.

Всем известен классический способ фиксации факта и периода недоступности посредством регистрации «инцидента недоступности». В общем-то, им может оказаться любой инцидент. Понятно, что массовые инциденты имеют наибольший потенциал «оказаться» инцидентами недоступности. И с точки зрения учёта тут всё логично, так как инцидент является предметом коммуникации с пользователем и отражает, в данном случае, факт недоступности, выявленный в точке потребления услуги.

Но если мы переходим на уровень автоматизированного мониторинга, то есть внедряем какие-либо технические средства, позволяющие выявлять недоступность на основе событий, фиксируемых без участия пользователя, возрастает значимость корректного определения критериев (не)доступности. Только наличие понятных критериев позволит выстроить автоматизацию учёта доступности на нужном уровне. Нам понадобится детализация требований к периоду, когда услуга должна быть доступна, к длительности простоя, при превышении которой доступность услуги будет считаться нарушенной, к перечню событий, при наступлении которых мы будем фиксировать факт недоступности. При этом надо принимать во внимание, что периоды недоступности, автоматически фиксируемые по разным критериям, определённым для одной и той же услуги, могут пересекаться. А также помнить, что при измерении недоступности в точке потребления услуги мы имеем дело не с одним бизнес-процессом в целом, а с его отдельным экземпляром, выполняемым в какой-то конкретный момент времени.

Возможные пересечения по времени и множество экземпляров исполняемых бизнес-процессов подталкивают к ведению журнала недоступности отдельно от инцидентов. То есть видится целесообразным периоды простоя учитывать в отдельном журнале с привязкой к критериям, а затем на уровне отчётности совмещать периоды недоступности, пересекающиеся по времени, и уже на базе этой сводной информации рассчитывать показатели доступности.

Что скажете коллеги? Как вы учитываете недоступность — только в инцидентах или в виде отдельного журнала?

Учебные курсы и сертификация
специалистов по ИТ-менеджменту

Комментариев: 6

  • Владимир Невский

    Расчет доступности осуществляется по фактическому времени начала и окончания инцидента, которое устанавливается вручную менеджером инцидентов. Журналы мониторинга, конечно, очень сильно помогают в расследовании. Но дело в том, что система мониторинга может показывать, например, что сервер по ping работает, но на самом деле — сервис может не предоставляться. Тогда смотрим на обращения пользователей: если по журналу сервис работает, а обращения от пользователей говорят об обратном — кому Вы поверите? Практика показывает, что владельцы сервисов не могут правдиво и адекватно предоставлять информацию о работоспособности сервиса, за который они отвечают (из-за конфликта интересов). Поэтому важно, чтобы менеджер инцидентов был из независимого от владельцев сервисов подразделения, либо он был непредвзят по своей сути (пользователь же сервиса — всегда прав?!). Практика также показывает, что преуменьшение масштаба инцидента относительно фактического — негативно сказывается на сервисе в целом: руководство не фокусируется на проблеме, т.к. её не видит; пользователи не верят статистике, т.к. она не соответствует их ощущениям. В результате ИТ — теряет доверие Бизнеса. Правда, это уже история не про мониторинг и инциденты, а про зрелость процессов в компании (умение из ошибок извлекать пользу).

  • Андрей другой

    Я что то не понял, а что, SLA уже отменили? Системы контроля SLA уже не нужны? Не понятно противопоставление « только в инцидентах или в виде отдельного журнала?». Инциденты — один из параметров, формирующих качество сервиса (SLA). Там может быть еще куча других, о которых вы договоритесь с бизнесом(время отклика, процент сообщений об ошибках и т.д.). И на основе метрик, рассчитанных на основе параметров, формируется отчет (журнал) по выполнению SLA и уже с ним в кассу. Единственное, о чем бы я по-рассуждал, так это наличие в первоисточнике двух характеристик — доступность и производительность. На мой взгляд, это глупость. Если вам доступен сервис(сервер приложений работает), но его производительность недопустима с точки зрения бизнес процессов (отчет готовится по три часа), то сервис вам не доступен. Вернее, вам доступен сервис, но не тот, о котором вы договаривались. Это как с электричеством — напряжение в сети есть, но оно всего 170 вольт и вы не можете открыть ворота, чтобы в дом попасть.

  • Евгения

    Мы используем журнал регистрации вне системы учета. В него заносится сервис, по которому был простой или деградация, период простоя и группы затронутых пользователей. Расчет общего периода недоступности считается исходя из времени простоя/деградации + критичности сервиса+количество групп пользователей.

  • Роман

    Согласен с первым комментарием длительность простоя сервиса — атрибут инцидента. Без инцидента нет простоя. Измерять длительность инцидента объективными средствами мониторинга нужно и полезно. Только сложные процессы нужно мерять не пингом серверов, т.е. доступностью ИТ — компонентов, а по бизнес метрикам, например идут новые авторизации, не снизилось ли их число...

  • xpo2

    > Без инцидента нет простоя

    Да фиг там — для самопроверки представьте любую слабонагруженную систему.

    Приемщица химчистки периодически вешает табличку «перерыв 10 минут» и уходит курить за пределы видимости. Если клиенты не всякий раз об этом сообщают, то пункт приемки работал в каждый ее перекур?

  • Василий С.

    У нас был журнал в виде таблицы в общем доступе, где владельцы услуг фиксировали периоды недоступности критичных ИТ-услуг вручную, а затем на основе этого журнала считался показатель доступности за период. Доступна услуга или недоступна определялось на основе зафиксированных в SLA критериев (количество пользователей, у которых не доступна услуга, время открытия страницы авторизации (как метрика производительности)).

    Журнал недоступности, в свою очередь, опирался на данные из Процесса управления критичными (major) инцидентами. Менеджер данного процесса открывал критичный инцидент при определенных событиях, оповещал руководство ИТ и бизнеса, фиксировал хронологию, координировал работу по восстановлению и оповещал заинтересованных лиц.


Добавить комментарий

Ваш адрес email не будет опубликован.

  • Рубрики

  •  
  • Авторы

  •  
  • Самое свежее

    • Внедрение ИИ для вашей службы поддержкиВнедрение ИИ для вашей службы поддержки
      Но что на самом деле означает внедрение ИИ для возможностей ITSM вашей организации, особенно для службы технической поддержки?
    • Бесплатная конференция IT-Entrance для тех, кто хочет стать айтишниками
        28 мая в Минске пройдет бесплатная 11-я международная конференция IT-Entrance. Это мероприятие для тех, кто хочет попасть в IT, для начинающих IT-специалистов уровня junior с
    • ITIL 4 Specialist: High-velocity IT. Что внутри?
      В дополнение к уже опубликованным обзорам курсов по направлению Managing Professional (MP) сертификационной линейки ITIL4, сегодня мы рассмотрим еще один модуль – ITIL 4 Specialist: High-velocity IT (HVIT).
    • Весення уборка в бэклоге продукта: порядок за четыре шага!
      Каждая команда, которая ведёт разработку ПО в соответствии с практиками Agile, имеет бэклог продукта или по крайней мере думает, что он у неё есть. Кажется, что это очень простой инструмент, но на практике я регулярно сталкиваюсь с неумением им пользоваться для планирования работы разработчиков. Давайте попробуем разобраться, для чего нужен бэклог продукта и как извлечь из него максимум пользы. 
    • Warranty и Utility в ITIL4
      У услуг, которыми мы управляем в рамках Service есть две основные характеристики: гарантия — Warranty и Utility — полезность. Эти характеристики нужны нам, чтобы определить, будет ли услуга способствовать достижению результатов, которые нужны пользователю, а как следствие — создавать для них ценность.
    • Шесть практик для лучшего взаимодействия бизнеса и ИТ
      Хотели бы вы, чтобы руководители предприятий и ИТ могли лучше работать вместе, совместно работать над проектами и в полной мере обмениваться информацией? Если вы похожи на большинство ИТ-руководителей, ответ — да. Преимущества эффективного сотрудничества между бизнесом и ИТ включают в себя специальные проекты, которые лучше соответствуют бизнес-целям, улучшенное управление изменениями и более активное участие в новых инициативах.
    • Используйте технологии для повышения эффективности рабочего процесса вашей ИТ-команды
      Эффективное рабочее место создает, так сказать, хорошо смазанную машину, повышая итоговую прибыль и, как следствие, успех вашего бизнеса. Дополнительное время на работе не всегда означает большее достижение. Важно то, что вы делаете с тем временем, которое у вас есть, а это все об эффективности рабочего процесса.
    • Хранение данных и «внутренний хомяк»
      Хранение информации, которая больше не пригодится, сопряжено со огромным количеством рисков. Иллюстрация этому — череда сливов персональных данных пользователей крупных сервисов, которую мы могли наблюдать с января по март. Кажется, что предприятиям нужны правила, когда и как избавляться от данных.
    • Action BiasAction Bias — известная ловушка, в которую мы всё равно постоянно попадаем
      Action Bias: склонность к реагированию и действию, даже если это не приведёт к положительным результатам. «Делать хоть что-то» создаёт иллюзию загрузки ресурсов полезной работой.
    • бэклог27 антипаттернов бэклога продукта
      Эта статья показывает 27 распространённых антипаттернов продуктового бэклога, включая процесс уточнения бэклога продукта, ограничивающих успех вашей Скрам-команды.
  •  
  • Вход

  • DevOps
    Kanban
    ITSM
    ITIL
    PRINCE2
    Agile
    Lean
    TOGAF
    COBIT