Ключевые практики управления доступностью и непрерывностью

Опубликовано 8 августа 2016

Рубрики: ISO 20000, Измерение и оценка ИТ, Управление доступностью, Управление рисками

Комментарии

Последнее время меня занимает вопрос оценки процесса управления доступностью и непрерывностью ИТ-услуг. И если с измерением результативности процесса, на мой взгляд, все более или менее понятно – она определяется степенью достижения согласованных показателей доступности и непрерывности услуг [1], то с измерением ключевых практик не все однозначно.

Собственно, вопросы есть уже к списку ключевых практик, которые необходимы для реализации назначения процесса. Здесь необходимо сделать оговорку, что я рассматриваю вариант ISO/IEC 20000, согласно которому управление доступностью и непрерывностью совмещены. Однако суть упражнения не поменяется и при разделении процессов. С оглядкой на ITIL и COBIT5 Enabling Processes получается следующий список ключевых практик:

Планирование доступности и непрерывности на основе требований бизнеса

Раз уж мы должны обеспечить согласованный уровень доступности, он должен быть определен и документирован в SLA, а кроме того явно задана граница доступности и недоступности (об этом я писал в заметке про критерий доступности). Возможная метрика, которая покажет успехи в этом направлении: полнота определения требований и критериев доступности по ИТ-услугам.

Ключевое значение на способность предприятия реагировать на ЧС и восстанавливать критические ИТ-услуги является наличие документированных процедур по реагированию, восстановлению и возврату к штатному функционированию ИТ-услуг (планов непрерывности). В отсутствии таковых рассчитывать на восстановление в соответствии с RTO и RPO практически не приходится. С точки зрения планирования непрерывности важно обеспечить надлежащий охват, как правило, критичных услуг/VBF планами непрерывности. Возможная метрика: полнота покрытия критичных ИТ-услуг/VBF планами непрерывности.

Наконец, как на стороне бизнеса, так и на стороне ИТ регулярно проходят изменения, требующие актуализации планов непрерывности. Чем дольше задержка актуализации планов, тем выше риски, что в случае наступления ЧС и активации планов что-то пойдет не так. Поэтому время, в течение которого необходимо провести актуализацию планов, должно быть ограничено (например, до конца рабочего дня или в течение 8 рабочих часов). Отсюда – метрика своевременности актуализации планов непрерывности.

Снижение рисков нарушения доступности

Важной частью процесса является сбор и анализ данных по доступности, выявление тенденций, оценка рисков и разработка мер по сокращению потерь в результате отказов ИТ-услуг. Есть ли от этого толк, покажет уровень доступности, анализируемый в динамике. А в рамках оценки ключевой практики могут контролироваться идентифицированные неприемлемые риски, в отношении которых не ведется работа по снижению.

Если очень повезло и в организации ведется учет понесенного ущерба в результате отказов, ключевая практика может быть переименована в «Рациональное снижение рисков нарушения доступности ИТ-услуг» и появится новая область для оценки – экономическая эффективность реализованных мер.

Проведение регулярных тестирований механизмов обеспечения доступности и непрерывности

Для того чтобы с одной стороны повысить, а с другой – проверить готовность ИТ-организации обеспечивать необходимый уровень доступности и непрерывности, согласно заранее составленному расписанию (как правило, на год) проводятся учения/тестирования. Очевидно, что такие учения должны: а) проводится своевременно, в соответствии с планом-графиком; б) как можно чаще, особенно по критичным ИТ-услугам. Отсюда метрики: своевременность проведения учений, полнота проводимых учений.

Вроде набор правильный, но есть чувство недосказанности. Или нет? Буду признателен за фидбек.

[1] При этом, конечно, определение алгоритма агрегирования, который позволит получать адекватный интегральный показатель задача вовсе не тривиальная, особенно в условиях десятков услуг разной критичности, набор согласованных показателей по которым различен.

ИНТЕНСИВ С ТРЕНЕРОМ

VAP: Управление рисками в ИТ

Как системно работать с рискам в ИТ, чтобы они помогали принимать управленческие решения

Комментариев: 2

Anton Boganov
08.08.2016

У меня появляется чувство недостаточности от того, что процессы управления доступностью и непрервывностью не опираются или не выливаются в сами технологии их обеспечения. От наличия регламента, прописывающего проведение учений или оценку рисков, производительность и непрерывность, а значит и доступность, лучше не станут! Как счаитаете, важно ли смотреть на архитектуру ИТ-услуги?
- Ответить
- Павел Дёмин
  12.08.2016
  
  Не уверен, что до конца понял вопрос.
  
  Если речь идет об учете фактического уровня доступности/непрерывности, то он безусловно окажет влияние на метрики результативности процесса (первый абзац заметки).
  
  Или же речь о том, что в наборе ключевых практик нужно предусмотреть, например, "Устранение единых точек отказа" и ввести метрику, с помощью которой можно будет отслеживать успехи?
  Ответить

Портал №1 по управлению цифровыми
и информационными технологиями

Ключевые практики управления доступностью и непрерывностью

Комментариев: 2

Anton Boganov

Павел Дёмин

Добавить комментарийОтменить ответ

Портал №1 по управлению цифровымии информационными технологиями

Также по теме:

Комментариев: 2

Anton Boganov

Павел Дёмин

Добавить комментарийОтменить ответ

Портал №1 по управлению цифровыми
и информационными технологиями