Портал №1 по управлению цифровыми
и информационными технологиями

Это катастрофа! Построение эффективного плана обеспечения непрерывности бизнеса

Поскольку технологии становятся все более распространенными практически в каждом виде бизнеса, концепция наличия конкретного плана реагирования на проблемные ситуации становится все более важной. В прошлом аварийное восстановление было в первую очередь бизнес-функцией, которая фокусировалась на событиях, способных остановить бизнес, заставить людей покинуть офис или сделать объект, локацию недоступными. Как правило, это были стихийные бедствия, такие как суровая погода, наводнения или что-то подобное.

Технологии изменили все это. Теперь, помимо стихийных бедствий, существуют и техногенные события, которые могут серьезно повлиять на функционирование бизнеса. Это могут быть несчастные случаи, например, если строительная бригада перерезала сетевое волокно на объекте, прорвало трубу в компьютерном зале или даже кто-то случайно отключил критически важную часть оборудования. Другие техногенные события более опасны, например атаки типа DoS, вредоносное ПО, вирусы и программы-вымогатели. Эти типы атак обычно приходят извне, но нередко они возникают и внутри компании, от недовольного сотрудника.

В частности, время от времени в новостях часто появляются сообщения об атаках на системы здравоохранения, местные и государственные органы власти. Эти события могут фактически остановить бизнес, пока он пытается восстановиться.

В результате концепция непрерывности бизнеса была включена в текущую версию ITIL. Если вы посмотрите на многие объявления о вакансиях в сфере ИТ, то увидите, что она часто включается в число ключевых обязанностей.

Несмотря на это, многие организации до сих пор не могут понять, как построить эффективный план обеспечения непрерывности бизнеса (BCP). Надеемся, эта статья поможет заложить основы.

Создание бизнес-кейса

Несмотря на то, что все признают важность восстановления после событий, приводящих к остановке бизнеса, может потребоваться обосновать идею о необходимости наличия формального процесса непрерывности бизнеса. Для этого вам может потребоваться составить бизнес-кейс, в котором будут приведены количественные оценки последствий таких событий. Как и в случае с большинством бизнес-планов, наиболее эффективный подход часто определяется стоимостью.

Очевидно, что существуют разные уровни реагирования, основанные на конкретных событиях. Вы можете сосредоточиться на наихудшем сценарии, то есть на полной остановке бизнеса – это повлечет за собой расходы на выплату заработной платы, стоимость недвижимости, потерю доходов и так далее. Но зачастую худший сценарий представить сложнее, а реальность такова, что, хотя он и возможен, такие события происходят редко.

Лучшим подходом будет просто рассмотреть один из типов событий. Например, поскольку существует множество примеров атак вымогателей и связанных с ними расходов, сосредоточьтесь на этом типе сценария. Перечислите материальные затраты – сумму выкупа, стоимость потери производительности, стоимость потери бизнеса и так далее. Затем перечислите нематериальные затраты, такие как влияние на репутацию или потенциальное влияние на курс акций.

Объясните, как работает этот тип атаки – что это может быть просто безобидное письмо, и кто-то переходит по ссылке, – и как это вредоносное программное обеспечение может распространиться по вашей сети и атаковать всех, кто находится в сети. Обратите внимание на то, что со временем эти события усугубляются. Чем дольше простой, тем больше затрат; чем дольше задержка в реагировании, тем больше вероятность того, что инфекция продолжит распространяться или возрастет стоимость восстановления данных. Смысл не в том, чтобы кого-то напугать, а в том, чтобы помочь развить здоровое понимание того, что может произойти, если не будет задокументированной реакции.

Объясните, каким будет подход (как описано ниже) и насколько важна поддержка руководства для успеха плана. Получив согласие, вы можете переходить к следующему шагу.

Создание плана обеспечения непрерывности бизнеса

Первый шаг – создание команд, отвечающих за BCP. Их можно разделить на три группы участников:
– Комитет по непрерывности
– Команда реагирования
– Консультанты

Для каждой группы должен быть список рассылки и дерево звонков. Помните, что в случае развития неблагоприятных событий не у всех может быть доступ к электронной или голосовой почте, поэтому необходим четкий план коммуникации. Списки рассылки могут принимать различные формы, и для наилучшего охвата лучше всего использовать несколько списков. Коммуникацию можно осуществлять с помощью электронной почты, голосовой почты, текстовых сообщений, социальных сетей или прямых звонков на мобильный или домашний телефон.

Именно в этом случае дерево звонков становится эффективным. Вместо того чтобы один человек пытался связаться с целыми командами, создается древовидная структура, в которой определенные контакты звонят другим, те, в свою очередь, звонят своим контактам и так далее. Это простой способ связаться со всеми, который должен работать практически в любой организации; в больших, более сложных средах можно автоматизировать процесс оповещения.

Хотя некоторые люди могут переходить из одной команды в другую, состав трех команд различается, поскольку у них разные функции:

  • Комитет по непрерывности бизнеса состоит из лиц, представляющих ключевые функции. Это должны быть люди, имеющие право принимать решения, влияющие на их сферы ответственности, предпочтительно руководители или их заместители. Каждый из этих людей будет отвечать за конкретную реакцию своих функциональных областей на произошедшее событие. Необходимо назначить двух человек, принимающих общие решения по вопросам реагирования: основного и заместителя. Кроме того, часто имеет смысл назначить двух человек в качестве владельцев документов – основного и заместителя, – которые будут отвечать за поддержание фактического содержания плана.
  • Группа реагирования будет состоять из людей, которые активизируются в случае возникновения события. В эту группу (с учетом модели “основной/запасной”) должны входить представители ключевых локаций, владельцы ключевых функций, а также лицо, принимающее общие решения, чтобы принимать решения на месте по мере развития событий. На самом деле есть три области, которые нуждаются в представительстве: критичные локации, критичные приложения и критичные поставщики. Определение этих областей будут рассмотрены позже.
  • Наконец, консультанты по плану непрерывности бизнеса – это те люди, которых необходимо информировать о ходе работ, например, члены высшего руководства, не входящие в вышеперечисленные команды. Другими консультантами могут быть люди, обладающие определенными навыками или знаниями, которые могут потребоваться в зависимости от типа события, его продолжительности или других заранее определенных критериев. Это могут быть другие ИТ-партнеры, руководители бизнеса или даже представители поставщиков.

Одной из задач комитета по непрерывности бизнеса будет создание определений того, что считается критичным. Это будет зависеть от таких факторов, как, например, размер организации или отрасль.

  • Критичные локации. На сколько критична та или иная локация зависит от того, что на нем размещено. В крупной распределенной компании не все объекты могут считаться критическими. Это может быть связано с численностью людей – чем больше площадка, тем более критичной она может быть, – или с функцией – небольшая локация с критичной функцией. Например, центр обработки данных или серверная ферма будут считаться критично важными, даже если в них будет работать меньше людей. Для каждого критично важного объекта должен быть разработан четкий план реагирования. Если место является критичным из-за присутствия большого количества сотрудников, задокументируйте, как в плане предусмотрено обеспечение работы сотрудников в случае, если локация станет недоступной. Возможен ли переезд на другой объект? Удаленная работа? Задокументируйте ответные меры в рамках плана. Если на объекте находится критично важная функция, в документации следует указать, как потеря этой функции отразится на бизнесе с течением времени. Возможно, бизнес сможет продержаться один день, но после этого затраты начнут расти, а потенциал потерь увеличиваться. Существуют ли обходные пути или другие площадки, которые могут восполнить недостаток? В документе следует указать их и описать процесс обходного пути или переноса функции. Если есть только одна локация, определите, может ли поставщик предоставлять аналогичные услуги как в краткосрочной, так и в долгосрочной перспективе.
  • Критично важные приложения. Это приложения, потеря которых окажет ощутимое негативное влияние на бизнес. Для большинства приложений, обеспечивающих производительность бизнеса, существуют альтернативы и обходные пути. Например, существует ряд инструментов организации рабочего процесса, которые предлагают обработку текстов, работу с электронными таблицами и возможности для создания презентаций. При попытке найти обходной путь или альтернативу для программного обеспечения, разработанного внутри компании, все становится сложнее. В этом случае будет полезно иметь автономный экземпляр такого программного обеспечения, изолированный от обычной рабочей сети, который можно переустановить или запустить с помощью назначенного поставщика. В рамках плана задокументируйте последствия с учетом продолжительности простоя, определив, когда возникнет необходимость в переустановке или использовании внешнего источника.
  • Критично важные поставщики. У каждого предприятия есть важные партнеры-поставщики. Если у одного из ваших поставщиков произойдет событие, которое повлияет на доступность, важно, чтобы был задокументирован обходной путь или альтернатива. В некоторых случаях выбор очевиден. Например, существует множество транспортных компаний, которые могут предоставлять аналогичные услуги, или несколько производителей компьютерного оборудования, которые могут предложить машины, построенные на общей архитектуре. Однако других партнеров, предлагающих продукты или услуги, которые могут быть недоступны, заменить будет сложнее. Это подчеркивает важность наличия задокументированного плана обеспечения непрерывности бизнеса, поскольку вы можете заранее провести исследование и определить, как вы можете отреагировать в случае какого-либо события.

Не стоит и говорить о том, что это жизненно важно, чтобы резервное копирование критично важных бизнес-данных осуществлялось либо с помощью локального приложения, либо через надежного поставщика. Эти данные должны регулярно переноситься за пределы помещения в безопасное место. Они должны быть изолированы от обычной сети, чтобы избежать повреждения в случае целенаправленных атак.

Для каждой из этих критичных областей частью документации должен быть контрольный список с указанием времени. В нем подробно описывается, что происходит на каждом этапе события. Должны быть четко задокументированы шаги, которые предпринимаются при активации плана управления непрерывностью.

В случае со стихийными бедствиями иногда существует предупреждение – например, об урагане или сильной метели. В этом случае план может быть активирован до события, в день минус x, для подготовки или укрепления объекта, перемещения функций, координации действий с поставщиками и т. д.

Если предупреждения нет, то план активируется, и контрольный список дает указания, что и в каком порядке должно произойти. Например, при активации плана одним из первых шагов является сбор всех вместе с помощью дерева звонков. Команда может оценить серьезность события и, исходя из этого, провести дальнейшую подготовку.

Далее в документации плана следует попытаться изложить, что должно произойти в течение определенного времени. Именно здесь документируются конкретные действия, если услуги будут прерваны на день, несколько дней, неделю, две недели, месяц, вплоть до того, что локация, приложение или поставщик окажутся невосстановимыми. Эта документация, основанная на времени, должна оценивать воздействие на бизнес и пытаться подробно описать, насколько функциональность может быть восстановлена на каждом этапе плана.

Ключевой функцией комитета по непрерывности является пересмотр и поддержание плана в актуальном состоянии. Как минимум, должен проводиться ежеквартальный обзор документа с выявлением изменений. Если план поддерживается в актуальном состоянии, эти ежеквартальные встречи не должны занимать много времени, достаточно лишь быстро оценить, не изменились ли контакты на объекте, или не нужно ли обновить какие-либо приложения или поставщиков.

Реализация плана

Наконец, наилучшей практикой является регулярная отработка реализации плана аварийного восстановления. Это подразумевает тестирование списков распределения и деревьев звонков и документирование реакции. Это означает, что вам необходимо регулярно проводить симуляции, в ходе которых группа реагирования на аварийную ситуацию отрабатывает сценарий. Это должно происходить как минимум раз в год, а лучше – два раза в год. Такие тренировки должны предусматривать уникальный сценарий – некоторые из них бывают забавными учениями вроде зомби-апокалипсиса или реалистичными симуляциями атаки вымогателей. Используйте то, что популярно или находится в новостях, или посмотрите на события, которые могут быть характерны для вашего региона (ураганы, землетрясения и т. д.). Это позволит команде проработать контрольный список и задокументировать области, требующие улучшения.

***

Это достаточно много, чтобы вникнуть в суть, но на самом деле эта статья лишь поверхностно коснулась создания плана обеспечения непрерывности бизнеса. Если все сделано правильно, план обеспечения непрерывности может оказаться бесценным даже в случае незначительных инцидентов и принести огромную пользу в том неприятном случае, если придется задействовать его полную версию. Именно готовность определяет успех или неудачу.

Познакомиться с оригиналом статьи


Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

DevOps
Kanban
ITSM
ITIL
PRINCE2
Agile
Lean
TOGAF
ITAM