Портал №1 по управлению цифровыми
и информационными технологиями

Вопрос из зала. Периодически приходят алерты с серверов об ошибке памяти

В редакцию портала поступил вопрос:

Возник такой вопрос – периодически приходят алерты с серверов об ошибке памяти. Теория говорит что есть риск внезапной перезагрузки сервера в период от 1 часа до пары недель. На практике сервер с такой ошибкой живет в среднем 1 неделю до ребута. Решение – миграция всех виртуалок (от 10 до 80) на другой кластер и замена модуля. Мнение как действовать разделилось:
1. Это P1 инцидент, делаем emergency change, немедленная миграция, несмотря на бизнес часы и риск сбоя виртуалки при миграции.
2. Это P2, делаем обычный change и выносим на CAB, у нас есть время все спланировать и мигрировать в течении 4-5 дней.
3. Это P3, используем модель изменения в которой CAB ждать не надо, в изменении минимум согласователей из экспертов, выполняется в тот же день после бизнес часов и после уведомления владельцев виртуалок.
Кто прав?

Учебные курсы и сертификация на русском языке
специалистов по ИТ-менеджменту

Комментариев: 1

  • Руслан

    На мой взгляд в ваших предложениях не хватает оценки влияния на бизнес. Что это за виртуалки, на какие бизнесы (бизнес-операции) они влияют? Есть ли разделение по степени критичности бизнеса (бизнес-операций)?
    Исходя из ответов на эти вопросы может появиться еще P4, например, в таком виде: Согласовываем на сегодня плановые работы с простоем и мигрируем критичные виртуалки (1, 3, 5, 7)


Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

DevOps
Kanban
ITSM
ITIL
PRINCE2
Agile
Lean
TOGAF
ITAM
;