В редакцию портала поступил вопрос:
Возник такой вопрос – периодически приходят алерты с серверов об ошибке памяти. Теория говорит что есть риск внезапной перезагрузки сервера в период от 1 часа до пары недель. На практике сервер с такой ошибкой живет в среднем 1 неделю до ребута. Решение – миграция всех виртуалок (от 10 до 80) на другой кластер и замена модуля. Мнение как действовать разделилось:
1. Это P1 инцидент, делаем emergency change, немедленная миграция, несмотря на бизнес часы и риск сбоя виртуалки при миграции.
2. Это P2, делаем обычный change и выносим на CAB, у нас есть время все спланировать и мигрировать в течении 4-5 дней.
3. Это P3, используем модель изменения в которой CAB ждать не надо, в изменении минимум согласователей из экспертов, выполняется в тот же день после бизнес часов и после уведомления владельцев виртуалок.
Кто прав?
На мой взгляд в ваших предложениях не хватает оценки влияния на бизнес. Что это за виртуалки, на какие бизнесы (бизнес-операции) они влияют? Есть ли разделение по степени критичности бизнеса (бизнес-операций)?
Исходя из ответов на эти вопросы может появиться еще P4, например, в таком виде: Согласовываем на сегодня плановые работы с простоем и мигрируем критичные виртуалки (1, 3, 5, 7)