Вопрос из зала. Периодически приходят алерты с серверов об ошибке памяти

Опубликовано 11 марта 2024

Рубрики: Вопрос из зала, Обо всём на свете

Комментарии

В редакцию портала поступил вопрос:

Возник такой вопрос – периодически приходят алерты с серверов об ошибке памяти. Теория говорит что есть риск внезапной перезагрузки сервера в период от 1 часа до пары недель. На практике сервер с такой ошибкой живет в среднем 1 неделю до ребута. Решение – миграция всех виртуалок (от 10 до 80) на другой кластер и замена модуля. Мнение как действовать разделилось:
1. Это P1 инцидент, делаем emergency change, немедленная миграция, несмотря на бизнес часы и риск сбоя виртуалки при миграции.
2. Это P2, делаем обычный change и выносим на CAB, у нас есть время все спланировать и мигрировать в течении 4-5 дней.
3. Это P3, используем модель изменения в которой CAB ждать не надо, в изменении минимум согласователей из экспертов, выполняется в тот же день после бизнес часов и после уведомления владельцев виртуалок.
Кто прав?

ОБУЧЕНИЕ

Учебные курсы и сертификация на русском языке

специалистов по ИТ-менеджменту

Комментариев: 1

Руслан
15.03.2024

На мой взгляд в ваших предложениях не хватает оценки влияния на бизнес. Что это за виртуалки, на какие бизнесы (бизнес-операции) они влияют? Есть ли разделение по степени критичности бизнеса (бизнес-операций)?
Исходя из ответов на эти вопросы может появиться еще P4, например, в таком виде: Согласовываем на сегодня плановые работы с простоем и мигрируем критичные виртуалки (1, 3, 5, 7)
- Ответить

Портал №1 по управлению цифровыми
и информационными технологиями

Вопрос из зала. Периодически приходят алерты с серверов об ошибке памяти

Комментариев: 1

Руслан

Добавить комментарийОтменить ответ

Портал №1 по управлению цифровымии информационными технологиями

Также по теме:

Комментариев: 1

Руслан

Добавить комментарийОтменить ответ

Портал №1 по управлению цифровыми
и информационными технологиями