Портал №1 по управлению цифровыми
и информационными технологиями

Вопрос из зала. Организация on-call дежурств для L3 команд

Опубликовано 31 октября 2022
Рубрики: Вопрос из зала
Комментарии

В редакцию портала поступил вопрос:

Добрый день!

Кейс с организацией on-call дежурств для L3 команд. В IT департаменте организации сложилось так, что в L3 командах, которые отвечают за критичные для компании сервисы (сетевая инфраструктура, серверное оборудование, системы версионирования и т.д.) работают по 2 человека в каждой команде (сетевые админы, инфраструктурные админы, атлассиан админы и др.). В обычное рабочее время (8 на 5) идаже с учетом отпусков и больничных этой численности хватает для решения задач.

Но есть необходимость организовать on-call дежурства 24 на 7 по обработке инцидентов по некоторым самым критичным сервисам. Процесс выглядит так что от системы мониторинга поступают алерты, поступает звонок в L1, далее L2 при необходимости, далее L3 тоже при необходимости. При этом на всех уровнях — это именно дежурство по телефону (ответить на звонок), то есть это не полноценная работа 24 на 7.

С L1 и L2 командами в этом плане все ок, у них численность побольше, но с L3 — есть вопросы, т.к. сотруднику придется пол месяца условно быть в on-call, хоть инциденты случаются очень редко, тем не менее это все-равно накладывает какие-то ограничения для сотрудника и они сопротивляются такому подходу. Найм в команды L3 сотрудников рассматривается, но пока очень спорный, т.к. тогда не хватает загрузки для дорогих специалистов в обычное время. Также рассматриваем возможность доп мотивации сотрудников за on-call дежурства в различных видах.

Думаю это не очень уникальный кейс и буду признателен за то, что набросаете варианты решения по нему.

Комментариев: 10

  • Я так понимаю, что на L3 эскалируют обращения не так часто, а только тогда, когда L1 и L2 не смогли с ними справиться. При такой загрузке нет необходимости держать постоянно в смене 2 человека на L3. Можно организовать консьерж- сервис, или при 24/7 – “ночной портье” (сторож), который при необходимости может привлекаться для выполнения работ (они ведь не часто случаются?). Это разгрузит привлечение персонала, которое есть сейчас.
    Или организовать Сворминг (роение), если есть необходимость, но не держать полную смену на L3.

    • Павел

      Тут вопрос именно в решении инцидентов во внерабочее время. Если произошел инцидент по критичной услуге, который может решить только сотрудник L3 команды в рабочее время – все ок, задач просто придет на эту команду.
      Но если пришел такой инцидент внерабочее время (а L3 работают 8 на 5 условно с 9 до 18), то его нужно решить не откладывая на следующий день, для этого необходимо дозвониться до L3 специалиста и он должен проснуться, включить компьютер и что-то сделать.
      И вот тут вопрос – с одной стороны это происходит очень редко, ну позвонят раз в месяц, а то и раз в год. Но с другой стороны сотрудник L3 команды должен быть всегда готов к этому, компьютер рядом, интернет и т.д., а когда их всего 2 в команде, то получается условно один полмесяца должен быть готов и второй – другую половину месяца. И вот это им не нравится) Хочется найти подход к этому вин-вин)

      • Игорь

        Павел, спасибо!
        Хорошо сфорулированный вопрос – половина ответа 🙂

        Если вы хотите win для бизнеса (увеличение времени поддержки), и это, как вы пишете, достижимо только за счёт увеличения времени работы специалистов L3, то вам нужно придумать, в чём будет win для этих специалистов.
        Я лично сомневаюсь в долгосрочном эффекте денежной мотивации в виде доплат за “дежурство”. Но знаю, что в некоторых организациях это устроено так.

  • Наталья

    Добрый день, коллеги!
    Согласна, доплата за дежурство вряд-ли будет стимулировать на долгосроке.
    Но можно рассматривать ночные звонки как работу в выходной, т.е. на усмотрение специалиста L3 предоставлять либо двойную оплату по часам, либо выходной.

  • Vsevolod Shabad

    Добрый день!

    Я бы задал вопрос – “…то его нужно решить не откладывая на следующий день..” _НАСКОЛЬКО_ сильно нужно? Что произойдет, если решить не прямо сейчас, а когда наступит следующий день?

    Иными словами, как в глазах стейкхолдера выглядит SLO для этой услуги?

    С учетом, судя по всему, достаточно низкой интенсивности потока таких инцидентов, похоже, что сформировать репрезентативную выборку и установить разумные статистические критерии для SLA не получится (например, “в 90% случаев такие инциденты решаются за 2 часа”), и стейкхолдеры, предположительно, должны это понимать.

  • Александр

    Добрый день.
    Непростая задача, на самом деле.
    Оплата условных 2-х часов ночных работ в месяц не покроет беспокойства специалистов, а компенсация 544 часов в месяц дежурств на телефоне для каждого сервиса может оказаться слишком дорогой. Даже если компенсировать днем отдыха за 3 суток дежурства, каждому в месяц достанется 5 лишних дней. То есть минус 0.5 человека в месяц на сервис.
    Можно посмотреть в сторону бонусов за доступность и непрерывность сервисов для L3. Чтобы инженеры были сами заинтересованы даже ночью быстро поднять то, что неожиданно упало. И постараться не допустить такого падения в следующий раз.
    Но если бизнесу все-таки нужна круглосуточная работа сервисов, то рано или поздно всё равно всё придет к тому, что придется создавать круглосуточную службу мониторинга из универсальных специалистов, которые будут работать в смену и в любое время суток смогут по инструкции поднять любой упавший сервис, оставив для L3 на дневное время только разбор причин падения.

  • Владимир

    Найти квалифицированные кадры для работы по ночам не просто. Инструмент удаленного управления инфраструктурой из дома в нерабочее время – не надежно (сон у каждого разный); в идеале сделать распределенную L3, на которой будут работать сотрудники из разных часовых поясов, каждый – в свое дневное/рабочее время.

  • Анатолий П.

    аутсорсинг L3 решает задачу. оплата по часам.
    За счет оказания услуги многим для аутсорсера выгодно и клиенты довольны.

  • Александр

    Мы приплачиваем 15-20% ЗП за время ожидания звонка и стандартно 2 ЗП за часы работы в случае вызова. Иногда за время ожидания набирается 50% ЗП и 10-15% за время устранения инцидентов.
    Все довольны.

  • Уведомление: How to avoid burnout - Prog.World

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

DevOps
Kanban
ITSM
ITIL
PRINCE2
Agile
Lean
TOGAF
ITAM