Представьте: в вашей компании снова упал критический сервис. Команда в панике, клиенты негодуют, руководство требует объяснений. После многочасового разбирательства инцидент закрывают… до следующего раза. Знакомая ситуация?
К сожалению, именно так сегодня (не) работает управление проблемами (Problem Management) во многих организациях. Сложности с организацией управления проблемами не новы, но современные технологии могут помочь их преодолеть.
Примеры тревожных симптомов неэффективного управления проблемами
1. “Это не проблема, это сложный инцидент”
В некоторых компаниях процессы управления проблемами на самом деле таковыми не являются. Вместо этого «проблемы» создаются просто потому, что команда, работающая с инцидентом, не хочет заниматься им дальше, или инцидент перекидывается между отделами. Это вопрос корпоративной культуры и руководства, а не процесса управления проблемами.
2. Культ RCA-форм
Многие организации сводят управление проблемами лишь к заполнению внутренней формы анализа первопричин (root cause analysis, RCA). Команды тратят дни на заполнение шаблонов анализа первопричин, но настоящие улучшения так и не происходят. Хотя RCA важен, он не должен быть единственным результатом. Эффективное управление проблемами должно также включать:
- выявление возможностей для улучшений,
- создание и использование базы знаний и обходных решений,
- предложения по доработке сервисов и процессов,
- регулярный аудит и улучшение самого процесса управления проблемами.
Обидно иметь среди своих достижений лучшие в отрасли отчёты о проблемах и худшие показатели их реального устранения.
3. Только реактивный подход
“Проблемы? Да мы их только после крупных инцидентов регистрируем!” — такое отношение превращает Problem Management в дорогостоящую “скорую помощь” вместо системы профилактики.
4. Слепота к бизнес-контексту
И даже если управление проблемами запускается не только в случае в случае значительного инцидента, но и, например, при достижении определённого количества инцидентов за заданный период, все равно в таких ситуациях может отсутствовать главное – понимание проблем в бизнес-контексте.
IT-специалисты часто видят технические сбои, но не понимают их реальной стоимости. Например, 30-минутный сбой CRM-системы может обернуться для ритейлера не только 50 потерянными заказами, но и волной негатива в соцсетях и оттоком клиентов.
Подобные ситуации случаются, когда критерии «что считать проблемой?» либо не определены, либо не учитывают ключевые факторы, такие как:
- бизнес-риски,
- репутационные потери,
- ухудшение опыта заказчика.
5. Отсутствие поддержки руководства
Многие ИТ-подразделения не могут добиться устойчивой поддержки управления проблемами со стороны руководства в том числе потому, что такие инициативы редко входят в стратегические приоритеты компании. А это происходит из-за того, что бизнес-руководитель не получает отчётов и метрик, которые:
- демонстрируют реальное влияние проблем на бизнес,
- показывают выгоды от их устранения (экономия средств, времени, снижение рисков, соответствие регуляторам, защита репутации).
Без таких показателей руководству сложно обосновать инвестиции в развитие практики управления проблемами. И значит, когда IT-директор говорит на языке “увеличили MTBF (mean time before failure, среднее время бесперебойной работы)”, а CFO думает категориями “потерянная прибыль”, о серьёзных инвестициях в профилактику проблем можно забыть.
Однако современные цифровые компании критически зависят от технологий: они обеспечивают бизнес-процессы, соответствие регуляторным требованиям, эффективность, уникальный клиентский опыт и конкурентные преимущества. Без технологий бизнес просто останавливается: самолеты не летают, поезда не ездят, банки не могут осуществлять платежи, – а финансовые последствия таких сбоев огромны: для малого бизнеса это — $137–427 в минуту, для крупных компаний — $5600–9000 в минуту.
Методы управления проблемами, такие как анализ влияния отказов компонентов (CFIA), анализ дерева отказов (FTA) и прочие, будучи хорошо организованными, позволяют выявлять уязвимости в технологической инфраструктуре компании и предотвращать сбои до их возникновения, за счет чего экономить время и деньги, которые пришлось бы тратить на ликвидацию последствий.
Еще и ИИ может помочь
Современные технологии искусственного интеллекта, могут обогатить привычные подходы к управлению проблемами:
- AIOps-системы работают как “кардиографы” ИТ-инфраструктуры, выявляя аномалии до того, как они станут инцидентами. Например, можно сократить количество инцидентов на 40%, научив систему предсказывать перегрузку серверов за 2 часа до критического порога.
- Генеративный ИИ превращает горы логов и писем в структурированное понимание, что именно не так в нашей системе. Вместо “где-то что-то глючит” вы получаете конкретные рекомендации: “Обновление Java до версии 11.0.6 в 83% случаев приводит к конфликту с библиотекой X в вашем стеке. Рекомендуем провести нагрузочное тестирование до релиза “.
- Ответные движки (типа ChatGPT для организаций) сокращают время диагностики. Представьте: инженер вместо 40-минутного копания в документации сразу получает готовое решение: “Ошибка 0x80070005 возникает при… Рекомендуемые действия: 1… 2… 3…”.
Но главное — ИИ становится “переводчиком” между IT и бизнесом. Современные системы могут показать, что решение этой проблемы: сэкономит 2 170 000 рублей в год на устранении инцидентов, снизит риск штрафа за несоответствие законодательству об обработке персональных данных на 30% и повысит NPS клиентов на 15 пунктов. Таким образом, диалог о финансировании управления проблемами станет более конструктивным и понятным обеим сторонам.
ИИ — не волшебная палочка
Важно понимать: искусственный интеллект не спасёт плохо организованные процессы. Внедрение ИИ в компании с хаотичными процессами можно сравнить с установкой умного термостата в доме с дырявыми стенами.
Прежде чем внедрять решения на основе ИИ, необходимо:
- Навести порядок в процессах управления ИТ
- Выстроить ведение чётких и полных записей об инцидентах
- Определить модели изменений и запросов на обслуживание
- Актуализировать и хорошо структурировать базу знаний
- Определить чёткие критерии для идентификации проблем
- Понять связь технологий и бизнес-результатов
Методы вроде картирования путей пользователя (Journey Mapping) и определения каталогов услуг помогут оценить, как ИТ-сбои влияют на бизнес.
Одновременно важно перестать считать инциденты и проблемы просто “техническими неполадками”. Ведите учёт влияния инцидентов и проблем в терминах потерянной выручки, репутационного ущерба и юридических последствий. В таком случае тогда вы сможете обосновывать необходимость вложения в развитие в управление проблемами так же в бизнес-терминах: «Уменьшение количества инцидентов определённого типа на 10% даст 500 000 рублей ежемесячной экономии».
Понимание связи технологий и бизнес-результатов поможет правильнее выбирать критерии для регистрации проблем. Например, вы сможете заменить критерий “5 сбоев в услуге за неделю”, на “снижение конверсии на 2% из-за ошибок платежей”.
- Внедрить культуру постоянного улучшения
Внедрение ИИ — крупное и не разовое мероприятие. Сразу внедрить ИИ везде невозможно, но можно начать с малого: использовать его для 2-3 критический услуг, а дальше итерационно наращивать охват, корректируя те или иные настройки и способы применения ИИ. Кроме того, без постоянного совершенствования используемых моделей данных, преимущества ИИ быстро устареют, а инвестиции окажутся напрасными. AI-модели в ITSM требуют ежеквартального обновления для поддержания точности на приемлемом уровне.
Новый взгляд на старые проблемы
Управление проблемами сегодня — это не про заполнение форм и отчёты “для галочки”. В эпоху цифровой трансформации оно становится и финансовым инструментом (каждая предотвращённая проблема – это сэкономленные деньги), и репутационным щитом (меньше сбоев – больше доверия клиентов), и стратегическим преимуществом (стабильные услуги – возможность быстрее внедрять инновации).
Технологии ИИ добавляют управлению проблемами новые, улучшенные возможности, нужно только грамотно их использовать.
И если вы целостно подойдете к задаче улучшения управления проблемами, гипотетический CIO крупного банка сможет похвастаться в своих бизнес-кругах говоря о том, что “Раньше мы тратили 80% IT-бюджета на ‘латание дыр’. Сейчас 60% идёт на развитие — потому что научились видеть проблемы до их появления”.
Начинайте с аудита текущих процессов — и возможно, первые улучшения можно внедрить уже на следующей неделе.