Управляя ИТ-услугами, выстраивая нашу операционную деятельность и поддерживающие ее процессы, мы всегда помним, что ИТ-организациям помимо способности быстро устраняться сбои в своих услугах, т.е. решать инциденты, нужна еще способность определять причины этих инцидентов и делать так, чтобы в результате инциденты появлялись реже и меньше влияли на ИТ-услуги – это, конечно же, задачи практики управления проблемами.
Работая с проблемами, мы проходим три фазы: мы понимаем и фиксируем, что они (проблемы) вообще есть, далее анализируем, а в чем все же проблема, в каком компоненте, что именно не так, т.е. разбираемся, какая корневая причина наших сбоев, а потом думаем, как и что делать с проблемой дальше: устранять ли корневую причину, находить ли обходное решение, какое и надолго ли, – тут вариантов может быть несколько. Основная цель – чтобы проблема проявляла себя сбоями как можно меньше (или вообще ни разу).
Очевидно, что одной первой фазы – идентифицировать проблемы – недостаточно, чтобы сказать, что у нас налажено управление проблемами. Проблемы надо еще и решать. Но было бы неэффективно пытаться решать проблемы, не понимая деталей и глубинных причин. Так что без фазы анализа, без поиска корневых причин не обойтись.
При этом не забывайте, что проблемы часто носят комплексный характер и имеют не одну причину, а множество способствующих факторов. Поэтому часто очень важно глубже изучать проблемы, чтобы улучшить свою работу.
Кимберли Янес в своей статье делится с нами своими наблюдениями и рекомендациями о применяемых методах и подходах к анализу корневых причин (Root cause analysis, RCA).
Преимущества проведения анализа корневых причин
– За счет поиска более глубоких причин снижается вероятность того, что клиенты неоднократно столкнутся с одними и теми же неполадками. Надежность продуктов и услуг повышает удовлетворенность и лояльность потребителей.
– Со временем анализ первопричин экономит время, деньги и ресурсы организации, поскольку отпадает необходимость в повторных ремонтах или корректировках.
– Найденные в ходе анализа причины часто кроются в неоптимальных процессах и узких местах деятельности организации. Устранив эти причины, мы в целом оптимизируем работу организации, повышаем качество работы и моральный дух сотрудников.
Методы анализа корневых причин
Существует множество способов, с помощью которых ваша организация может провести анализ коренных причин. Выбор метода зависит от сложности проблемы, уровня детализации, необходимого для анализа, имеющихся данных и ресурсов, а также от желаемого результата процесса поиска корневых причин.
Давайте рассмотрим некоторые из методов, встречающиеся достаточно часто.
1. Пять почему
Метод Пяти почему подразумевает многократное повторение вопроса “Почему?”, чтобы снять слои симптомов и добраться до основной проблемы. Зачастую именно пять вопросов подряд помогают найти ту причину, с которой наиболее целесообразно бороться. Это простая методика не требует статистического анализа, что делает ее доступной для использования любым человеком. Однако ее простота может быть и ограничением, поскольку она может не подойти для решения сложных проблем с множеством первопричин.
Например, пользователи сталкиваются с проблемой медленного отклика при доступе к внутренней системе управления взаимоотношениями с заказчиками (CRM) компании. Мы начинаем задавать вопрос «Почему?»
1.Почему отклик медленный?
– Потому что сервер CRM-системы работает с большой задержкой.
2.Почему?
-Потому что в часы пиковой нагрузки загрузка процессора сервера постоянно составляет 100 %.
3.Почему?
– Потому что недавнее обновление программного обеспечения CRM привело к утечке памяти, которая со временем увеличивает использование ЦП.
4. Почему?
– Потому что обновление не было полностью протестировано в симулированной производственной среде перед развертыванием.
5.Почему?
– Потому что ИТ-отдел не располагал достаточными ресурсами и не мог выделить время на всестороннее тестирование в связи со сроками выполнения проектов.
И, возможно, это и есть та причина, с которой нужно бороться: задумываться об увеличении ресурсов или другом подходе к определению сроков работ.
2. Анализ причин и последствий отказов (FMEA)
FMEA – это пошаговый подход к выявлению всех возможных отказов в дизайне, процессе производства или сборки, продукте или услуге. Он особенно полезен на ранних стадиях разработки, поскольку помогает предотвратить проблемы до их возникновения. FMEA оценивает серьезность, вероятность и возможность обнаружения отказов, чтобы определить приоритеты, которые необходимо устранить в первую очередь.
3. Диаграмма Рыбья кость (диаграмма Ишикавы)
Когда проблема сложна и требуется структурированный анализ, диаграмма Рыбья кость, также известная как диаграмма Ишикавы, является визуальным инструментом, используемым для систематического выявления и представления всех возможных причин более глубокой проблемы. Она помогает командам проводить мозговой штурм и распределять причины по таким группам, как, например, методы, машины, материалы, люди, окружающая среда и измерения. Области группировки могут быть разными, но желательно подобрать их такими, чтобы они полностью покрывали весь возможный спектр проблем.
4. Анализ Парето
Чтобы сосредоточиться на том, куда направить усилия команды, а также выявить наиболее значимые проблемы, используйте анализ Парето, основанный на принципе Парето (правило 80/20). Он используется для определения приоритетности проблем или причин, чтобы сосредоточиться на тех, решение которых принесет наибольший эффект. Ваша команда создаст диаграмму Парето, на которой по оси X будут перечислены причины, а по оси Y – частота или влияние причин. 20% причин приводит к 80% сбоев. Именно ими и стоит заниматься в первую очередь.
5. Анализ дерева отказов(FTA)
Анализ дерева отказов – это нисходящий, дедуктивный аналитический метод, используемый для изучения причин конкретных событий (обычно неблагоприятных). Он использует графическое представление различных параллельных и последовательных причин, которые могут привести к событию. FTA особенно полезен в таких отраслях, как аэрокосмическая промышленность и атомная энергетика, где предотвращение отказов имеет решающее значение.
Как выбрать правильный метод RCA?
Контекст рассматриваемого вопроса поможет вам выбрать правильный метод анализа корневых причин, поскольку каждый из них имеет свои сильные стороны. Вот некоторые из соображений, которые вы можете принять во внимание при выборе метода, соответствующего характеру проблемы, вашим целям и возможностям вашей организации:
– Простые проблемы обычно требуют только базовых методов, таких как Пять почему, в то время как сложные проблемы требуют детальных методов анализа, таких как FMEA или FTA.
– Методы, требующие большого количества данных, такие как FMEA, подходят при наличии подробной информации. При ограниченности данных ключевое значение имеет диаграмма Ишикавы, поскольку она основана на экспертных оценках.
– Учитывайте опыт вашей команды и ресурсы, которые можно выделить. Некоторые методы требуют специальных знаний или инструментов.
– Помните, что соответствие отраслевым стандартам RCA может диктовать выбор метода, как в случае с авиацией.
– В зависимости от культуры вашей организации такие методы, как Пять почему или семинары с диаграммой Ишикавы, способствуют лучшему вовлечению команды и заинтересованных сторон.
Как проводить анализ коренных причин?
Деятельность по анализу корневых причин основана на предпосылке, что эффективнее систематически предотвращать и решать основные проблемы, а не просто лечить симптомы. Процесс относительно прост и обычно включает в себя следующие ключевые шаги:
- Знание проблемы: четкое определение возникшей проблемы или вопроса.
- Сбор данных: Сбор всей необходимой информации о проблеме, в том числе о том, когда и где она возникла и при каких условиях.
- Анализ данных: Использование различных методов RCA (таких как Пять почему, диаграмма Ишикавы, FMEA и т. д.) для выявления потенциальных причин.
- Выявление первопричины (причин): Определение основных факторов, которые привели к возникновению проблемы.
Советы для успешной организации анализа корневых причин могут быть следующие:
– Не изолируйте решение проблем, вместо этого сделайте RCA стандартной практикой на всех уровнях и во всех отделах.
– Поощряйте создание межфункциональных команд, поскольку их мнения могут пролить свет на упущенные аспекты проблемы.
– Сосредоточьтесь на причинах и решениях, а не на обвинениях.
– Идите глубже. Первые выводы не всегда раскрывают корневую причину.
– Найдите надлежащие доказательства. Предположений, догадок и мнений недостаточно.
– Инвестируйте в специализированные программные инструменты, которые могут упростить процесс RCA. Инструменты RCA, основанные на искусственном интеллекте, имеют большие перспективы.
– Создайте механизмы для регулярного мониторинга и анализа результатов RCA.
5 примеров анализа корневых причин
Подход анализа корневых причин универсален и систематичен, а значит, применим в различных областях, таких как ITSM, производство, авиация, здравоохранение и т. д.
Вот несколько примеров применимости поиска корневых причин в разных сферах нашей повседневной жизни, где становится наглядным, что именно определение и дальнейшее устранение корневой причины принесет более эффективный результат, чем устранение каждого отдельного «инцидента».
- Дефекты при производстве автомобилей
Если автопроизводитель замечает необычный процент возвратов из-за поломки определенного компонента двигателя, простой RCA (например, с помощью метода Пяти почему) может показать, что компонент выходит из строя из-за недостатка в производственном процессе, когда неправильные температурные настройки при термообработке ослабляют металл.
Первопричиной является неправильно настроенный станок. А значит, автопроизводителю нужно изменить настройки станка и переобучить персонал правильным процедурам.
- Неэффективный процесс стерилизации в больнице
Если в одном из отделений больницы наблюдается более высокий, чем в среднем по больнице, уровень послеоперационных инфекций, анализ корневой причины может выявить, что процесс стерилизации хирургических инструментов был нарушен.
Причина кроется в недавно замененном моющем растворе, который не был эффективен против всех видов бактерий. Самое разумное, что можно сделать, – это вернуться к использованию ранее эффективного моющего раствора и, возможно, провести дополнительные проверки эффективности стерилизации.
- Перебои в работе ИТ-систем
Представьте ИТ-компанию, которая сталкивается с частыми и необъяснимыми сбоями в работе своей платформы для обслуживания заказчиков. Если не искать корневую причину, придется каждый раз пытаться устранять эти сбои. Но если заняться поиском причины, то ходе проверки может выясниться, что перебои совпадают с большим объемом трафика, который превышает возможности системы.
И, например, на этом этапе станет очевидным, что произошедшее связано с неадекватными политиками масштабирования облачных ресурсов. Поэтому необходимо инвестировать в более надежную инфраструктуру, чтобы справиться с пиковыми нагрузками.
- Отказ оборудования в авиации
Допустим, авиакомпания обнаружила, что определенная модель самолета часто требует внепланового обслуживания из-за проблем с шасси. RCA определяет, что проблема с шасси связана с преждевременным износом гидравлического уплотнения.
Дальнейшее расследование показывает, что проблема возникла из-за недавнего перехода на более дешевую гидравлическую жидкость, которая не обладает определенными смазывающими свойствами. Лучшее, что они могут сделать, – это вернуться к оригинальной гидравлической жидкости и заменить затронутые уплотнения.
- В розничной сети наблюдается высокая текучесть кадров
И наконец, представьте, что в розничной сети наблюдается текучесть кадров среди сотрудников магазинов, превышающая средние показатели по отрасли. Исследование, проведенное с помощью интервью на выходе и опросов сотрудников, может показать, что основной причиной недовольства является негибкое расписание, которое не учитывает доступность или предпочтения сотрудников. И тогда для решения этой проблемы компания должна внедрить новую систему составления расписания, которая будет позволять сотрудникам вносить больший вклад в составление расписания.
Заключительные мысли
Итак, почему необходимо внедрять анализ корневых причин? Потому устойчивость вашего бизнеса зависит от упреждающего смягчения потенциальных сбоев и простоев, и потому что понимание первопричин позволяет лучше предотвратить негативные последствия.
Постарайтесь построить конструктивный процесс RCA, ориентированный на понимание того, как и почему возникла проблема, а не на возложение вины на отдельных сотрудников или команды. Если вы примете во внимание этот принцип, вы будете способствовать формированию культуры открытости и обучения, где целью является улучшение, а не наказание.
Будьте методичны и опирайтесь на факты.
Для ИТ-услуг, где сложность и объем данных очень велики, RCA на основе искусственного интеллекта будет особенно полезен для лучшего прогнозирования возможных будущих сбоев. По мере развития этой технологии мы увидим, как быстро диагностируются проблемы в программном и аппаратном обеспечении, прогнозируются сбои и предлагаются корректирующие действия.
Подробнее познакомиться с методами анализа проблем, а также управлении проблемами в целом можно на нашем курсе VAP: Управление поддержкой ИТ-услуг (интенсив с тренером).