Никакого пересказа ITIL, COBIT, ISO 20000, PRINCE2, TOGAF и прочего.
Только сведения от консультантов и тренеров Cleverics.
Только сведения от консультантов и тренеров Cleverics.

6170+
вопросов и ответов

25
авторов

440+
источников

100%
оригинальный контент
Решение проблем часто требует внедрения изменений в инфраструктуру или ПО, поэтому процессы тесно связаны. После выявления корневой причины создаётся запрос на изменение (RFC), который проходит стандартные этапы оценки и утверждения. Ключевая роль управления проблемами — чётко определить необходимость изменения, а управления изменениями — безопасно его осуществить. Неотъемлемая часть процесса — обратная связь: фиксация в KEDB успешности внедрённого решения и его влияния на снижение инцидентов.
При изменении процесса управления изменениями следует учитывать: уровень сложности инфраструктуры компании и ее распределенность, количество и типы участвующих сторон (собственные команды, подрядчики, аутсорсинг), роль управляемых систем в бизнес-процессах (являются ли они фактором дифференциации), соотношение затрат на управление и получаемую выгоду. Также важно определить, находится ли организация в области 'Запутанно' или 'Сложно' по модели Cynefin, так как в условиях высокой сложности традиционные методы контроля становятся менее эффективными и целесообразнее действовать через эксперименты.
Неправильное распределение задач приводит к ряду негативных последствий: руководитель становится перегруженным рутинной работой, теряет контроль над стратегическими вопросами, снижается эффективность всей команды. В примере с деловой игрой Apollo-13 менеджер инцидентов, ставший маршрутизатором заявок, не смог обеспечить необходимый контроль за выполнением задач, в результате решено только 44% инцидентов, а среднее время решения увеличилось почти вдвое по сравнению с установленными SLA. Также может возникнуть хаос, потеря заявок и замедление работ, когда руководитель постоянно вмешивается в задачи сотрудников.
Определить наиболее важные для организации параметры качества можно через анализ бизнес-требований, консультации со стейкхолдерами и оценку последствий возможных сбоев. Например, для финансовых организаций последствия нарушения безопасности могут быть катастрофическими, поэтому безопасность становится приоритетом. Для компаний, предоставляющих непрерывные онлайн-сервисы, критична доступность системы. Этот выбор можно уточнить через процесс оценки рисков, где каждому потенциальному сбою в параметрах качества (доступность, мощность, безопасность, непрерывность) присваивается уровень критичности для бизнеса, что помогает расставить приоритеты в управлении.
Проактивный анализ позволяет выявить уязвимости до их эксплуатации, например, через аудит конфигураций, стресс-тестирование или сканирование уязвимостей. Это снижает вероятность инцидентов, особенно критических, и минимизирует затраты на их устранение. Например, обнаружение устаревшей версии программного обеспечения до кибератаки дает возможность обновить систему без прерывания бизнес-процессов.
После того как команда смогла достичь стабильной частоты релизов раз в две недели вместо запланированных еженедельных, существуют четыре основных сценария: 1) Согласиться с текущим положением как улучшением по сравнению с прошлым и продолжать пассивно пытаться улучшить ситуацию, но не предпринимая активных действий. 2) Продолжать активно работать над улучшением процесса, выявляя корневые причины и применяя изменения. 3) Зафиксировать текущую частоту как новую норму и планировать дополнительные внеплановые релизы. 4) Установить амбициозную цель ежедневных релизов, используя принципы DevOps и идя на радикальные изменения в процессах.
Разделение ИТ-подразделения на две функции — разработку (Change the business) и эксплуатацию (Run the business) — затрудняет управление ИТ-услугами, так как они управляются разными руководителями, имеют разные правила, точки входа для потребителей и взаимодействуют только через процессы управления изменениями и релизами. Это создает барьер для формирования сквозной ответственности за ИТ-услугу, которая должна охватывать все этапы от разработки до эксплуатации. Операционные взаимодействия, такие как управление инцидентами и проблемами, организуются относительно просто, но создание единой системы ответственности требует глубоких изменений в структуре и процессах.
Оценка удовлетворённости заказчика услугой проводится через регулярные опросы (формальные) и неформальные разговоры (например, 'у кулера'). Нужно прямо спрашивать заказчика, доволен ли он услугой, выявлять конкретные причины недовольства, если таковые имеются, и определять, что можно улучшить, даже если заказчик доволен. Важно получать как позитивную, так и негативную обратную связь, чтобы понимать, какие аспекты услуги ценятся, а какие требуют корректировки. Эта информация служит основой для выявления путей улучшения услуг через программу SIP.
Самым критичным уровнем влияния при оценке инцидентов считается ситуация, когда ИТ-услуга полностью недоступна для всего отдела или компании в целом. Такой уровень влияния обычно присваивается инцидентам, приводящим к полной остановке ключевых бизнес-процессов организации. Такие инциденты требуют немедленного решения и обычно имеют минимальные нормативные сроки устранения согласно SLA. Данный уровень влияния находится в верхней части иерархии приоритетов и предполагает задействование максимального количества ресурсов для быстрого восстановления работоспособности системы.
В ITIL проблема определяется как корневая причина одного или нескольких инцидентов, но не обязательно множественных. Даже единичный инцидент с высоким бизнес-воздействием (например, остановка платежной системы на час) требует анализа проблемы, так как его повторение недопустимо. Кроме того, управление проблемами включает работу с потенциальными рисками, выявленными без привязки к реальным инцидентам, например, через анализ тенденций в ИТ-инфраструктуре.