Никакого пересказа ITIL, COBIT, ISO 20000, PRINCE2, TOGAF и прочего.
Только сведения от консультантов и тренеров Cleverics.
Только сведения от консультантов и тренеров Cleverics.

6170+
вопросов и ответов

25
авторов

440+
источников

100%
оригинальный контент
Основной проблемой при управлении микросервисной архитектурой является рост сложности системы. Поскольку каждый микросервис изолирован и имеет свои зависимости, входные и выходные параметры, общее число взаимодействий между компонентами может стать неуправляемым. Система может превратиться в хаотичный «войлочный шар», когда компоненты слабо упорядоченным образом взаимодействуют с множеством других элементов. Это значительно затрудняет диагностику проблем, выявление причин инцидентов и внесение изменений в систему. Без правильного управления конфигурациями и зависимостями система может стать такой же сложной для поддержки, как и монолитное приложение.
Не нужно. Вместо заключения множества OLA по одной и той же области (например, поддержки сетей) для каждой отдельной ИТ-системы достаточно создать один документ - операционный стандарт, описывающий уровень предоставления данной услуги в целом. Такой документ содержит информацию о доступности, технологических перерывах, времени восстановления, поддержке, ограничениях, ответственных лицах и других параметрах.
Разные процессные модели объединяют базовые понятия (доступность, мощность, непрерывность, безопасность) по-разному из-за различий в методологических подходах и целях моделей. Например, ITIL разделяет их на четыре отдельных процесса, тогда как другие стандарты, такие как COBIT 5 и MOF 4, могут объединять доступность и непрерывность или все параметры — в понятие «надежность». Это связано с тем, что структура процессов и их группировка зависят от фокуса модели: одни делают упор на детализацию и специализацию, другие — на минимизацию количества процессов и упрощение управления.
Этапы расширенного жизненного цикла инцидента включают: 1) момент возникновения инцидента — момент, когда пользователь ощутил снижение качества сервиса; 2) обнаружение — промежуток времени от возникновения до информирования поставщика ИТ-услуг; 3) диагностика — поиск причины инцидента; 4) исправление — проведение работ по устранению сбоя или замене компонента; 5) восстановление — завершение ремонтных работ в инфраструктуре; 6) возобновление — период от окончания восстановления до полного возврата пользователя к нормальной работе. Каждый из этапов имеет определённую продолжительность, и анализ затраченного времени на них позволяет оптимизировать процессы управления доступностью ИТ-услуг.
Независимость аудита CMDB необходима для объективного выявления нарушений процессов и несанкционированных изменений. Если проверку проводят те же сотрудники, которые отвечают за актуальность данных, существует высокий риск скрытия ошибок или неточностей. Независимые аудиторы способны беспристрастно оценить соответствие данных реальному состоянию инфраструктуры, выявить причины расхождений (например, игнорирование процедур управления изменениями) и обеспечить соблюдение стандартов управления конфигурациями.
Для обеспечения баланса между интересами заказчиков и пользователей ИТ-услуг необходимо создать четкую структуру взаимодействия, в которой техническая поддержка фокусируется на удовлетворении потребностей пользователей (удобство и стабильность), а менеджеры уровня услуг - на демонстрации ценности для заказчиков (бизнес-выгода и соотношение цена-выгода). Важно установить эффективные коммуникационные каналы между этими группами, чтобы недовольство пользователей оперативно доносилось до менеджеров уровня услуг, а бизнес-требования заказчиков правильно трансформировались в технические требования.
Поток создания ценности отличается от бизнес-процесса тем, что в первом каждый этап должен непосредственно добавлять ценность к конечному результату, в то время как бизнес-процесс может включать этапы, которые не создают ценность (например, этапы ожидания, паузы или блокировки). В потоке ценность должна добавляться на каждом шаге, тогда как в процессе допустимы этапы, которые не движут задачу вперед, но регулируют работу команды. Поток ориентирован на непрерывное создание ценности и требует фокуса на завершение текущих задач без простоя, тогда как процесс допускает периоды ожидания и управление через дедлайны.
В ITIL проблема — это причина одного или нескольких инцидентов. Если реализовавшийся риск привёл к инциденту, далее возникает необходимость выявить корневую причину — проблему — и устранить её для предотвращения повторных инцидентов. Таким образом, реализовавшийся риск может стать отправной точкой для инициирования управления проблемами.
Для информирования пользователей о major-инциденте и сокращения потока звонков рекомендуется: записать и включить голосовое сообщение через автоинформатор системы АТС; разослать уведомление по электронной почте или SMS; опубликовать текстовый анонс на сервисном портале. Эти методы позволяют массово информировать пользователей о статусе инцидента, уменьшая количество обращений в поддержку и освобождая ресурсы для решения самой проблемы.
Процесс управления проблемами инициируется не внешними событиями (в отличие от инцидентов), а внутренними механизмами: анализ тенденций множества инцидентов, плановые аудиты, результаты диагностики инцидентов, данные мониторинга систем и рекомендации экспертных групп (например, PRB). Для эффективной работы необходимо внедрить регулярные проверки этих источников и чётко прописать критерии создания записи о проблеме.