Портал №1 по управлению цифровыми
и информационными технологиями

Вопрос из зала: Перспективы диагностики инцидентов «на лету»

Александр Мешков интересуется экспертными мнениями по поводу своей новой идеи.


В данный момент наша компания разрабатывает решение, позволяющее диагностировать инциденты «на лету», и нам хотелось бы услышать мнения уважаемых коллег о перспективах этой концепции – диагностики инцидентов «на лету».

Суть концепции заключается в том, что сервисный запрос на пути от пользователя к Службе поддержки обрастает сначала диагностической информацией (первый и второй этапы), а затем и проектом диагноза (третий этап). Таким образом, когда Служба поддержки получает Снимок Инцидента, ей остаётся только удостовериться в правильности диагноза и применить адекватное ему решение.

Более подробно алгоритм диагностики инцидентов «на лету» выглядит так.

Первый этап. На стороне пользователя создаётся некое формальное описание инцидента (Снимок инцидента). Предполагается автоматическое создание и регистрация инцидента с использованием специального ПО.

Второй этап. Снимок инцидента принимается системой мониторинга и связывается с метриками здоровья ИТ-инфраструктуры и качества ИТ-сервисов, отслеживаемыми системой мониторинга. Оценивается качество работы тех компонентов ИТ-инфраструктуры, которые, согласно описанию инцидента из Снимка инцидента, могут иметь к нему отношение, и Оценки качества прикрепляются к Снимку инцидента.

Третий этап. Снимок Инцидента передаётся в Диагностическую базу знаний. На основании Параметров окружения пользователя и Оценок качества, содержащихся в Снимке инцидента, выбирается вероятный диагноз (один или несколько) и тоже прикрепляется к Снимку инцидента. Снимок инцидента регистрируется в Service Desk. И вот результат: сотрудник поддержки получает сразу описание инцидента со стороны пользователя, со стороны ИТ-инфраструктуры (что было не так в момент инцидента и около) и вероятный диагноз. Мы полагаем, что такое решение оказалось бы небесполезным, по крайней мере, при диагностике типовых инцидентов, каковых большинство, и в особенности для крупных компаний, но хотелось бы услышать ваши мнения.


Комментариев: 8

  • Vladimir Kapustin

    У нас чуть проще схема.
    При звонке по входящему номеру определяется клиент, и к моменту ответа оператора, ему выводится результат диагностики, но без диагнозов. Места, на которые стоит обратить внимание просто подсвечиваются, но конечное решение за оператором.

    • Денис Литовских

      А с помощью чего у вас собирается первоначальная диагностическая информация?

    • Aleksandr Meshkov

      Добрый день.

      Разрешите уточнить – под местами, на которые стоит обратить внимание, подразумеваются компоненты ИТ-инфраструктуры или – ?..

  • Aleksandr Meshkov

    Было бы слишком громко называть это только моей идеей – это концепция нашей компании)

  • Pavel Solopov

    Вопрос только в одном, кто будет разрабатывать достаточно не тривиальные алгоритмы диагностирования. Я встречал в некоторых системах мониторинга подобный функционал (попроще конечно), но нигде не встречал, чтобы он работал. Поскольку алгоритм из коробки не совсем подходит, а самим разрабатывать нет либо ресурсов, либо желания.

  • Sergey Yuditsky

    Коллега, мне кажется Вы немного усложняете :-).

    У нас разработан набор Экспертиз, позволяющих оценивать качество работы различных компонент ИТ-Инфраструктуры. Описание этих Экспертиз можно найти здесь: http://www.you-expert.ru. Их можно попробовать, загрузив бесплатный продукт QuTester Plus (http://www.prolan.ru/netconsulting/download/qutester/form.html). Они используются много лет очень многими компаниями, список которых можно найти здесь: http://www.prolan.ru/netconsulting/download/qutester/form.html

    Таким образом, задача сводится к решению двух задач:

    1. Описанию того, какие Оценки необходимо включать в Снимок Инцидента в зависимости от вида Сервиса и местоположения пользователя. Эта задача на два порядка проще, чем создание сервисно-ресурсной модели. Никакие алгоритмы для её решения не требуются. Достаточно здравого смысла. Если ИТ-Инфраструктура относительно небольшая и Сервисов не много, то задача решается за пару дней.

    2. Определению списка значимых параметров для каждой комбинации: «Что случилось» + Оценки Здоровья ИТ-Инфраструктуры. Здесь также никакие алгоритмы не требуются. Поясню на примере.

    У меня есть знакомый в Австралии, который работает в фирме по ремонту мониторов. Фирма 2,5 человека, а ремонтируют невообразимое число мониторов в месяц. Я спрашивал, как им это удается. Ответ: База Знаний. Никаких алгоритмов в ней нет, а есть набор признаков и соответствующий каждому набору «диагноз». Как только обнаруживается новая неисправность, они её сразу заносят в Базу Знаний. Это, как он говорит Absolutely Must, даже не обсуждается. За счет этого, как он говорит, в 90% случаев, он неисправность не ищет, а просто проверяет описанные в Базе Знаний признаки. Собственно, ровно та же самая идея предлагается и в «Диагностике на лету». Просто другие признаки и другие диагнозы. Всё что нужно, это корректно записывать признаки после диагностики каждого инцидента.

  • Sergey Yuditsky

    Павел, понимаю, откуда появился вопрос. Александр, при описании идеи, не дал ссылку на описание того, как она должна решаться :-).

    Решение кратко описано здесь: http://blog.prolan.ru/2013/03/%D0%B4%D0%B8%D0%B0%D0%B3%D0%BD%D0%BE%D1%81%D1%82%D0%B8%D0%BA%D0%B0-%D0%B8%D0%BD%D1%86%D0%B8%D0%B4%D0%B5%D0%BD%D1%82%D0%BE%D0%B2-%D0%BD%D0%B0-%D0%BB%D0%B5%D1%82%D1%83/


Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

DevOps
Kanban
ITSM
ITIL
PRINCE2
Agile
Lean
TOGAF
ITAM