Создание инцидента

Процесс создания инцидента и таймлайн событий


В Statuser инцидент создается автоматически, когда отслеживаемый сервис становится недоступным.

Инцидент позволяет собрать в одном месте всю информацию о проблеме, а также отслеживать ее статус и прогресс решения.

На дашборде инцидента можно увидеть причину ошибки, время начала и длительность инцидента, а также его статус и полную историю событий.

В Statuser все ошибки мониторинга имеют свой код, который позволит быстро понять, что произошло. Все коды ошибок и их описание можно посмотреть в отдельной статье.

История инцидента

В истории инцидента можно увидеть все события, которые обработал или выполнил Statuser:

  1. Ошибка мониторинга - с этого события начинается любой инцидент. Это событие показывает время провалившейся проверки, локацию, откуда проверка выполнялась и причину ошибки.

  2. Начало инцидента - время создания инцидента.

    Сейчас время начала инцидента совпадает с временем получения ошибки мониторинга, но в будущем появится возможность установить задержку между провалившейся проверкой и созданием инцидента, чтобы дать сервису время на восстановление и не запускать цепочку действий.

  3. Отправка уведомления - когда инцидент создан или завершен, Statuser отправляет уведомление на емейл и в телеграм (если уведомления не отключены в настройках) со статусом инцидента. Для каждой отправки уведомления создается отдельное событие в истории, которое позволяет увидеть, когда и кому было отправлено уведомление и статус доставки этого уведомления.

  4. Изменение ошибки проверки - если во время инцидента произошла ошибка проверки, которая отличается от предыдущей ошибки, то это также отразится в истории. Это особенно полезно, когда первоначальная проблема решена, но сервис продолжает выдавать ошибки по другим причинам.

  5. Успешная проверка - первая успешная проверка после недоступности сервиса. Это событие показывает, что сервис восстановлен и проверки из каждой локации проходят успешно.

  6. Завершение инцидента - когда сервис восстановлен и проверки проходят успешно, инцидент завершается.

  7. Комментарий к инциденту - к каждому инциденту можно оставить комментарий или написать постмортем. Комментарии позволяют зафиксировать все действия, которые были сделаны для решения проблемы и сохранить полученный опыт. Подробнее о работе комментариев в статье Комментарии к инцидентам.