Комментарии к инциденту

Добавление комментариев к инциденту и обсуждение проблемы


К каждому инциденту можно оставить комментарий или написать постмортем. Комментарии позволяют зафиксировать все действия, которые были сделаны для решения проблемы и сохранить полученный опыт.

Особенно полезно оставлять постмортемы после завершения инцидента.

Постмортем — это документ, который содержит информацию о причинах инцидента, действиях, которые были предприняты для его устранения, и рекомендации по предотвращению подобных ситуаций в будущем.

Пример простого постмортема:

Описание инцидента

5 января 2025 года с 10:00 до 10:45 (UTC) наш сервис испытывал недоступность для части пользователей. Проблема была вызвана превышением времени ожидания (таймаута) на уровне приложения, что привело к сбоям в обработке запросов. Основной причиной послужила высокая нагрузка на один из внутренних микросервисов, ответственного за обработку данных, вызвавшая цепочку задержек в системе.

Действия по устранению

После обнаружения проблемы мы оперативно перенаправили часть трафика на резервный сервер и увеличили таймауты на уровне балансировщика нагрузки, что позволило временно стабилизировать работу. Затем была проведена диагностика узкого места, в результате которой выявлен неэффективный запрос к базе данных. В течение часа запрос был оптимизирован, и нагрузка на систему нормализовалась.

План предотвращения

Для предотвращения подобных инцидентов мы увеличим частоту тестирования производительности, добавим мониторинг длительности критических запросов и внедрим систему автоматического масштабирования проблемных микросервисов. Также мы сократим значение таймаута на начальном уровне системы, чтобы быстрее определять подобные проблемы, не вызывая цепных сбоев.

Вложения к комментариям

К комментариям и постмортемам можно прикреплять файлы.

  • Поддерживаемые форматы: png, jpg, jpeg, webp, pdf, txt, log, json, csv, zip, md, yml, yaml, xml, gz, tgz
  • Максимум: до 5 файлов к одному комментарию
  • Ограничение размера: до 5 Мбайт на каждый файл

Вложения полезны, когда нужно сохранить контекст инцидента вместе с комментарием:

  • скриншоты ошибок или графиков с резким ростом задержки;
  • фрагменты логов (log, txt) с точным временем и текстом ошибки;
  • экспортированные данные для анализа (csv, json);
  • черновик или итоговый постмортем в md/pdf;
  • архив с дополнительными артефактами диагностики (zip, gz, tgz).

Добавляйте к комментарию те файлы, которые помогают разобрать причины инцидента и ускоряют дальнейшую диагностику.