Мониторинг медленных ответов

Отслеживание устойчивого увеличения времени ответа и уведомления о деградации производительности


Мониторинг медленных ответов позволяет обнаружить деградацию производительности в ситуациях, когда сервис формально остаётся доступным, но начинает стабильно отвечать медленнее обычного. Такой тип уведомлений полезен для выявления проблем до появления ошибок и инцидентов недоступности.

Механизм реагирует не на отдельные всплески задержки, а на устойчивое превышение заданного порога времени ответа.

Мониторинг медленных ответов доступен для HTTP/HTTPS‑проверок, поиска текста и опроса TCP‑портов. Для Ping и DNS этот механизм не применяется.

Как работает срабатывание

Оценка времени ответа выполняется только после получения результатов из всех выбранных регионов. Если данные хотя бы из одной локации отсутствуют, такая проверка в расчёт не принимается.

Время отклика анализируется только в том случае, если сервис находится в состоянии ONLINE во всех регионах. Если хотя бы в одном регионе проверка возвращается с ошибкой или недоступностью, счётчики медленного ответа сбрасываются. В этом случае система фиксирует инцидент недоступности, а не деградацию производительности.

Уведомление о медленном ответе отправляется, когда время ответа превышает порог в 3 последовательных проверках подряд. Превышение должно наблюдаться во всех регионах одновременно, что позволяет отсеять локальные сетевые проблемы и кратковременные всплески.

Восстановление фиксируется после 2 подряд проверок, в которых время ответа возвращается в допустимые значения. Для предотвращения дребезга используется пониженный порог восстановления — 80 % от порога срабатывания. Например, при пороге 1000 мс восстановление будет зафиксировано при задержке менее 800 мс во всех регионах.

Уведомления и рекомендации

Уведомление о медленном ответе содержит сервис или хост, установленный порог, максимальную зафиксированную задержку, время начала замедления и список регионов, в которых выполнялись проверки.

Для более стабильной работы рекомендуется использовать как минимум два региона мониторинга и подбирать порог с учётом SLA сервиса. При интервале проверок в одну минуту уведомление о медленном ответе будет отправлено примерно через три минуты устойчивой деградации.