SLA 99.9% и 99.99%: сколько минут простоя допустимо в месяц и год

Понимание уровней доступности (SLA, Service Level Agreement) критически важно для DevOps-инженеров, разработчиков, владельцев SaaS-продуктов и системных администраторов. SLA показывает, насколько надёжно работает система, сервер, облачная инфраструктура или веб-приложение. Часто можно услышать обещания вроде "SLA 99.9%" или "SLA 99.99%", но что это означает на практике? Сколько минут простоя допустимо в месяц и в год при таких показателях?

В этой статье мы подробно рассмотрим:

Что такое SLA и как его измеряют;
Разницу между SLA 99.9% и 99.99%;
Таблицу допустимого времени простоя;
Как SLA влияет на качество сервиса и удовлетворённость клиентов;
Советы по достижению высоких SLA в IT-инфраструктуре.

Что такое SLA в ИТ-инфраструктуре

SLA (Service Level Agreement) — это соглашение об уровне предоставляемого сервиса. В ИТ это часто выражается в процентах доступности — uptime, который рассчитывается как:

uptime = (время без сбоев / общее время) * 100

Если сервер работает стабильно в течение 30 дней и недоступен только 1 час, SLA за этот месяц будет:

uptime = ((30*24 - 1) / (30*24)) * 100 ≈ 99.86%

SLA является важным показателем при выборе облачного провайдера, хостинга, CDN, API или систем мониторинга. Чем выше SLA, тем меньше простоев и сбоев в работе приложения.

Допустимое время простоя при SLA 99.9% и 99.99%

Вот таблица допустимого времени простоя для разных уровней SLA:

SLA	В день	В месяц	В год
99.0%	14.4 мин	7.3 ч	87.6 ч
99.9%	1.44 мин	43.8 мин	8.76 ч
99.95%	43 сек	21.9 мин	4.38 ч
99.99%	8.6 сек	4.38 мин	52.6 мин
99.999%	0.86 сек	26 сек	5.26 мин

Даже разница между 99.9% и 99.99% может быть критичной — речь идёт о 39 минутах простоя в месяц.

Пример на пальцах

Представьте, что у вас интернет-магазин с трафиком 100 000 пользователей в месяц. Простои:

при 99.9% — до 43 минут — это может быть 2–3 падения по 15 минут в часы пик;
при 99.99% — всего 4.38 минуты — максимум одно короткое прерывание.

Для SaaS-сервисов, которые работают в B2B-сегменте и обслуживают корпоративных клиентов, это принципиально важная разница. Высокий SLA повышает доверие, снижает отток и минимизирует потери от инцидентов.

Почему SLA — это не просто маркетинг

SLA — это не только красивые цифры. Они напрямую связаны с:

Надёжностью архитектуры (кластеризация, отказоустойчивость);
Качеством DevOps-процессов (CI/CD, мониторинг, алерты);
Времени реакции на инциденты (SRE, On-call);
Автоматизацией восстановления (auto-healing, canary release);
Использованием систем мониторинга аптайма и логирования (например, Statuser).

Сервисы, обещающие 99.99% аптайма, должны иметь продвинутую инфраструктуру: балансировку нагрузки, резервные зоны доступности, репликацию БД и устойчивость к сбоям сети или DNS.

Как достичь 99.99% аптайма: рекомендации

Чтобы гарантировать SLA 99.99%, стоит следовать следующим техническим рекомендациям:

Многоуровневая архитектура: разделение логики на микросервисы и выделение критичных компонентов.
Резервные инстансы: использование кластеров Kubernetes, autoscaling групп в облаке.
Мониторинг и алерты: инструменты как Prometheus, Grafana, Statuser для оповещений и видимости инцидентов.
Canary deployment: частичный rollout новых версий для минимизации риска.
Бэкапы и аварийное восстановление: регулярное тестирование disaster recovery.
CI/CD с откатом: автоматизированные пайплайны с возможностью rollback.

Когда 99.9% достаточно

Если ваш проект — блог, тестовый сайт или небольшая внутренняя система, SLA 99.9% может быть приемлемым. Главное — понимать последствия:

Потеря пользователей в момент падения;
Снижение доверия, если инциденты происходят часто;
Возможные финансовые потери при высокой нагрузке.

Заключение

Уровень SLA напрямую влияет на надёжность вашего цифрового продукта. Разница между 99.9% и 99.99% может составлять почти 40 минут простоя в месяц — а это критично для высоконагруженных или коммерческих сервисов.

Понимание SLA и его влияния на бизнес поможет вам:

Трезво оценивать предложения провайдеров;
Принимать архитектурные решения;
Внедрять отказоустойчивость на всех уровнях.

Используйте инструменты мониторинга, такие как Statuser, чтобы контролировать аптайм и строить отчётность по SLA — это повысит доверие клиентов и упростит технический контроль за стабильностью.