I/O latency: как измерять и находить узкие места в дисковой подсистеме

I/O latency — это время, которое проходит между запросом на чтение или запись данных и фактическим завершением этой операции. Проще говоря, это задержка доступа к диску. Чем выше latency, тем медленнее система обрабатывает операции ввода-вывода.

Высокая I/O latency может приводить к замедлению работы приложений, баз данных и даже всей операционной системы. Особенно критично это для сервисов, активно работающих с диском: СУБД, логирующих систем, очередей сообщений и файловых хранилищ.

Важно понимать, что даже при высокой скорости диска (например, SSD или NVMe) задержки могут возникать из-за перегрузки очередей, неправильной конфигурации файловой системы или недостатка ресурсов.

Почему возникает высокая задержка диска

Существует несколько распространённых причин высокой I/O latency:

Перегруженная очередь операций ввода-вывода
Медленный или изношенный диск
Большое количество мелких операций записи
Конкуренция процессов за доступ к диску
Неправильный I/O scheduler
Работа swap из-за нехватки RAM

Например, если база данных генерирует большое количество случайных операций записи, даже быстрый SSD может начать показывать высокую задержку из-за заполненной очереди запросов.

Базовые метрики дисковой подсистемы

Чтобы понять, есть ли проблема с диском, важно отслеживать несколько ключевых метрик.

Latency

Основной показатель — время выполнения операции чтения или записи. Обычно измеряется в миллисекундах.

Пример ориентиров:

HDD: 5–20 ms
SATA SSD: 0.2–2 ms
NVMe: 0.02–0.5 ms

Если latency значительно выше этих значений, стоит искать проблему.

IOPS

IOPS (Input/Output Operations Per Second) — количество операций ввода-вывода в секунду. Эта метрика показывает нагрузку на диск.

Throughput

Throughput — объём данных, передаваемых через диск в секунду (MB/s). Высокий throughput при высокой latency часто говорит о перегруженной системе хранения.

Queue depth

Глубина очереди показывает, сколько операций ввода-вывода ожидают выполнения. Если очередь постоянно растёт, диск не успевает обрабатывать запросы.

Как измерять I/O latency

В Linux существует несколько удобных инструментов для диагностики дисковой подсистемы.

iostat

Утилита iostat из пакета sysstat позволяет быстро увидеть задержки и загрузку диска.

Команда:

iostat -x 1

Полезные поля:

await — средняя задержка операции
svctm — время обслуживания
%util — процент занятости устройства

Если %util близок к 100%, диск полностью загружен.

iotop

Команда iotop показывает процессы, которые активно используют диск.

iotop

Это позволяет быстро найти приложение, создающее наибольшую нагрузку.

vmstat

Команда vmstat помогает определить, происходит ли активное использование swap.

vmstat 1

Если поля si и so растут, система активно читает и пишет в swap, что может вызывать высокую дисковую задержку.

ioping

Инструмент ioping работает по аналогии с ping, но для диска. Он позволяет измерить реальную задержку доступа.

ioping .

Это быстрый способ проверить, насколько отзывчив файловый слой.

Для более глубокого анализа производительности приложений можно использовать профилирование с помощью perf и flamegraph. Подробнее об этом — в статье «Профилирование производительности в Linux с perf и flamegraph».

Как находить узкие места

Когда обнаружена высокая latency, важно определить источник проблемы.

Определение перегруженного устройства

Сначала нужно понять, какой диск испытывает нагрузку. Это можно сделать через iostat:

iostat -x 1

Если одно устройство имеет высокий await и %util, вероятно именно оно является узким местом.

Поиск нагружающего процесса

Далее стоит определить, какое приложение генерирует нагрузку:

iotop -o

Флаг -o показывает только процессы, активно выполняющие операции ввода-вывода.

Анализ характера нагрузки

Важно понять, какие операции выполняются:

последовательные
случайные
мелкие записи
крупные блоки

Например, большое количество случайных мелких записей сильно нагружает HDD.

Типичные причины проблем

На практике чаще всего встречаются следующие ситуации.

Слишком много логов

Некоторые приложения пишут огромное количество логов. Если логирование происходит синхронно, это может резко увеличить latency.

Неправильная конфигурация базы данных

Базы данных могут генерировать интенсивный I/O. Например:

слишком маленький buffer pool
частые fsync
неэффективные индексы

Нехватка оперативной памяти

Когда системе не хватает RAM, она начинает активно использовать swap. Это приводит к резкому росту дисковой активности.

Медленная файловая система или RAID

Иногда узким местом оказывается RAID-контроллер или файловая система с неподходящими параметрами.

Как снизить I/O latency

После обнаружения проблемы можно применить несколько типичных решений.

Перенести интенсивные операции на отдельный диск
Увеличить объём оперативной памяти
Использовать SSD или NVMe
Оптимизировать настройки базы данных
Уменьшить объём логирования
Настроить подходящий I/O scheduler

Также полезно регулярно мониторить метрики дисковой подсистемы с помощью систем мониторинга, чтобы обнаруживать проблемы до того, как они повлияют на пользователей.

Итог

I/O latency — один из ключевых показателей производительности системы. Даже мощный сервер может работать медленно, если дисковая подсистема становится узким местом.

Используя инструменты вроде iostat, iotop и ioping, можно быстро определить источник проблемы и понять характер нагрузки. Регулярный мониторинг и грамотная архитектура хранения данных позволяют значительно снизить риск появления подобных узких мест.