Мониторинг сетевой инфраструктуры с SNMP и Telegraf

Сеть — один из самых критичных компонентов любой инфраструктуры. Проблемы с маршрутизаторами, коммутаторами или каналами связи часто проявляются как «медленный сервис», хотя на самом деле причина в сети.

Чтобы это видеть, нужен мониторинг сетевой инфраструктуры. Один из классических подходов — SNMP + Telegraf.

Что такое SNMP

SNMP (Simple Network Management Protocol) — это протокол, через который устройства отдают метрики.

Поддерживается почти всеми:

маршрутизаторы
коммутаторы
серверы
сетевые устройства (UPS, firewall)

Через SNMP можно получить:

загрузку интерфейсов
количество пакетов
ошибки и дропы
CPU и память устройств

Как устроены SNMP-метрики

SNMP использует OID (Object Identifier) — уникальные идентификаторы метрик.

Пример:

трафик интерфейса
количество ошибок

Обычно используют готовые MIB (Management Information Base), чтобы не работать напрямую с OID.

Что такое Telegraf

Telegraf — это агент для сбора метрик.

Он умеет:

опрашивать SNMP
преобразовывать метрики
отправлять их в систему хранения (InfluxDB, Prometheus и др.)

Фактически это «сборщик» данных.

Как это работает вместе

Устройства отдают метрики по SNMP
Telegraf опрашивает их
Метрики отправляются в хранилище
Grafana визуализирует данные

Схема:
Network devices → SNMP → Telegraf → InfluxDB / Prometheus → Grafana

Настройка SNMP на устройстве

На большинстве устройств нужно:

включить SNMP
задать community (например, public)
ограничить доступ по IP

Пример (условно):

snmp-server community public RO
snmp-server host 192.168.1.10

Важно: не используйте public в продакшене без ограничений.

Настройка Telegraf

В конфиге добавляем input:

[[inputs.snmp]]
  agents = ["192.168.1.1:161"]
  version = 2
  community = "public"
 
  [[inputs.snmp.field]]
    name = "ifInOctets"
    oid = "IF-MIB::ifInOctets"
 
  [[inputs.snmp.field]]
    name = "ifOutOctets"
    oid = "IF-MIB::ifOutOctets"