Runbook: <название инцидента>

Шаблон. При создании нового runbook’а — копировать этот файл.

Severity (default): P1 / P2 / P3 Owner: <команда / роль> Связанные алерты: <metric_name>, <dashboard_link>

Симптом

Что видно оператору / клиенту / в дашбордах. Конкретно: алерт, ошибка, симптом UX.

Команды / запросы для подтверждения причины. Все команды — copy-paste готовые, со всеми флагами.

# Пример
kubectl -n tracium logs deploy/<service> --since=15m | grep ERROR

-- Пример
SELECT count(*) FROM outbox WHERE published_at IS NULL;

Что сделать сейчас, чтобы остановить кровь. Не обязательно root-cause — главное снять impact.

# Пример: scale up
kubectl -n tracium scale deploy/<service> --replicas=5

После применения — проверить, что симптом ушёл (как — конкретно).

Как починить по-настоящему. Если требуется PR — ссылка на типовой пример или TODO.