Runbook: <название инцидента>
Шаблон. При создании нового runbook’а — копировать этот файл.
Severity (default): P1 / P2 / P3
Owner: <команда / роль>
Связанные алерты: <metric_name>, <dashboard_link>
Симптом
Что видно оператору / клиенту / в дашбордах. Конкретно: алерт, ошибка, симптом UX.
Диагностика
Команды / запросы для подтверждения причины. Все команды — copy-paste готовые, со всеми флагами.
# Пример
kubectl -n tracium logs deploy/<service> --since=15m | grep ERROR-- Пример
SELECT count(*) FROM outbox WHERE published_at IS NULL;Смягчение
Что сделать сейчас, чтобы остановить кровь. Не обязательно root-cause — главное снять impact.
# Пример: scale up
kubectl -n tracium scale deploy/<service> --replicas=5После применения — проверить, что симптом ушёл (как — конкретно).
Устранение root cause
Как починить по-настоящему. Если требуется PR — ссылка на типовой пример или TODO.
Эскалация
- Кому пинговать, если mitigation не помог за N минут.
- Канал:
#oncall/#oncall-data/#security. - Включить дежурного: <процедура>.
Связано
- ADR / архитектурная ссылка
- Связанные runbook’и
- Прошлые инциденты (если есть)