Runbook: <название инцидента>

Шаблон. При создании нового runbook’а — копировать этот файл.

Severity (default): P1 / P2 / P3 Owner: <команда / роль> Связанные алерты: <metric_name>, <dashboard_link>

Симптом

Что видно оператору / клиенту / в дашбордах. Конкретно: алерт, ошибка, симптом UX.

Диагностика

Команды / запросы для подтверждения причины. Все команды — copy-paste готовые, со всеми флагами.

# Пример
kubectl -n tracium logs deploy/<service> --since=15m | grep ERROR
-- Пример
SELECT count(*) FROM outbox WHERE published_at IS NULL;

Смягчение

Что сделать сейчас, чтобы остановить кровь. Не обязательно root-cause — главное снять impact.

# Пример: scale up
kubectl -n tracium scale deploy/<service> --replicas=5

После применения — проверить, что симптом ушёл (как — конкретно).

Устранение root cause

Как починить по-настоящему. Если требуется PR — ссылка на типовой пример или TODO.

Эскалация

  • Кому пинговать, если mitigation не помог за N минут.
  • Канал: #oncall / #oncall-data / #security.
  • Включить дежурного: <процедура>.

Связано

  • ADR / архитектурная ссылка
  • Связанные runbook’и
  • Прошлые инциденты (если есть)