Rotas por alertname, deployment, namespace e container para reduzir ruído, com group_wait e repeat_interval ajustados ao contexto. Annotations ricas com nome de instância/pod e links de runbook.
Seleção dos meus trabalhos: Alertmanager bem afinado, dashboards Grafana que contam história, Prometheus com regras sob medida, Grafana OnCall com escalations por horário e automações (Kestra) que realmente mitigam.
KubePersistentVolumeFillingUp para acionar a 5 GB.Rotas por alertname, deployment, namespace e container para reduzir ruído, com group_wait e repeat_interval ajustados ao contexto. Annotations ricas com nome de instância/pod e links de runbook.
Escalonamentos por horário (dia/noite), rotas por severidade e nota automática no incidente. Integração com Slack/Teams e webhook para automações.
Rules customizadas (RDS, EBS, NAT, EFS, RabbitMQ) + k8s SLOs. Uso de predict_linear e janelas adequadas para evitar falsos positivos.
Visões por produto/ambiente, painéis de release e drill-down até pod/contêiner. Painéis Windows + Linux com métricas equivalentes.
Orquestração reativa ao OnCall: ações em CrashLoopBackOff, coleta de contexto (logs, describe) e publicação de nota no incidente.
Pipeline Jenkins/TeamCity, migração para OCI, imagens base otimizadas, mirror privado no ECR para reduzir egress.
Quer detalhes técnicos (YAML/CLI) de algum projeto? Me chama que publico um case aqui.