Leandro Gouveia
DevOps / SRE • AWS & OCI • Observabilidade & Automação
Observabilidade, OnCall & Automação

Monitoramento que resolve incidente — não só cria alerta.

Seleção dos meus trabalhos: Alertmanager bem afinado, dashboards Grafana que contam história, Prometheus com regras sob medida, Grafana OnCall com escalations por horário e automações (Kestra) que realmente mitigam.

AWS EKS • Route 53 • CloudFront OCI • IAM • Cost‑Optimization Prometheus Operator • k‑prom‑stack Grafana • Grafana OnCall Kestra • Jenkins/TeamCity

Destaques recentes

  • OnCall 1.13 → 1.16 com janelas por fuso (UTC‑3)
    Upgrade faseado + novas escalation chains para noite/finais de semana.
  • Regra de PV quase cheio por GB restante
    Ajuste do KubePersistentVolumeFillingUp para acionar a 5 GB.
  • Automação de CrashLoopBackOff
    Flow Kestra com webhook do OnCall que deleta pod e posta nota.

Projetos

Alertmanager tuning

Rotas por alertname, deployment, namespace e container para reduzir ruído, com group_wait e repeat_interval ajustados ao contexto. Annotations ricas com nome de instância/pod e links de runbook.

repeat_interval: 1hlabels úteis
Grafana OnCall

Escalonamentos por horário (dia/noite), rotas por severidade e nota automática no incidente. Integração com Slack/Teams e webhook para automações.

Schedules UTC‑3Webhook
Prometheus & Regras

Rules customizadas (RDS, EBS, NAT, EFS, RabbitMQ) + k8s SLOs. Uso de predict_linear e janelas adequadas para evitar falsos positivos.

SLO/SLARDS forecast
Dashboards que contam história

Visões por produto/ambiente, painéis de release e drill-down até pod/contêiner. Painéis Windows + Linux com métricas equivalentes.

kube‑prom‑stackWindows+Linux
Automação Kestra

Orquestração reativa ao OnCall: ações em CrashLoopBackOff, coleta de contexto (logs, describe) e publicação de nota no incidente.

RBAC/IRSAOCI+AWS
CI/CD & Imagens

Pipeline Jenkins/TeamCity, migração para OCI, imagens base otimizadas, mirror privado no ECR para reduzir egress.

BuildxECR

Stack

Contato

Quer detalhes técnicos (YAML/CLI) de algum projeto? Me chama que publico um case aqui.