Leandro Gouveia — Portfólio DevOps/SRE

Monitoramento que resolve incidente — não só cria alerta.

Seleção dos meus trabalhos: Alertmanager bem afinado, dashboards Grafana que contam história, Prometheus com regras sob medida, Grafana OnCall com escalations por horário e automações (Kestra) que realmente mitigam.

AWS EKS • Route 53 • CloudFront OCI • IAM • Cost‑Optimization Prometheus Operator • k‑prom‑stack Grafana • Grafana OnCall Kestra • Jenkins/TeamCity

Destaques recentes

OnCall 1.13 → 1.16 com janelas por fuso (UTC‑3)

Upgrade faseado + novas escalation chains para noite/finais de semana.

Regra de PV quase cheio por GB restante

Ajuste do KubePersistentVolumeFillingUp para acionar a 5 GB.

Automação de CrashLoopBackOff

Flow Kestra com webhook do OnCall que deleta pod e posta nota.

Projetos

Alertmanager tuning

Rotas por alertname, deployment, namespace e container para reduzir ruído, com group_wait e repeat_interval ajustados ao contexto. Annotations ricas com nome de instância/pod e links de runbook.

repeat_interval: 1hlabels úteis

Grafana OnCall

Escalonamentos por horário (dia/noite), rotas por severidade e nota automática no incidente. Integração com Slack/Teams e webhook para automações.

Schedules UTC‑3Webhook

Prometheus & Regras

Rules customizadas (RDS, EBS, NAT, EFS, RabbitMQ) + k8s SLOs. Uso de predict_linear e janelas adequadas para evitar falsos positivos.

SLO/SLARDS forecast

Dashboards que contam história

Visões por produto/ambiente, painéis de release e drill-down até pod/contêiner. Painéis Windows + Linux com métricas equivalentes.

kube‑prom‑stackWindows+Linux

Automação Kestra

Orquestração reativa ao OnCall: ações em CrashLoopBackOff, coleta de contexto (logs, describe) e publicação de nota no incidente.

RBAC/IRSAOCI+AWS

CI/CD & Imagens

Pipeline Jenkins/TeamCity, migração para OCI, imagens base otimizadas, mirror privado no ECR para reduzir egress.

BuildxECR

Monitoramento que resolve incidente — não só cria alerta.

Destaques recentes

Projetos

Stack

Contato