Estamos em busca de um Site Reliability Engineer (SRE) para atuar como guardião da confiabilidade, estabilidade e performance de nossos produtos e serviços. Se você gosta de trabalhar com ambientes críticos, decisões orientadas a dados e cultura blameless, essa vaga pode ser pra você.
🎯 Missão do Cargo
Garantir que nossos sistemas operem com alta confiabilidade, eficiência e previsibilidade, equilibrando velocidade de entrega e robustez operacional. O SRE será peça-chave na evolução da maturidade técnica da squad e na sustentação de serviços críticos.
O profissional atuará em escala de on-call rotativa, respondendo a incidentes dentro dos SLAs definidos, conduzindo estabilizações rápidas, participando de postmortems blameless e propondo melhorias contínuas para reduzir recorrências. O on-call segue políticas internas de compensação.
Principais Responsabilidades
Confiabilidade e Governança
- Definir, manter e evoluir SLIs e SLOs de APIs críticas
- Gerenciar error budgets e apoiar decisões de release
- Atuar como referência no equilíbrio entre agilidade e estabilidade
Observabilidade e Operação
- Implementar e evoluir monitoramento, métricas, logs e tracing
- Garantir alertas acionáveis e dashboards eficientes
- Liderar ou apoiar respostas a incidentes e war rooms
Gestão de Incidentes
- Estruturar e executar processos de incident response blameless
- Conduzir postmortems e garantir ações corretivas
- Atuar na redução de MTTA, MTTR e reincidência
Automação e Redução de Toil
- Automatizar tarefas repetitivas e fluxos operacionais
- Criar runbooks, automações e melhorias em CI/CD
- Padronizar processos de rollout, rollback e testes de resiliência
- Infraestrutura e Performance
- Atuar com Kubernetes/EKS, Azure DevOps, Kafka e bancos de dados
Requisitos Obrigatórios
- Experiência em Engenharia, Infra, Plataforma ou SRE/DevOps
- Experiência com SLO, SLI, error budget e incident management
- Forte habilidade em troubleshooting e RCA (Root Cause Analysis)
- Tecnologias
- Kubernetes/EKS, Azure DevOps
- Observabilidade: Prometheus, Grafana, ELK, CloudWatch, X-Ray
- Kafka, Oracle, MySQL
- Segurança operacional e IAM
- Linguagens e Automação
- Bash, PowerShell, Python
- Ansible, Terraform, Helm
- Diferencial: .NET Framework e .NET Core
Necessário disponibilidade para atuar no modelo hibrido na região da Vila Olimpia em São Paulo, de 1 a 2 vezes na semana.
Além de ser uma empresa certificada Great Place to Work, você vai encontrar na NAVA:
✅ Oportunidades de carreira 🚀
✅ Liberdade para escrever seu próprio código 🏆
✅ Diversidade e diferentes formas de ver o mundo 🌈
✅ Comunidades que incentivam o crescimento de todos 📚
✅ Treinamento In Company 💻
✅ Um time incrível 😎 ✅ Empresa engajada no Pacto Global da ONU 💪🏼
✅ Projetos inovadores 💡
✅ Alta avaliação no Glassdoor 📣