Geekhunter Logo

Soluções

Casos de uso

Por que a Geekhunter?

Recursos

Login

Português

PT

Nava Technology for Business


São Paulo - SP, Brasil

Engenheiro de Confiabilidade de Site | SRE Sênior

Híbrido

São Paulo - SP

Faixa de Remuneração

Não informada

Nível de Experiência

Sênior

Requisitos

5+ anos de experiência na carreira
Amazon Web Services (AWS)
Apache Kafka
.NET
SRE
DevOps

Tarefas e Responsabilidades

Estamos em busca de um Site Reliability Engineer (SRE) para atuar como guardião da confiabilidade, estabilidade e performance de nossos produtos e serviços. Se você gosta de trabalhar com ambientes críticos, decisões orientadas a dados e cultura blameless, essa vaga pode ser pra você.


🎯 Missão do Cargo


Garantir que nossos sistemas operem com alta confiabilidade, eficiência e previsibilidade, equilibrando velocidade de entrega e robustez operacional. O SRE será peça-chave na evolução da maturidade técnica da squad e na sustentação de serviços críticos.

O profissional atuará em escala de on-call rotativa, respondendo a incidentes dentro dos SLAs definidos, conduzindo estabilizações rápidas, participando de postmortems blameless e propondo melhorias contínuas para reduzir recorrências. O on-call segue políticas internas de compensação.


Principais Responsabilidades

Confiabilidade e Governança

  • Definir, manter e evoluir SLIs e SLOs de APIs críticas
  • Gerenciar error budgets e apoiar decisões de release
  • Atuar como referência no equilíbrio entre agilidade e estabilidade


Observabilidade e Operação

  • Implementar e evoluir monitoramento, métricas, logs e tracing
  • Garantir alertas acionáveis e dashboards eficientes
  • Liderar ou apoiar respostas a incidentes e war rooms


Gestão de Incidentes

  • Estruturar e executar processos de incident response blameless
  • Conduzir postmortems e garantir ações corretivas
  • Atuar na redução de MTTA, MTTR e reincidência


Automação e Redução de Toil

  • Automatizar tarefas repetitivas e fluxos operacionais
  • Criar runbooks, automações e melhorias em CI/CD
  • Padronizar processos de rollout, rollback e testes de resiliência
  • Infraestrutura e Performance
  • Atuar com Kubernetes/EKS, AWS, Azure DevOps, Kafka e bancos de dados


Requisitos Obrigatórios

  • Experiência em Engenharia, Infra, Plataforma ou SRE/DevOps
  • Experiência com SLO, SLI, error budget e incident management
  • Forte habilidade em troubleshooting e RCA (Root Cause Analysis)
  • Tecnologias
  • Kubernetes/EKS, Azure DevOps
  • Observabilidade: Prometheus, Grafana, ELK, CloudWatch, X-Ray
  • Kafka, Oracle, MySQL
  • Segurança operacional e IAM
  • Linguagens e Automação
  • Bash, PowerShell, Python
  • Ansible, Terraform, Helm
  • Diferencial: .NET Framework e .NET Core

Necessário disponibilidade para atuar no modelo hibrido na região da Vila Olimpia em São Paulo, de 1 a 2 vezes na semana.



📩 Inscrição no processo seletivo

Para seguir com o processo, pedimos que também realize sua candidatura na plataforma Sophia:


🔗 Link para candidatura: https://entrevista.starmindai.ai

🔢 Código da vaga: NAVA-SRE

Compartilhar vaga:

Phone

Somente arquivo pdf com o tamanho máximo de 3mb.

Compartilhar vaga: