Na RankMyApp, o time de Tech cria plataformas que geram insights para decisões. Como SRE Sênior, você garantirá a confiabilidade, escalabilidade e eficiência da infraestrutura.
Atuará com desenvolvimento na resolução de incidentes, performance e resiliência. Procuramos alguém com foco em automação e boas práticas.
Pré Requisitos:
- Experiência mínima de 3 anos atuando como Site Reliability Engineer (SRE), DevOps Engineer ou Infrastructure/Platform Engineer.
- Experiência mínima de 5 anos com Kubernetes em produção e ferramentas do ecossistema como Helm e ArgoCD.
- Experiência com cloud pública (AWS), incluindo arquitetura, operação e troubleshooting de ambientes em produção.
- Sólido conhecimento em serviços AWS como ELB, VPC, Security Group, ECR, EKS, ECS, EC2, RDS e Karpenter.
- Experiência com containers e orquestração, especialmente Docker e Kubernetes.
- Conhecimento em práticas de observabilidade, incluindo monitoramento, métricas, logs e tracing (ex.: CloudWatch, New Relic, Prometheus).
- Experiência em resposta a incidentes, análise de causa raiz (RCA) e melhoria contínua da confiabilidade de sistemas.
- Experiência com CI/CD e pipelines de deploy automatizado, utilizando ferramentas como ArgoCD.
- Experiência com práticas de FinOps, incluindo otimização e controle de custos em ambientes cloud.
- Boa capacidade de colaboração com times de engenharia e desenvolvimento, contribuindo para melhoria contínua das plataformas.
Diferenciais:
- Experiência na administração e sustentação de ambientes com Apache Airflow.
- Vivência na operação e manutenção de bancos de dados MongoDB em ambientes de produção.
- Experiência com sistemas de mensageria, especialmente RabbitMQ.
- Conhecimento em práticas e ferramentas de DevSecOps, integrando segurança ao ciclo de desenvolvimento e operações.
Responsabilidades:
- Garantir a alta disponibilidade, confiabilidade e performance das plataformas e serviços da RankMyApp.
- Projetar, implementar e evoluir arquiteturas resilientes e escaláveis em ambientes de cloud.
- Definir e acompanhar SLIs, SLOs e SLAs, atuando de forma proativa para melhorar a confiabilidade dos sistemas.
- Implementar e evoluir práticas de observabilidade, incluindo monitoramento, métricas, logs e tracing.
- Automatizar processos operacionais por meio de infraestrutura como código (IaC) e ferramentas de automação.
- Atuar na resolução de incidentes e problemas críticos, liderando análises de causa raiz e ações de melhoria contínua.
- Trabalhar em conjunto com times de desenvolvimento e produto para aumentar a resiliência, escalabilidade e eficiência das aplicações.
- Apoiar a adoção de boas práticas de engenharia de confiabilidade, como gestão de capacidade, testes de resiliência e estratégias de recuperação de desastres.
- Otimizar custos de infraestrutura sem comprometer a performance e a confiabilidade dos serviços.
- Contribuir para a evolução da cultura de DevOps e SRE, promovendo automação, colaboração e melhoria contínua.
Benefícios:
- Somos uma empresa Remote First
- Vale Refeição
- Auxílio Home Office
- Enviamos todo equipamento que voce irá precisar
- Descanso Remunerado, após 1 ano de atuação
- Bonificação de fim de ano
- Plano de Saúde (coparticipação)
- Plano Dental (Sem coparticipação)
- Auxílio creche/Babá contratada
- Licença maternidade de 04 meses mesmo sendo PJ
- Seguro de Vida
- Gympass | WellHub
- Projeção de Carreira