SRE/DevOps Engineer Sênior

Remuneração mensal:

PJ R$ 10.500,00 - R$ 12.300,00 / mês

Remoto

(Qualquer lugar)

Sênior

Requisitos

5+ anos de experiência na carreira

Lambda

Docker

AWS

AWS CloudWatch

Elastic Container Service (ECS)

API Gateway

Python

Shell Script

AWS CloudFormation

Conhecimentos Desejáveis

Sentry

Datadog

Tarefas e Responsabilidades

O time de produto e desenvolvimento da Kartado tem como missão construir o melhor produto que atenda aos objetivos estratégicos da empresa enquanto resolve problemas e necessidades relevantes dos clientes. Como SRE/DevOps Engineer, você será responsável por estruturar e evoluir a confiabilidade, observabilidade e eficiência operacional da nossa plataforma, garantindo que nossos clientes de infraestrutura crítica (rodovias, saneamento, energia, entre outros segmentos) tenham a disponibilidade e performance que precisam. 

Você trabalhará de forma transversal com todas as squads de desenvolvimento (2 squads principais, 1 squad de IA/dados e 1 squad de Obras), ajudando a criar uma cultura de reliability engineering e automatizando processos que hoje dependem de intervenção manual. Esperamos que você traga visão estratégica de infraestrutura, experiência em observabilidade avançada e capacidade de liderar a evolução da nossa stack operacional. 


Suas principais atribuições serão: 

  • Estruturar observabilidade e monitoramento avançado, implementando métricas, logs estruturados, traces e alertas inteligentes que reduzam o MTTR e previnam incidentes 
  • Garantir alta disponibilidade da plataforma, trabalhando para manter nossa meta interna de 99.9% de uptime e melhorar continuamente a resiliência do sistema 
  • Automatizar processos operacionais, reduzindo dependências de pessoas específicas e criando runbooks automatizados para cenários de incidente 
  • Otimizar custos e performance da infraestrutura AWS, analisando uso de recursos e implementando melhorias que aumentem eficiência operacional 
  • Implementar práticas de Infrastructure as Code, versionando e automatizando provisionamento de recursos para garantir consistência entre ambientes 
  • Colaborar com as squads de desenvolvimento para implementar práticas de deployments seguros, CI/CD otimizado e testes de reliability 
  • Criar e manter documentação técnica sobre arquitetura, procedimentos operacionais e playbooks de incident response 
  • Evangelizar cultura de SRE, disseminando boas práticas e ajudando os times a assumirem responsabilidade pela operação de seus serviços 
  • Garantir resposta rápida a incidentes críticos e conduzindo post-mortems para aprendizado contínuo 


Requisitos: 

  • Sólida experiência com AWS, incluindo serviços como EC2, RDS, Lambda, API Gateway, CloudWatch, CloudFormation/CDK, e conhecimento de boas práticas de segurança 
  • Experiência avançada em ferramentas de observabilidade 
  • Conhecimento profundo de containerização e orquestração (Docker/ECS) para ambientes produtivos 
  • Experiência com Infrastructure as Code usando Terraform, CloudFormation ou CDK 
  • Familiaridade com práticas de CI/CD, incluindo Bitbucket Pipelines ou similares 
  • Conhecimento de linguagens de scripting (Python, Bash) para automação de tarefas operacionais 
  • Experiência com bancos de dados relacionais e estratégias de backup/recovery em ambientes críticos 
  • Vivência em ambientes de alta disponibilidade e experiência com incident management e post-mortems 
  • Comunicação clara e habilidade de colaborar com times técnicos e traduzir questões operacionais para stakeholders de negócio 


Diferenciais: 

  • Experiência prévia em empresas SaaS B2B ou que atendem infraestrutura crítica 
  • Conhecimento de ferramentas de APM como New Relic ou Datadog 
  • Vivência com compliance e auditoria em ambientes regulados 
  • Experiência com ferramentas de security scanning e práticas de DevSecOps 
  • Certificações AWS (especialmente Solutions Architect ou DevOps Engineer) 


Competências fundamentais da Kartado: 

  • Organização: você se planeja bem, entrega no prazo e cuida da qualidade do que faz 
  • Criatividade: você propõe novas soluções e contribui com visões diferentes para resolver problemas 
  • Foco: você entende o que é mais importante, prioriza com clareza e sabe dizer não 
  • Gestão do tempo: você sabe equilibrar urgências, planejar entregas e manter consistência no dia a dia 


O que oferecemos: 

  • Trabalho 100% remoto 
  • Flexibilidade de horário 
  • Ambiente colaborativo e de aprendizado contínuo 
  • Planos de desenvolvimento individuais (PDIs) 
  • Reuniões de acompanhamento e feedback 1:1 
  • Autonomia para propor e implementar soluções 
  • Impacto direto na reliability de sistemas que atendem infraestrutura crítica nacional 
  • GoGood com: 
  • Descontos em academias 
  • Plano odontológico (Odontoprev) para você e até 3 dependentes sem coparticipação 
  • Telemedicina (Conexa) para você e até 3 dependentes sem coparticipação 

 

Se você tem paixão por reliability engineering, quer estruturar operações que garantem alta disponibilidade para infraestrutura crítica e gosta de trabalhar de forma colaborativa com times de produto, vem com a gente! 

 


 


Compartilhar vaga:

Phone

Somente arquivo pdf com o tamanho máximo de 3mb.

Compartilhar vaga: