O time de produto e desenvolvimento da Kartado tem como missão construir o melhor produto que atenda aos objetivos estratégicos da empresa enquanto resolve problemas e necessidades relevantes dos clientes. Como SRE/DevOps Engineer, você será responsável por estruturar e evoluir a confiabilidade, observabilidade e eficiência operacional da nossa plataforma, garantindo que nossos clientes de infraestrutura crítica (rodovias, saneamento, energia, entre outros segmentos) tenham a disponibilidade e performance que precisam.
Você trabalhará de forma transversal com todas as squads de desenvolvimento (2 squads principais, 1 squad de IA/dados e 1 squad de Obras), ajudando a criar uma cultura de reliability engineering e automatizando processos que hoje dependem de intervenção manual. Esperamos que você traga visão estratégica de infraestrutura, experiência em observabilidade avançada e capacidade de liderar a evolução da nossa stack operacional.
Suas principais atribuições serão:
- Estruturar observabilidade e monitoramento avançado, implementando métricas, logs estruturados, traces e alertas inteligentes que reduzam o MTTR e previnam incidentes
- Garantir alta disponibilidade da plataforma, trabalhando para manter nossa meta interna de 99.9% de uptime e melhorar continuamente a resiliência do sistema
- Automatizar processos operacionais, reduzindo dependências de pessoas específicas e criando runbooks automatizados para cenários de incidente
- Otimizar custos e performance da infraestrutura AWS, analisando uso de recursos e implementando melhorias que aumentem eficiência operacional
- Implementar práticas de Infrastructure as Code, versionando e automatizando provisionamento de recursos para garantir consistência entre ambientes
- Colaborar com as squads de desenvolvimento para implementar práticas de deployments seguros, CI/CD otimizado e testes de reliability
- Criar e manter documentação técnica sobre arquitetura, procedimentos operacionais e playbooks de incident response
- Evangelizar cultura de SRE, disseminando boas práticas e ajudando os times a assumirem responsabilidade pela operação de seus serviços
- Garantir resposta rápida a incidentes críticos e conduzindo post-mortems para aprendizado contínuo
Requisitos:
- Sólida experiência com AWS, incluindo serviços como EC2, RDS, Lambda, API Gateway, CloudWatch, CloudFormation/CDK, e conhecimento de boas práticas de segurança
- Experiência avançada em ferramentas de observabilidade
- Conhecimento profundo de containerização e orquestração (Docker/ECS) para ambientes produtivos
- Experiência com Infrastructure as Code usando Terraform, CloudFormation ou CDK
- Familiaridade com práticas de CI/CD, incluindo Bitbucket Pipelines ou similares
- Conhecimento de linguagens de scripting (Python, Bash) para automação de tarefas operacionais
- Experiência com bancos de dados relacionais e estratégias de backup/recovery em ambientes críticos
- Vivência em ambientes de alta disponibilidade e experiência com incident management e post-mortems
- Comunicação clara e habilidade de colaborar com times técnicos e traduzir questões operacionais para stakeholders de negócio
Diferenciais:
- Experiência prévia em empresas SaaS B2B ou que atendem infraestrutura crítica
- Conhecimento de ferramentas de APM como New Relic ou Datadog
- Vivência com compliance e auditoria em ambientes regulados
- Experiência com ferramentas de security scanning e práticas de DevSecOps
- Certificações AWS (especialmente Solutions Architect ou DevOps Engineer)
Competências fundamentais da Kartado:
- Organização: você se planeja bem, entrega no prazo e cuida da qualidade do que faz
- Criatividade: você propõe novas soluções e contribui com visões diferentes para resolver problemas
- Foco: você entende o que é mais importante, prioriza com clareza e sabe dizer não
- Gestão do tempo: você sabe equilibrar urgências, planejar entregas e manter consistência no dia a dia
O que oferecemos:
- Trabalho 100% remoto
- Flexibilidade de horário
- Ambiente colaborativo e de aprendizado contínuo
- Planos de desenvolvimento individuais (PDIs)
- Reuniões de acompanhamento e feedback 1:1
- Autonomia para propor e implementar soluções
- Impacto direto na reliability de sistemas que atendem infraestrutura crítica nacional
- GoGood com:
- Descontos em academias
- Plano odontológico (Odontoprev) para você e até 3 dependentes sem coparticipação
- Telemedicina (Conexa) para você e até 3 dependentes sem coparticipação
Se você tem paixão por reliability engineering, quer estruturar operações que garantem alta disponibilidade para infraestrutura crítica e gosta de trabalhar de forma colaborativa com times de produto, vem com a gente!