GeekHunter

SRE/DevOps Engineer Sênior

Remuneração mensal:

PJ R$ 10.500,00 - R$ 12.300,00 / mês

Remoto

(Qualquer lugar)

Sênior

Requisitos

5+ anos de experiência na carreira

Lambda

Docker

AWS

AWS CloudWatch

Elastic Container Service (ECS)

API Gateway

Python

Shell Script

AWS CloudFormation

Conhecimentos Desejáveis

Sentry

Datadog

Tarefas e Responsabilidades

O time de produto e desenvolvimento da Kartado tem como missão construir o melhor produto que atenda aos objetivos estratégicos da empresa enquanto resolve problemas e necessidades relevantes dos clientes. Como SRE/DevOps Engineer, você será responsável por estruturar e evoluir a confiabilidade, observabilidade e eficiência operacional da nossa plataforma, garantindo que nossos clientes de infraestrutura crítica (rodovias, saneamento, energia, entre outros segmentos) tenham a disponibilidade e performance que precisam.

Você trabalhará de forma transversal com todas as squads de desenvolvimento (2 squads principais, 1 squad de IA/dados e 1 squad de Obras), ajudando a criar uma cultura de reliability engineering e automatizando processos que hoje dependem de intervenção manual. Esperamos que você traga visão estratégica de infraestrutura, experiência em observabilidade avançada e capacidade de liderar a evolução da nossa stack operacional.

Suas principais atribuições serão:

Estruturar observabilidade e monitoramento avançado, implementando métricas, logs estruturados, traces e alertas inteligentes que reduzam o MTTR e previnam incidentes
Garantir alta disponibilidade da plataforma, trabalhando para manter nossa meta interna de 99.9% de uptime e melhorar continuamente a resiliência do sistema
Automatizar processos operacionais, reduzindo dependências de pessoas específicas e criando runbooks automatizados para cenários de incidente
Otimizar custos e performance da infraestrutura AWS, analisando uso de recursos e implementando melhorias que aumentem eficiência operacional
Implementar práticas de Infrastructure as Code, versionando e automatizando provisionamento de recursos para garantir consistência entre ambientes
Colaborar com as squads de desenvolvimento para implementar práticas de deployments seguros, CI/CD otimizado e testes de reliability
Criar e manter documentação técnica sobre arquitetura, procedimentos operacionais e playbooks de incident response
Evangelizar cultura de SRE, disseminando boas práticas e ajudando os times a assumirem responsabilidade pela operação de seus serviços
Garantir resposta rápida a incidentes críticos e conduzindo post-mortems para aprendizado contínuo

Requisitos:

Sólida experiência com AWS, incluindo serviços como EC2, RDS, Lambda, API Gateway, CloudWatch, CloudFormation/CDK, e conhecimento de boas práticas de segurança
Experiência avançada em ferramentas de observabilidade
Conhecimento profundo de containerização e orquestração (Docker/ECS) para ambientes produtivos
Experiência com Infrastructure as Code usando Terraform, CloudFormation ou CDK
Familiaridade com práticas de CI/CD, incluindo Bitbucket Pipelines ou similares
Conhecimento de linguagens de scripting (Python, Bash) para automação de tarefas operacionais
Experiência com bancos de dados relacionais e estratégias de backup/recovery em ambientes críticos
Vivência em ambientes de alta disponibilidade e experiência com incident management e post-mortems
Comunicação clara e habilidade de colaborar com times técnicos e traduzir questões operacionais para stakeholders de negócio

Diferenciais:

Experiência prévia em empresas SaaS B2B ou que atendem infraestrutura crítica
Conhecimento de ferramentas de APM como New Relic ou Datadog
Vivência com compliance e auditoria em ambientes regulados
Experiência com ferramentas de security scanning e práticas de DevSecOps
Certificações AWS (especialmente Solutions Architect ou DevOps Engineer)

Competências fundamentais da Kartado:

Organização: você se planeja bem, entrega no prazo e cuida da qualidade do que faz
Criatividade: você propõe novas soluções e contribui com visões diferentes para resolver problemas
Foco: você entende o que é mais importante, prioriza com clareza e sabe dizer não
Gestão do tempo: você sabe equilibrar urgências, planejar entregas e manter consistência no dia a dia

O que oferecemos:

Trabalho 100% remoto
Flexibilidade de horário
Ambiente colaborativo e de aprendizado contínuo
Planos de desenvolvimento individuais (PDIs)
Reuniões de acompanhamento e feedback 1:1
Autonomia para propor e implementar soluções
Impacto direto na reliability de sistemas que atendem infraestrutura crítica nacional
GoGood com:
Descontos em academias
Plano odontológico (Odontoprev) para você e até 3 dependentes sem coparticipação
Telemedicina (Conexa) para você e até 3 dependentes sem coparticipação

Se você tem paixão por reliability engineering, quer estruturar operações que garantem alta disponibilidade para infraestrutura crítica e gosta de trabalhar de forma colaborativa com times de produto, vem com a gente!

Compartilhar vaga: