GeekHunter

Soluções

Casos de uso

Por que a Geekhunter?

Recursos

Português

Asaas

Joinville - SC, Brasil

Site Reliability Engineer (SRE) Lead - Observabilidade

Remoto

(Qualquer lugar)

Faixa de Remuneração

Não informada

Nível de Experiência

Líder/Coordenador

Requisitos

6+ anos de experiência na carreira

SRE

Observabilidade

SLOs

SLIs

Prometheus

Grafana

DataDog

NewRelic

OpenTelemetry

Telemetria

python

Infrastructure as Code

AWS CDK

Terraform

java

Certificação AWS

Docker

Elastic Container Service (ECS)

Incident response

Resposta a incidentes

post-mortem

Error Budgets

Tarefas e Responsabilidades

Se você tem paixão por inovação e busca trabalhar em um ambiente ágil, colaborativo e desafiador, esta pode ser a sua oportunidade!

O time de Cloud do Asaas está buscando uma pessoa para liderar o time de Site Reliability Engineering (SRE), sendo responsável por construir e evoluir a cultura de confiabilidade da nossa plataforma. Você será peça-chave na estruturação deste time, liderando especialistas em observabilidade, gerenciamento de incidentes e práticas de SRE.

Como SRE Lead, você combinará excelência técnica com liderança de pessoas, sendo responsável pela estratégia de observabilidade, definição de SLIs/SLOs, gestão de incidentes e redução de toil. Sua atuação garantirá que nossos times tenham visibilidade completa da plataforma e possam tomar decisões rápidas e assertivas.

Qualidade e confiabilidade são fundamentais para atender mais de 230 mil clientes! Se você compartilha dessa visão e quer construir um time de SRE de referência, junte-se ao nosso time!

Reside fora de Joinville? Sem problemas! Esta oportunidade está aberta para trabalho remoto/home office.

Responsabilidades e atribuições

Liderança e Gestão de Pessoas

Liderar, desenvolver e reter o time de SRE, promovendo alta performance, colaboração e aprendizado contínuo;
Conduzir contratação, onboarding, feedbacks, PDIs e avaliações de desempenho;
Definir estratégia e roadmap do time de SRE, alinhado aos objetivos de Cloud e do negócio;
Disseminar a cultura de SRE e observabilidade, atuando como referência para Engenharia;
Gerenciar prioridades, capacidade e trade-offs do time, garantindo entregas com qualidade;
Alinhar iniciativas com lideranças de Cloud Engineering, Platform Engineering e Cloud Security;
Reportar métricas, riscos e evolução do time para a liderança de Cloud.

Observabilidade e Confiabilidade

Definir e liderar a estratégia de observabilidade (métricas, logs e traces);
Evoluir a plataforma de observabilidade (Prometheus, Grafana, OpenTelemetry, Loki, Tempo);
Estabelecer e governar SLIs, SLOs e Error Budgets para serviços críticos;
Definir padrões de instrumentação para aplicações e infraestrutura, impulsionando adoção pelos times;
Implementar estratégia de alertas acionáveis, reduzindo ruído;
Planejar e executar gestão de capacidade baseada em métricas;
Otimizar custos e performance das soluções de observabilidade em escala.

Gestão de Incidentes e Melhoria Contínua

Estruturar e liderar o processo de gestão de incidentes (escalação, war room e comunicação);
Garantir post-mortems blameless e acompanhar ações corretivas;
Identificar recorrências e propor melhorias sistêmicas baseadas em dados;
Liderar redução de toil com automações operacionais;
Manter documentação operacional (runbooks, procedimentos e arquiteturas) atualizada e acessível.

Requisitos e qualificações

Experiência em liderança de times técnicos (SRE, DevOps, Cloud Engineering);
Experiência em práticas de SRE, incluindo SLIs, SLOs, Error Budgets e Toil Reduction;
Experiência com APM tools (Datadog, New Relic, Dynatrace);
Conhecimento em observabilidade e telemetria (métricas, logs, traces), com Prometheus e OpenTelemetry (Grafana);
Experiência prática com Infraestrutura como Código (AWS CDK, Terraform);
Proficiência em linguagens de scripting (Python, Bash) e pelo menos uma linguagem de programação (Go, Java);
Experiência com soluções de logging e tracing em escala (Loki, Tempo, Jaeger, ELK Stack);
Experiência com Cloud, preferencialmente AWS;
Experiência com containers (Docker) e orquestração (Kubernetes, ECS);
Experiência em gerenciamento de incidentes e post-mortem;
Entendimento de sistemas Linux e suas ferramentas de diagnóstico;
Inglês técnico (leitura e escrita).

Diferenciais

Certificações AWS (DevOps Engineer, Solutions Architect);
Experiência em fintechs ou ambientes regulados (PCI-DSS, LGPD, SOC 2);
Experiência com FinOps e otimização de custos em cloud;
Experiência com Grafana Mimir ou Thanos para métricas em escala;
Experiência com Chaos Engineering e testes de resiliência;
Conhecimento em Machine Learning aplicado a AIOps e detecção de anomalias;
Conhecimento aprofundado em redes e protocolos (TCP/IP, DNS, HTTP/S);
Proficiência com Git, GitHub e GitFlow;
Vivência prática com metodologias ágeis (Scrum, Kanban);
Experiência com bancos de dados relacionais (PostgreSQL, MySQL) e NoSQL (MongoDB, DynamoDB, Redis).