Geekhunter Logo

Soluções

Casos de uso

Por que a Geekhunter?

Recursos

Login

Português

PT

Asaas


Joinville - SC, Brasil

Site Reliability Engineer (SRE) Lead - Observabilidade

Remoto

(Qualquer lugar)

Faixa de Remuneração

Não informada

Nível de Experiência

Líder/Coordenador

Requisitos

6+ anos de experiência na carreira
SRE
Observabilidade
SLOs
SLIs
Prometheus
Grafana
DataDog
NewRelic
OpenTelemetry
Telemetria
python
Infrastructure as Code
AWS CDK
Terraform
java
Go
Certificação AWS
Docker
Elastic Container Service (ECS)
Incident response
Resposta a incidentes
post-mortem
Error Budgets

Tarefas e Responsabilidades

Se você tem paixão por inovação e busca trabalhar em um ambiente ágil, colaborativo e desafiador, esta pode ser a sua oportunidade!


O time de Cloud do Asaas está buscando uma pessoa para liderar o time de Site Reliability Engineering (SRE), sendo responsável por construir e evoluir a cultura de confiabilidade da nossa plataforma. Você será peça-chave na estruturação deste time, liderando especialistas em observabilidade, gerenciamento de incidentes e práticas de SRE.


Como SRE Lead, você combinará excelência técnica com liderança de pessoas, sendo responsável pela estratégia de observabilidade, definição de SLIs/SLOs, gestão de incidentes e redução de toil. Sua atuação garantirá que nossos times tenham visibilidade completa da plataforma e possam tomar decisões rápidas e assertivas.


Qualidade e confiabilidade são fundamentais para atender mais de 230 mil clientes! Se você compartilha dessa visão e quer construir um time de SRE de referência, junte-se ao nosso time!


Reside fora de Joinville? Sem problemas! Esta oportunidade está aberta para trabalho remoto/home office.


Responsabilidades e atribuições

Liderança e Gestão de Pessoas

  • Liderar, desenvolver e reter o time de SRE, promovendo alta performance, colaboração e aprendizado contínuo;
  • Conduzir contratação, onboarding, feedbacks, PDIs e avaliações de desempenho;
  • Definir estratégia e roadmap do time de SRE, alinhado aos objetivos de Cloud e do negócio;
  • Disseminar a cultura de SRE e observabilidade, atuando como referência para Engenharia;
  • Gerenciar prioridades, capacidade e trade-offs do time, garantindo entregas com qualidade;
  • Alinhar iniciativas com lideranças de Cloud Engineering, Platform Engineering e Cloud Security;
  • Reportar métricas, riscos e evolução do time para a liderança de Cloud.

Observabilidade e Confiabilidade

  • Definir e liderar a estratégia de observabilidade (métricas, logs e traces);
  • Evoluir a plataforma de observabilidade (Prometheus, Grafana, OpenTelemetry, Loki, Tempo);
  • Estabelecer e governar SLIs, SLOs e Error Budgets para serviços críticos;
  • Definir padrões de instrumentação para aplicações e infraestrutura, impulsionando adoção pelos times;
  • Implementar estratégia de alertas acionáveis, reduzindo ruído;
  • Planejar e executar gestão de capacidade baseada em métricas;
  • Otimizar custos e performance das soluções de observabilidade em escala.

Gestão de Incidentes e Melhoria Contínua

  • Estruturar e liderar o processo de gestão de incidentes (escalação, war room e comunicação);
  • Garantir post-mortems blameless e acompanhar ações corretivas;
  • Identificar recorrências e propor melhorias sistêmicas baseadas em dados;
  • Liderar redução de toil com automações operacionais;
  • Manter documentação operacional (runbooks, procedimentos e arquiteturas) atualizada e acessível.

Requisitos e qualificações

  • Experiência em liderança de times técnicos (SRE, DevOps, Cloud Engineering);
  • Experiência em práticas de SRE, incluindo SLIsSLOs, Error Budgets e Toil Reduction;
  •  Experiência com APM tools (Datadog, New Relic, Dynatrace);
  • Conhecimento em observabilidade e telemetria (métricas, logs, traces), com Prometheus e OpenTelemetry (Grafana);
  • Experiência prática com Infraestrutura como Código (AWS CDK, Terraform);
  • Proficiência em linguagens de scripting (Python, Bash) e pelo menos uma linguagem de programação (Go, Java);
  • Experiência com soluções de logging tracing em escala (Loki, Tempo, Jaeger, ELK Stack);
  • Experiência com Cloud, preferencialmente AWS;
  • Experiência com containers (Docker) e orquestração (Kubernetes, ECS);
  • Experiência em gerenciamento de incidentes e post-mortem;
  • Entendimento de sistemas Linux e suas ferramentas de diagnóstico;
  • Inglês técnico (leitura e escrita).

Diferenciais

  • Certificações AWS (DevOps Engineer, Solutions Architect);
  • Experiência em fintechs ou ambientes regulados (PCI-DSS, LGPD, SOC 2);
  • Experiência com FinOps e otimização de custos em cloud;
  • Experiência com Grafana Mimir ou Thanos para métricas em escala;
  • Experiência com Chaos Engineering e testes de resiliência;
  • Conhecimento em Machine Learning aplicado a AIOps e detecção de anomalias;
  • Conhecimento aprofundado em redes e protocolos (TCP/IP, DNS, HTTP/S);
  • Proficiência com Git, GitHub e GitFlow;
  • Vivência prática com metodologias ágeis (Scrum, Kanban);
  • Experiência com bancos de dados relacionais (PostgreSQL, MySQL) e NoSQL (MongoDB, DynamoDB, Redis).

Modelo de Trabalho

  • Carga horária flexível de 8h por dia (segunda a sexta);
  • Contratação CLT.

Compartilhar vaga:

Phone

Somente arquivo pdf com o tamanho máximo de 3mb.

Compartilhar vaga:

Geek Logo

Rod. José Carlos Daux - SC 401, 4120 - km 4, Bairro Saco Grande - Florianópolis - SC - CEP 88032-005,

PARA DEVS

Blog de TIArrow Square Out
People First Badge
InstagramLinkedinYoutube

© 2015 - 2025 GeekHunter.

Todos os direitos reservados.