Modelo de Trabalho: Remoto / Híbrido (Ambiente de Nuvem AWS)
Departamento: Plataforma de Dados e Integração (Data Platform & Integration)
Reporte: Gerência da Área
Sobre o Desafio
Estamos construindo o Common Data Backbone (CDB) — a plataforma de dados estratégica da nossa empresa que viabiliza a descoberta, governança e integração em todo o nosso ecossistema global de dados geoespaciais. O CDB conecta múltiplos serviços de nuvem e aplicações finais por meio do Apache Kafka, atuando como a principal solução de integração para orquestração de eventos e serviços.
Para acelerar o desenvolvimento e a implantação do CDB, estamos buscando um(a) Engenheiro(a) DevOps Kafka experiente para expandir e amadurecer nossa infraestrutura Kafka na AWS. Seu foco principal será garantir a segurança, o gerenciamento do ciclo de vida, o ajuste de performance (tuning) e a confiabilidade de clusters para que o Kafka opere em padrões corporativos de excelência.
Principais Responsabilidades
- Arquitetura e Operação: Desenhar, implantar e manter clusters Kafka seguros e de alta disponibilidade na AWS (seja via MSK ou gerenciamento próprio).
- Capacidade e Performance: Realizar planejamento de capacidade (capacity planning), ajuste de desempenho (tuning) e escalonamento proativo da plataforma.
- Automação: Automatizar a infraestrutura e as configurações utilizando Terraform e práticas de GitOps.
- Observabilidade: Implementar a cultura de monitoramento com métricas, dashboards no Grafana e alarmes no CloudWatch.
- Resiliência e Continuidade: Desenvolver runbooks para resposta a incidentes, recuperação de desastres (disaster recovery) e atualizações sem interrupção (rolling upgrades); conduzir testes de resiliência e garantir estratégias de RPO/RTO.
- Segurança e Conformidade: Garantir o alinhamento com requisitos de segurança e auditorias (ISO 27001).
- Colaboração: Apoiar times de desenvolvimento disseminando as melhores práticas de Kafka para microsserviços em .NET e jobs de streaming no Databricks.
- Melhoria Contínua: Focar na otimização de custos, confiabilidade e maturidade operacional da stack.
Requisitos e Qualificações
- Experiência: Mais de 4 anos atuando em papéis de DevOps/SRE, com pelo menos 2 anos de experiência prática (hands-on) na operação de Kafka em larga escala.
- Domínio de Kafka: Sólido conhecimento na arquitetura interna do Kafka (partições, replicação, ISR, controller quorum, KRaft).
- Ecossistema AWS: Forte experiência com serviços AWS (VPC, EC2, MSK, IAM, Secrets Manager e redes).
- Segurança em Redes/Dados: Experiência prática com TLS/mTLS, SASL/SCRAM, ACLs e design de clusters seguros.
- Infraestrutura como Código (IaC): Proficiência em Terraform (preferencial).
- CI/CD & Monitoramento: Familiaridade com pipelines de CI/CD para automação de tópicos/clusters e uso de Grafana, CloudWatch e agregadores de logs.
- Automação: Habilidade com scripts (Bash, Python) para criação de ferramentas e automações internas.
- Comunicação: Excelente capacidade de documentação técnica e comunicação interpessoal.
- Certificação: Certificação válida em Kafka.