Atuar do dado bruto até a entrega para analytics, construindo e mantendo pipelines de ETL/ELT com Python e SQL, além de coletar dados externos via web scraping quando necessário. O foco é qualidade, rastreabilidade, automação e conformidade, evitando pipelines frágeis.
Responsabilidades
- Desenvolver e manter pipelines de ETL/ELT com Python e SQL.
- Tratar e padronizar dados, incluindo limpeza, deduplicação, validações, regras de negócio e enriquecimentos.
- Implementar web scraping de fontes públicas, com controle de taxa, reprocessamento, versionamento, logs e tratamento de mudanças no site.
- Estruturar rotinas de coleta com tolerância a falhas, por exemplo retries, backoff e captura de erros.
- Criar camadas de dados para consumo analítico, com documentação e dicionário de dados.
- Monitorar pipelines, criar alertas, métricas de qualidade, auditoria e reconciliação.
- Trabalhar com stakeholders para traduzir necessidade de negócio em dados e especificações técnicas.
- Garantir boas práticas de governança, privacidade e uso adequado de dados, especialmente para fontes externas.
Requisitos
- Experiência sólida com Python para manipulação de dados, automação e integração.
- Experiência com SQL e rotinas de transformação.
- Vivência com pipelines de dados, ETL/ELT e publicação em data warehouse ou data lake.
- Experiência prática com web scraping, incluindo parsing HTML e mecanismos de paginação.
- Conhecimento de Git e boas práticas de desenvolvimento, testes e documentação.