Code Group
São Paulo - SP, Brasil
Gestor de Incidentes Críticos (Technical Incident Manager)
Presencial
São Paulo - SP
Faixa de Remuneração
Não informada
Nível de Experiência
Sênior
Requisitos
Conhecimentos Desejáveis
Tarefas e Responsabilidades
Missão do Cargo
Garantir a gestão eficiente de incidentes críticos em ambientes tecnológicos complexos, liderando a identificação, análise e resolução de falhas que impactam serviços e operações da organização. Atuar na condução de war rooms, investigação de causa raiz e implementação de melhorias contínuas, contribuindo para a redução do tempo de indisponibilidade (MTTR), aumento da estabilidade dos sistemas e fortalecimento dos processos de gestão de incidentes.
Modelo: Híbrido | 2x por semana presencial (Centro de São Paulo – Campus Elísios)
Contratação: PJ
Horário: Comercial
Principais Responsabilidades
Gestão de Incidentes Críticos
Liderar war rooms para incidentes críticos (P1 e P2), coordenando a atuação dos times técnicos e garantindo comunicação eficiente com stakeholders e liderança executiva.
Conduzir a gestão completa de incidentes, desde a identificação e análise até a resolução e documentação das ocorrências.
Atuar na investigação técnica de problemas complexos, identificando rapidamente a causa raiz e coordenando ações para restaurar os serviços.
Garantir comunicação clara e estruturada durante incidentes críticos, mantendo todas as áreas envolvidas devidamente informadas sobre status, impactos e ações em andamento.
Troubleshooting e Monitoramento
Atuar diretamente em troubleshooting técnico envolvendo APIs, microserviços, middleware e infraestrutura de sistemas.
Monitorar ambientes utilizando ferramentas de observabilidade como Dynatrace, Grafana, AppDynamics e Sensedia.
Gerenciar e acompanhar processamentos batch críticos, garantindo estabilidade e continuidade das operações.
Realizar análise de logs, métricas e indicadores para identificação proativa de problemas e riscos operacionais.
Análise de Performance e Melhoria Contínua
Analisar cenários de capacity planning e propor melhorias para garantir escalabilidade, estabilidade e desempenho dos ambientes.
Conduzir análises de pós-incidente (post-mortem), realizando investigações de causa raiz (RCA) e definindo planos de ação preventivos.
Apoiar iniciativas de melhoria da observabilidade e monitoramento dos sistemas críticos.
Colaborar com equipes de infraestrutura, desenvolvimento e operações na evolução dos processos de gestão de incidentes e confiabilidade dos sistemas.
Requisitos
Experiência com gestão de incidentes críticos ou atuação como Technical Incident Manager.
Experiência com ferramentas de observabilidade como Dynatrace, Grafana, AppDynamics e Sensedia.
Experiência com CAWA (Workload Automation).
Conhecimento em NGINX, WAS, JBoss, APIs e análise de logs.
Conhecimento em infraestrutura com Linux, Windows Server, AIX e ambientes AWS (EC2, S3, RDS, Lambda).
Conhecimento em arquitetura de microserviços.
Conhecimento em SQL e análise de performance de sistemas.
Características Comportamentais
Comunicação clara e capacidade de interação entre áreas técnicas e executivas.
Alta resiliência e capacidade de atuação sob pressão em ambientes críticos.
Forte capacidade analítica com foco na identificação de causa raiz e resolução de problemas complexos.
Proatividade, senso de responsabilidade e foco em melhoria contínua dos processos e operações.
Compartilhar vaga:
Compartilhar vaga:
Rod. José Carlos Daux - SC 401, 4120 - km 4, Bairro Saco Grande - Florianópolis - SC - CEP 88032-005,