Geekhunter Logo

Soluções

Casos de uso

Por que a Geekhunter?

Recursos

Login

Português

PT

Code Group


São Paulo - SP, Brasil

Gestor de Incidentes Críticos (Technical Incident Manager)

Presencial

São Paulo - SP

Faixa de Remuneração

PJ (Pessoa Jurídica)

Não informada

Nível de Experiência

Sênior

Requisitos

5+ anos de experiência na carreira
Gestão de incidentes críticos (P1/P2) e condução de war rooms.
Troubleshooting técnico em ambientes distribuídos (APIs, microserviços, middleware e infraestrutura).
Experiência com ferramentas de observabilidade e monitoramento como Dynatrace, Grafana, AppDynamics ou Sensedia.
Conhecimento em análise de logs e monitoramento de aplicações.

Conhecimentos Desejáveis

Experiência em ambientes de alta disponibilidade e sistemas críticos de grande escala.
Experiência com ferramentas de ITSM e gestão de incidentes (ServiceNow, Jira Service Management ou similares).
Conhecimento em práticas de SRE (Site Reliability Engineering).
Conhecimento em práticas de observabilidade avançada (métricas, logs e tracing distribuído).

Tarefas e Responsabilidades

Missão do Cargo

Garantir a gestão eficiente de incidentes críticos em ambientes tecnológicos complexos, liderando a identificação, análise e resolução de falhas que impactam serviços e operações da organização. Atuar na condução de war rooms, investigação de causa raiz e implementação de melhorias contínuas, contribuindo para a redução do tempo de indisponibilidade (MTTR), aumento da estabilidade dos sistemas e fortalecimento dos processos de gestão de incidentes.


Modelo: Híbrido | 2x por semana presencial (Centro de São Paulo – Campus Elísios)

Contratação: PJ

Horário: Comercial


Principais Responsabilidades

Gestão de Incidentes Críticos

Liderar war rooms para incidentes críticos (P1 e P2), coordenando a atuação dos times técnicos e garantindo comunicação eficiente com stakeholders e liderança executiva.

Conduzir a gestão completa de incidentes, desde a identificação e análise até a resolução e documentação das ocorrências.

Atuar na investigação técnica de problemas complexos, identificando rapidamente a causa raiz e coordenando ações para restaurar os serviços.

Garantir comunicação clara e estruturada durante incidentes críticos, mantendo todas as áreas envolvidas devidamente informadas sobre status, impactos e ações em andamento.

Troubleshooting e Monitoramento

Atuar diretamente em troubleshooting técnico envolvendo APIs, microserviços, middleware e infraestrutura de sistemas.

Monitorar ambientes utilizando ferramentas de observabilidade como Dynatrace, Grafana, AppDynamics e Sensedia.

Gerenciar e acompanhar processamentos batch críticos, garantindo estabilidade e continuidade das operações.

Realizar análise de logs, métricas e indicadores para identificação proativa de problemas e riscos operacionais.

Análise de Performance e Melhoria Contínua

Analisar cenários de capacity planning e propor melhorias para garantir escalabilidade, estabilidade e desempenho dos ambientes.

Conduzir análises de pós-incidente (post-mortem), realizando investigações de causa raiz (RCA) e definindo planos de ação preventivos.

Apoiar iniciativas de melhoria da observabilidade e monitoramento dos sistemas críticos.

Colaborar com equipes de infraestrutura, desenvolvimento e operações na evolução dos processos de gestão de incidentes e confiabilidade dos sistemas.


Requisitos

Experiência com gestão de incidentes críticos ou atuação como Technical Incident Manager.

Experiência com ferramentas de observabilidade como Dynatrace, Grafana, AppDynamics e Sensedia.

Experiência com CAWA (Workload Automation).

Conhecimento em NGINX, WAS, JBoss, APIs e análise de logs.

Conhecimento em infraestrutura com Linux, Windows Server, AIX e ambientes AWS (EC2, S3, RDS, Lambda).

Conhecimento em arquitetura de microserviços.

Conhecimento em SQL e análise de performance de sistemas.


Características Comportamentais

Comunicação clara e capacidade de interação entre áreas técnicas e executivas.

Alta resiliência e capacidade de atuação sob pressão em ambientes críticos.

Forte capacidade analítica com foco na identificação de causa raiz e resolução de problemas complexos.

Proatividade, senso de responsabilidade e foco em melhoria contínua dos processos e operações.

Compartilhar vaga:

Phone

Somente arquivo pdf com o tamanho máximo de 3mb.

Compartilhar vaga:

Geek Logo

Rod. José Carlos Daux - SC 401, 4120 - km 4, Bairro Saco Grande - Florianópolis - SC - CEP 88032-005,

PARA DEVS

Blog de TIArrow Square Out
People First Badge
GeekHunter