Geekhunter Logo

Soluciones

Casos de uso

¿Por qué Geekhunter?

Recursos

Iniciar sesión

Español

ES

Nava Technology for Business


São Paulo - SP, Brasil

Show original

Ingeniero de Confiabilidad del Sitio | SRE Senior

Híbrido

São Paulo - SP

Rango salarial

No informada

Nivel de experiencia

Senior

Requisitos

5+ años de experiencia en la carrera
Amazon Web Services (AWS)
Apache Kafka
.NET
SRE
DevOps

Tareas y Responsabilidades

Show original

Estamos buscando un Ingeniero de Confiabilidad del Sitio (SRE) para actuar como guardián de la confiabilidad, estabilidad y rendimiento de nuestros productos y servicios. Si te gusta trabajar con entornos críticos, decisiones basadas en datos y una cultura sin culpas, este puesto puede ser para ti.


🎯 Misión del Cargo


Asegurar que nuestros sistemas operen con alta confiabilidad, eficiencia y previsibilidad, equilibrando la velocidad de entrega y la robustez operativa. El SRE será una pieza clave en la evolución de la madurez técnica del equipo y en la sostenibilidad de servicios críticos.

El profesional actuará en una escala de guardia rotativa, respondiendo a incidentes dentro de los SLAs definidos, conduciendo estabilizaciones rápidas, participando en post-mortems sin culpas y proponiendo mejoras continuas para reducir recurrencias. La guardia sigue políticas internas de compensación.


Principales Responsabilidades

Confiabilidad y Gobernanza

  • Definir, mantener y evolucionar SLIs y SLOs de APIs críticas
  • Gestionar presupuestos de error y apoyar decisiones de lanzamiento
  • Actuar como referencia en el equilibrio entre agilidad y estabilidad


Observabilidad y Operación

  • Implementar y evolucionar monitoreo, métricas, registros y trazado
  • Asegurar alertas accionables y dashboards eficientes
  • Liderar o apoyar respuestas a incidentes y salas de guerra


Gestión de Incidentes

  • Estructurar y ejecutar procesos de respuesta a incidentes sin culpas
  • Conducir post-mortems y asegurar acciones correctivas
  • Actuar en la reducción de MTTA, MTTR y recurrencia


Automatización y Reducción de Toil

  • Automatizar tareas repetitivas y flujos operativos
  • Crear libros de ejecución, automatizaciones y mejoras en CI/CD
  • Estandarizar procesos de lanzamiento, reversión y pruebas de resiliencia
  • Infraestructura y Rendimiento
  • Actuar con Kubernetes/EKS, AWS, Azure DevOps, Kafka y bases de datos


Requisitos Obligatorios

  • Experiencia en Ingeniería, Infraestructura, Plataforma o SRE/DevOps
  • Experiencia con SLO, SLI, presupuesto de error y gestión de incidentes
  • Fuerte habilidad en resolución de problemas y ACR (Análisis de Causa Raíz)
  • Tecnologías
  • Kubernetes/EKS, Azure DevOps
  • Observabilidad: Prometheus, Grafana, ELK, CloudWatch, X-Ray
  • Kafka, Oracle, MySQL
  • Seguridad operativa e IAM
  • Lenguajes y Automatización
  • Bash, PowerShell, Python
  • Ansible, Terraform, Helm
  • Diferencial: .NET Framework y .NET Core

Se requiere disponibilidad para trabajar en el modelo híbrido en la región de Vila Olímpia en São Paulo, de 1 a 2 veces por semana.



📩 Inscripción en el proceso selectivo

Para continuar con el proceso, solicitamos que también realices tu candidatura en la plataforma Sophia:


🔗 Enlace para la candidatura: https://entrevista.starmindai.ai

🔢 Código del puesto: NAVA-SRE

Compartir vacante:

Phone

Solo se aceptan archivos PDF con un tamaño máximo de 3mb.

Compartir vacante: