Estamos buscando un Ingeniero de Confiabilidad del Sitio (SRE) para actuar como guardián de la confiabilidad, estabilidad y rendimiento de nuestros productos y servicios. Si te gusta trabajar con entornos críticos, decisiones basadas en datos y una cultura sin culpas, este puesto puede ser para ti.
🎯 Misión del Cargo
Asegurar que nuestros sistemas operen con alta confiabilidad, eficiencia y previsibilidad, equilibrando la velocidad de entrega y la robustez operativa. El SRE será una pieza clave en la evolución de la madurez técnica del equipo y en la sostenibilidad de servicios críticos.
El profesional actuará en una escala de guardia rotativa, respondiendo a incidentes dentro de los SLAs definidos, conduciendo estabilizaciones rápidas, participando en post-mortems sin culpas y proponiendo mejoras continuas para reducir recurrencias. La guardia sigue políticas internas de compensación.
Principales Responsabilidades
Confiabilidad y Gobernanza
- Definir, mantener y evolucionar SLIs y SLOs de APIs críticas
- Gestionar presupuestos de error y apoyar decisiones de lanzamiento
- Actuar como referencia en el equilibrio entre agilidad y estabilidad
Observabilidad y Operación
- Implementar y evolucionar monitoreo, métricas, registros y trazado
- Asegurar alertas accionables y dashboards eficientes
- Liderar o apoyar respuestas a incidentes y salas de guerra
Gestión de Incidentes
- Estructurar y ejecutar procesos de respuesta a incidentes sin culpas
- Conducir post-mortems y asegurar acciones correctivas
- Actuar en la reducción de MTTA, MTTR y recurrencia
Automatización y Reducción de Toil
- Automatizar tareas repetitivas y flujos operativos
- Crear libros de ejecución, automatizaciones y mejoras en CI/CD
- Estandarizar procesos de lanzamiento, reversión y pruebas de resiliencia
- Infraestructura y Rendimiento
- Actuar con Kubernetes/EKS, AWS, Azure DevOps, Kafka y bases de datos
Requisitos Obligatorios
- Experiencia en Ingeniería, Infraestructura, Plataforma o SRE/DevOps
- Experiencia con SLO, SLI, presupuesto de error y gestión de incidentes
- Fuerte habilidad en resolución de problemas y ACR (Análisis de Causa Raíz)
- Tecnologías
- Kubernetes/EKS, Azure DevOps
- Observabilidad: Prometheus, Grafana, ELK, CloudWatch, X-Ray
- Kafka, Oracle, MySQL
- Seguridad operativa e IAM
- Lenguajes y Automatización
- Bash, PowerShell, Python
- Ansible, Terraform, Helm
- Diferencial: .NET Framework y .NET Core
Se requiere disponibilidad para trabajar en el modelo híbrido en la región de Vila Olímpia en São Paulo, de 1 a 2 veces por semana.
📩 Inscripción en el proceso selectivo
Para continuar con el proceso, solicitamos que también realices tu candidatura en la plataforma Sophia:
🔗 Enlace para la candidatura: https://entrevista.starmindai.ai
🔢 Código del puesto: NAVA-SRE