Visión general
De qué trata este proyecto.
Diseña SLOs para los 4 servicios críticos (auth, ledger, gateway-procesador, notifier) con SLI (Service Level Indicator — indicador de nivel de servicio) basados en disponibilidad y latencia (p99 menor a 800 ms). Define error budget mensual y políticas burn rate (alerta rápida en 1 h al 14.4× consumo, alerta lenta en 6 h al 6× consumo) siguiendo SRE Workbook. Implementa las alertas en Prometheus + Alertmanager con enrutamiento a PagerDuty y Slack. Escribe runbooks específicos por alerta. Pilota 3 semanas en staging con carga real reproducida y mide reducción de alertas no accionables. Entrega: SLO catalog (8 páginas), reglas Prometheus, runbooks (1 por alerta), informe del piloto (6 páginas).
El Briefing
Lo que harás y lo que demostrarás.
Diseñar alertas SLO-driven en Prometheus + Alertmanager para 4 servicios críticos y reducir alertas no accionables en al menos 70 % manteniendo cobertura.
Earning criteria — what you'll demonstrate
- Diseñar SLOs defendibles con SLIs basados en experiencia de usuario
- Implementar burn rate alerting multi-ventana en Prometheus
- Escribir runbooks que un on-call siga a las 3 AM sin escalar
- Argumentar reducción de alertas no accionables con métricas
Encaje académico
Dónde encaja esto en tus estudios.
Afina las mismas habilidades que tu titulación espera de ti.
Habilidades
Habilidades que demostrarás.
Cada una aparece en tu credencial verificada.
Carreras
Roles para los que esto te prepara.
Títulos reales. Puentes de habilidades reales. Elige el que más se acerque a tu trayectoria.