Diseña un sistema de serving para LLMs con autoscaling para una empresa SaaS
Visión general
De qué trata este proyecto.
Recibirás el modelo (Mistral-7B fine-tuned), trazas de tráfico de 4 semanas y acceso a un clúster Kubernetes con KEDA (Kubernetes Event-driven Autoscaling). Implementa: (1) despliegue con vLLM, (2) configuración de KEDA basada en métricas custom (cola de requests pendientes), (3) un script de carga que reproduzca el tráfico bursty para validar. Mide latencia p50/p95, coste por 1.000 requests y SLO compliance (cumplimiento del objetivo de nivel de servicio). El éxito es p95 < 1,5 s sostenido con coste 40 % menor que el setup actual.
El Briefing
Lo que harás y lo que demostrarás.
Diseñar un sistema de serving de LLM con autoscaling que mantenga p95 < 1,5 s reduciendo 40 % el coste GPU mensual.
Earning criteria — what you'll demonstrate
- Diseñar serving de LLM con autoscaling bajo tráfico bursty real
- Configurar KEDA con métricas custom (no solo CPU)
- Medir y reportar SLO compliance honestamente
- Defender un análisis económico ante una persona ejecutiva
Encaje académico
Dónde encaja esto en tus estudios.
Afina las mismas habilidades que tu titulación espera de ti.
Habilidades
Habilidades que demostrarás.
Cada una aparece en tu credencial verificada.
Carreras
Roles para los que esto te prepara.
Títulos reales. Puentes de habilidades reales. Elige el que más se acerque a tu trayectoria.
Trayectorias profesionales que esto construye
Roles canónicosIngeniero/a MLOps
Operar serving de LLM con autoscaling es uno de los problemas más demandados de MLOps en SaaS B2B; este reto reproduce el trabajo de un MLOps senior bajo restricciones reales.
Este proyecto afina
- llm-serving
- autoscaling
- kubernetes
Ingeniero/a de Machine Learning
Saber operar la inferencia de tu modelo en producción con SLOs claros es competencia diferenciadora para un MLE senior.
Este proyecto afina
- llm-serving
- load-testing
- observability
Arquitecto/a de Soluciones de IA
Traducir un setup técnico en un análisis económico defendible ante CTO es el corazón del trabajo de un solutions architect.
Este proyecto afina
- cost-optimization
- autoscaling
- llm-serving