Despliega un LLM open-source on-premise con fallback automático
Visión general
De qué trata este proyecto.
Desplegarás vLLM o TGI (Text Generation Inference) en una GPU compartida (4xL40S o equivalente) para el modelo grande, y otro endpoint con modelo más pequeño (Qwen2 7B) como fallback. Implementarás load balancer con circuit breaker: si el principal supera latencia P95 o está caído, fallback automático. Diseñarás 50 prompts realistas y mediarás latencia, throughput y calidad relativa entre modelos. Entregarás docker-compose o Helm chart + runbook operativo.
El Briefing
Lo que harás y lo que demostrarás.
Desplegar un LLM open-source on-premise con fallback automático y validar resiliencia bajo carga realista.
Earning criteria — what you'll demonstrate
- Desplegar LLMs abiertos on-premise con stacks de inferencia (vLLM, TGI)
- Implementar resiliencia con load balancing y circuit breakers
- Benchmarkar bajo carga realista con percentiles correctos
- Documentar runbooks operativos para equipos de plataforma
Encaje académico
Dónde encaja esto en tus estudios.
Afina las mismas habilidades que tu titulación espera de ti.
Habilidades
Habilidades que demostrarás.
Cada una aparece en tu credencial verificada.
Carreras
Roles para los que esto te prepara.
Títulos reales. Puentes de habilidades reales. Elige el que más se acerque a tu trayectoria.
Trayectorias profesionales que esto construye
Roles canónicosIngeniera de MLOps
Desplegar LLMs on-premise con resiliencia operativa es el portafolio que sectores regulados (seguros, banca, salud) buscan en MLOps senior.
Este proyecto afina
- llm-deployment
- on-premise-inference
- infrastructure
Arquitecta de Soluciones de IA
Diseñar arquitectura con fallback y circuit breaker es responsabilidad central de architects en empresas con SLA estrictos.
Este proyecto afina
- load-balancing
- on-premise-inference
- infrastructure
Ingeniera de IA
Empaquetar la inferencia y exponerla con resiliencia es competencia transversal de AI engineers en organizaciones medianas y grandes.
Este proyecto afina
- llm-deployment
- python
- load-balancing