Optimiza la latencia de inferencia de un LLM para un banco IBEX-35 anonimizado
Visión general
De qué trata este proyecto.
Recibes el modelo base (Llama-3-13B o equivalente), 500 prompts representativos en español y acceso a una máquina con una GPU A100 de 40GB. Implementa y mide tres optimizaciones en orden: (1) cuantización INT8 con bitsandbytes, (2) servidor de inferencia con vLLM y batching continuo, (3) tensor parallelism si el tiempo lo permite. Mide latencia p50/p95, throughput (tokens/seg) y calidad (BLEU contra el modelo FP16 como referencia). El éxito es bajar p95 a menos de 1,2 s sin perder más de 2 puntos BLEU.
El Briefing
Lo que harás y lo que demostrarás.
Reducir la latencia p95 de inferencia del LLM de 2,8 s a menos de 1,2 s sin degradar la calidad más de 2 puntos BLEU.
Earning criteria — what you'll demonstrate
- Aplicar técnicas de cuantización post-entrenamiento sobre un LLM grande
- Diseñar un benchmark de inferencia justo entre runtimes
- Razonar sobre el trade-off latencia/calidad/coste en producción
- Comunicar un Pareto Frontier a un equipo de plataforma
Encaje académico
Dónde encaja esto en tus estudios.
Afina las mismas habilidades que tu titulación espera de ti.
Habilidades
Habilidades que demostrarás.
Cada una aparece en tu credencial verificada.
Carreras
Roles para los que esto te prepara.
Títulos reales. Puentes de habilidades reales. Elige el que más se acerque a tu trayectoria.
Ingeniero/a de Machine Learning
Optimizar inferencia de LLMs en GPU es uno de los oficios más demandados en banca y SaaS; este reto reproduce el trabajo cotidiano de un MLE de plataforma con foco en latencia.
Este proyecto afina
- llm-inference
- quantization
- model-serving
Ingeniero/a MLOps
Diseñar un benchmark de inferencia reproducible con métricas p95 y documentar el despliegue es trabajo nuclear de MLOps en empresas con tráfico real.
Este proyecto afina
- model-serving
- benchmarking
- gpu-optimization
Arquitecto/a de Soluciones de IA
Traducir un Pareto técnico en una recomendación defendible ante un equipo de plataforma es exactamente lo que un solutions architect hace cada semana.
Este proyecto afina
- benchmarking
- llm-inference
- gpu-optimization