Skip to contentSkip to content
Certificados verificados. En cadena. Para siempre.Más información
Cover image for Optimiza la latencia de inferencia de un LLM para un banco IBEX-35 anonimizado
Code

Optimiza la latencia de inferencia de un LLM para un banco IBEX-35 anonimizado

FreeVerified credential3 semanasExpert

Visión general

De qué trata este proyecto.

Recibes el modelo base (Llama-3-13B o equivalente), 500 prompts representativos en español y acceso a una máquina con una GPU A100 de 40GB. Implementa y mide tres optimizaciones en orden: (1) cuantización INT8 con bitsandbytes, (2) servidor de inferencia con vLLM y batching continuo, (3) tensor parallelism si el tiempo lo permite. Mide latencia p50/p95, throughput (tokens/seg) y calidad (BLEU contra el modelo FP16 como referencia). El éxito es bajar p95 a menos de 1,2 s sin perder más de 2 puntos BLEU.

CredentialBlockchain-anchored
ShareableLinkedIn-ready
LanguageEnglish
PaceSelf-paced

El Briefing

Lo que harás y lo que demostrarás.

Reducir la latencia p95 de inferencia del LLM de 2,8 s a menos de 1,2 s sin degradar la calidad más de 2 puntos BLEU.

Earning criteria — what you'll demonstrate

  • Aplicar técnicas de cuantización post-entrenamiento sobre un LLM grande
  • Diseñar un benchmark de inferencia justo entre runtimes
  • Razonar sobre el trade-off latencia/calidad/coste en producción
  • Comunicar un Pareto Frontier a un equipo de plataforma

Encaje académico

Dónde encaja esto en tus estudios.

Afina las mismas habilidades que tu titulación espera de ti.

Habilidades

Habilidades que demostrarás.

Cada una aparece en tu credencial verificada.

Carreras

Roles para los que esto te prepara.

Títulos reales. Puentes de habilidades reales. Elige el que más se acerque a tu trayectoria.

Ingeniero/a de Machine Learning

Optimizar inferencia de LLMs en GPU es uno de los oficios más demandados en banca y SaaS; este reto reproduce el trabajo cotidiano de un MLE de plataforma con foco en latencia.

Este proyecto afina

  • llm-inference
  • quantization
  • model-serving

Ingeniero/a MLOps

Diseñar un benchmark de inferencia reproducible con métricas p95 y documentar el despliegue es trabajo nuclear de MLOps en empresas con tráfico real.

Este proyecto afina

  • model-serving
  • benchmarking
  • gpu-optimization

Arquitecto/a de Soluciones de IA

Traducir un Pareto técnico en una recomendación defendible ante un equipo de plataforma es exactamente lo que un solutions architect hace cada semana.

Este proyecto afina

  • benchmarking
  • llm-inference
  • gpu-optimization

Una cosa más

Puedes tener una credencial en tu CV para el viernes.