Skip to contentSkip to content
Certificados verificados. En cadena. Para siempre.Más información
Cover image for Optimiza un transformer con técnicas modernas de eficiencia
Code

Optimiza un transformer con técnicas modernas de eficiencia

FreeVerified credential4 semanasExpert

Visión general

De qué trata este proyecto.

Recibirás el modelo baseline (un encoder transformer fine-tuned de 110M parámetros), un benchmark interno de 5.000 pares (query, doc) con similaridad esperada, y la traza de requests reales del último mes. Aplica al menos 3 técnicas: (1) knowledge distillation a un modelo más pequeño (30-40M), (2) quantización INT8 (PTQ o QAT), (3) serving optimizado (vLLM, TGI o Triton). Mide trade-off coste/calidad para cada combinación. Reporta latencia p50/p95/p99, throughput, coste por millón de requests y similaridad con baseline. Entrega notebook + endpoint optimizado + recomendación.

CredentialBlockchain-anchored
ShareableLinkedIn-ready
LanguageEnglish
PaceSelf-paced

El Briefing

Lo que harás y lo que demostrarás.

Reduce coste de inferencia de un encoder transformer 50 por ciento manteniendo calidad (cosine mayor a 0,97 vs baseline).

Earning criteria — what you'll demonstrate

  • Aplicar knowledge distillation correctamente (teacher frozen, alignment loss)
  • Cuantizar modelos con PTQ y QAT entendiendo trade-offs
  • Optimizar serving con frameworks modernos (vLLM, TGI, Triton)
  • Cuantificar trade-off coste/calidad para decisiones de infraestructura

Encaje académico

Dónde encaja esto en tus estudios.

Afina las mismas habilidades que tu titulación espera de ti.

Carreras

Roles para los que esto te prepara.

Títulos reales. Puentes de habilidades reales. Elige el que más se acerque a tu trayectoria.

Trayectorias profesionales que esto construye

Roles canónicos

Ingeniero de Aprendizaje Automático

Optimización de inferencia con distillation + quantization + serving moderno es de las skills mejor pagadas en MLE senior.

Este proyecto afina

  • knowledge-distillation
  • quantization
  • model-serving

Ingeniero de MLOps

Diseñar serving optimizado con benchmark de latencia es exactamente el trabajo del MLOps engineer en infra de IA.

Este proyecto afina

  • model-serving
  • performance-optimization
  • quantization

Arquitecto de Soluciones de IA

Cuantificar trade-offs coste/calidad para decisiones de arquitectura es la habilidad central del AI solutions architect.

Este proyecto afina

  • performance-optimization
  • model-serving
  • quantization

Una cosa más

Puedes tener una credencial en tu CV para el viernes.