Visión general
De qué trata este proyecto.
Recibirás ~6.000 pares de preferencia anotados por equipo de marca (respuesta A preferida a respuesta B) y un modelo SFT base. Aplica DPO con parámetro beta adecuado, registra curvas de KL respecto al modelo base y mide win-rate pairwise contra el modelo SFT en 100 prompts nuevos. Diseña un protocolo de evaluación de tono que producto pueda repetir trimestralmente, incluyendo cómo se anotan nuevos pares y cómo se detecta drift de marca. Entrega modelo, protocolo y memo.
El Briefing
Lo que harás y lo que demostrarás.
Alinea un modelo SFT al tono de marca con DPO sin degradar la utilidad de las respuestas, y deja un protocolo de re-evaluación trimestral.
Earning criteria — what you'll demonstrate
- Implementar DPO con TRL y elegir beta justificado
- Equilibrar alineamiento de tono y utilidad de respuesta
- Diseñar un protocolo de anotación reproducible por equipos no técnicos
- Detectar drift de marca en producción
Encaje académico
Dónde encaja esto en tus estudios.
Afina las mismas habilidades que tu titulación espera de ti.
Habilidades
Habilidades que demostrarás.
Cada una aparece en tu credencial verificada.
Carreras
Roles para los que esto te prepara.
Títulos reales. Puentes de habilidades reales. Elige el que más se acerque a tu trayectoria.
Trayectorias profesionales que esto construye
Roles canónicosIngeniero NLP
Alinear un LLM con DPO al tono de marca es trabajo de día uno del NLP Engineer en e-commerce con IA generativa.
Este proyecto afina
- dpo
- preference-optimization
- llm-alignment
Ingeniero en Prompt
Definir criterios de tono y traducirlos a pares de preferencia es trabajo del Prompt Engineer cuando hay equipo de producto detrás.
Este proyecto afina
- llm-alignment
- llm-evaluation
- preference-optimization
Científico en IA Aplicada
Equilibrar alineamiento y utilidad, y diseñar el protocolo de re-evaluación, es trabajo central del Applied AI Scientist.
Este proyecto afina
- experiment-design
- llm-evaluation
- dpo