Visión general
De qué trata este proyecto.
En equipo de 2-3, recibes un modelo base abierto pequeño (Qwen2.5-1.5B o Phi-3-mini) y un dataset de preferencias PT-BR de ~8.000 pares construido en una iteración anterior. Entrena: (A) PPO con Reward Model + KL penalty, (B) DPO directo. Evalúa con: win rate sobre 200 prompts comparando A vs. B vs. base, accuracy en bench educativo PT (puede ser un subset de ENEM o equivalente). Mide también complejidad operativa (líneas de código, tiempo wall-clock, picos de memoria). Éxito = comparación honesta con recomendación defendible y reporte de trade-offs.
El Briefing
Lo que harás y lo que demostrarás.
Comparar PPO y DPO sobre el mismo modelo base y dataset PT-BR, midiendo calidad, costo y complejidad para recomendar método interno.
Earning criteria — what you'll demonstrate
- Implementar PPO con Reward Model + KL penalty
- Implementar DPO como alternativa directa sin RM separado
- Comparar métodos de alineación honestamente (calidad + costo)
- Comunicar decisiones de plataforma con trade-offs explícitos
Encaje académico
Dónde encaja esto en tus estudios.
Afina las mismas habilidades que tu titulación espera de ti.
Habilidades
Habilidades que demostrarás.
Cada una aparece en tu credencial verificada.
Carreras
Roles para los que esto te prepara.
Títulos reales. Puentes de habilidades reales. Elige el que más se acerque a tu trayectoria.
Trayectorias profesionales que esto construye
Roles canónicosInvestigador/a de Machine Learning
Comparar métodos de alineación con rigor y producir un memo de plataforma es exactamente el trabajo de un ML researcher en labs internos de empresas LLM.
Este proyecto afina
- rlhf
- dpo
- ppo
Científico/a de Investigación
Diseñar comparación controlada de PPO vs. DPO con análisis de fallos cualitativos emula la rigurosidad esperada de un research scientist.
Este proyecto afina
- preference-learning
- rlhf
- evaluation
Ingeniero/a de Machine Learning
Llevar PPO y DPO a producción con análisis de costo y memoria es trabajo nuclear del MLE en infraestructura LLM.
Este proyecto afina
- fine-tuning
- rlhf
- dpo
Investigador/a en Seguridad de IA
Evaluar alineación con prompts difíciles y analizar fallos cualitativos es competencia central del AI safety researcher.
Este proyecto afina
- rlhf
- evaluation
- preference-learning