Entrena un Reward Model para evaluar respuestas de un asistente
Visión general
De qué trata este proyecto.
En equipo de 2, recibes el dataset HH-RLHF (open-source) con ~160k pares y un modelo base abierto fine-tuneable (por ejemplo Qwen2.5-1.5B o similar). Entrena un RM agregando una head escalar al modelo base con loss de Bradley-Terry. Evalúa accuracy en holdout, mide calibración (¿el delta de score correlaciona con la fuerza de preferencia?) y audita 3 sesgos comunes: longitud, sycophancy (acuerdo automático con el usuario), y formato. Éxito = accuracy holdout >= 0,68, calibración razonable y reporte honesto de los 3 sesgos.
El Briefing
Lo que harás y lo que demostrarás.
Entrenar un Reward Model sobre preferencias open-source con accuracy >= 0,68 en holdout y diagnóstico explícito de 3 sesgos.
Earning criteria — what you'll demonstrate
- Implementar Reward Modeling con loss de Bradley-Terry
- Fine-tunear modelos abiertos con head escalar adicional
- Diagnosticar sesgos comunes en Reward Models
- Validar calibración del score, no solo accuracy
Encaje académico
Dónde encaja esto en tus estudios.
Afina las mismas habilidades que tu titulación espera de ti.
Habilidades
Habilidades que demostrarás.
Cada una aparece en tu credencial verificada.
Carreras
Roles para los que esto te prepara.
Títulos reales. Puentes de habilidades reales. Elige el que más se acerque a tu trayectoria.
Trayectorias profesionales que esto construye
Roles canónicosIngeniero/a de Machine Learning
Entrenar Reward Models con TRL y auditar sesgos es la franja moderna del trabajo de MLE en empresas que sirven LLMs.
Este proyecto afina
- reward-modeling
- fine-tuning
- evaluation
Investigador/a en Seguridad de IA
Diagnosticar sycophancy y otros sesgos en RMs es exactamente el trabajo nuclear del AI safety researcher en alignment.
Este proyecto afina
- reward-modeling
- rlhf
- evaluation
Investigador/a de Machine Learning
Implementar Bradley-Terry, validar calibración y comunicar caveats es el día a día del ML researcher en preference learning.
Este proyecto afina
- rlhf
- reward-modeling
- deep-learning