Skip to contentSkip to content
Certificados verificados. En cadena. Para siempre.Más información
Cover image for Entrena un Reward Model para evaluar respuestas de un asistente
Code

Entrena un Reward Model para evaluar respuestas de un asistente

FreeVerified credential3 semanasAdvanced

Visión general

De qué trata este proyecto.

En equipo de 2, recibes el dataset HH-RLHF (open-source) con ~160k pares y un modelo base abierto fine-tuneable (por ejemplo Qwen2.5-1.5B o similar). Entrena un RM agregando una head escalar al modelo base con loss de Bradley-Terry. Evalúa accuracy en holdout, mide calibración (¿el delta de score correlaciona con la fuerza de preferencia?) y audita 3 sesgos comunes: longitud, sycophancy (acuerdo automático con el usuario), y formato. Éxito = accuracy holdout >= 0,68, calibración razonable y reporte honesto de los 3 sesgos.

CredentialBlockchain-anchored
ShareableLinkedIn-ready
LanguageEnglish
PaceSelf-paced

El Briefing

Lo que harás y lo que demostrarás.

Entrenar un Reward Model sobre preferencias open-source con accuracy >= 0,68 en holdout y diagnóstico explícito de 3 sesgos.

Earning criteria — what you'll demonstrate

  • Implementar Reward Modeling con loss de Bradley-Terry
  • Fine-tunear modelos abiertos con head escalar adicional
  • Diagnosticar sesgos comunes en Reward Models
  • Validar calibración del score, no solo accuracy

Encaje académico

Dónde encaja esto en tus estudios.

Afina las mismas habilidades que tu titulación espera de ti.

Habilidades

Habilidades que demostrarás.

Cada una aparece en tu credencial verificada.

Carreras

Roles para los que esto te prepara.

Títulos reales. Puentes de habilidades reales. Elige el que más se acerque a tu trayectoria.

Trayectorias profesionales que esto construye

Roles canónicos

Ingeniero/a de Machine Learning

Entrenar Reward Models con TRL y auditar sesgos es la franja moderna del trabajo de MLE en empresas que sirven LLMs.

Este proyecto afina

  • reward-modeling
  • fine-tuning
  • evaluation

Investigador/a en Seguridad de IA

Diagnosticar sycophancy y otros sesgos en RMs es exactamente el trabajo nuclear del AI safety researcher en alignment.

Este proyecto afina

  • reward-modeling
  • rlhf
  • evaluation

Investigador/a de Machine Learning

Implementar Bradley-Terry, validar calibración y comunicar caveats es el día a día del ML researcher en preference learning.

Este proyecto afina

  • rlhf
  • reward-modeling
  • deep-learning

Una cosa más

Puedes tener una credencial en tu CV para el viernes.