Detección y mitigación de reward hacking en un agente RLHF
Visión general
De qué trata este proyecto.
En equipo de 2-3, recibes: (1) un modelo RLHF entrenado (caja negra accesible por API), (2) el Reward Model usado, (3) un prompt set diverso de 500 prompts. Diseña un protocolo para detectar reward hacking: (i) compara score del RM con accuracy en un golden test, (ii) busca patrones (verbosidad, formato excesivo, sycophancy) que suben score pero no calidad, (iii) ejecuta red-team con prompts adversariales. Propón 3 mitigaciones concretas (KL penalty más fuerte, RM ensembling, golden-grounded eval). Éxito = reporte técnico de 8 páginas con evidencia cuantitativa de al menos 2 patrones de hacking y mitigaciones validadas en mini-experimento.
El Briefing
Lo que harás y lo que demostrarás.
Detectar reward hacking en un modelo RLHF y proponer mitigaciones validadas, en formato paper corto.
Earning criteria — what you'll demonstrate
- Detectar reward hacking con métricas grounded vs. RM-based
- Diseñar evaluaciones adversariales contra RLHF policies
- Proponer y validar mitigaciones (KL, ensembling, grounded eval)
- Producir reportes técnicos al nivel de paper en formato académico
Encaje académico
Dónde encaja esto en tus estudios.
Afina las mismas habilidades que tu titulación espera de ti.
Habilidades
Habilidades que demostrarás.
Cada una aparece en tu credencial verificada.
Carreras
Roles para los que esto te prepara.
Títulos reales. Puentes de habilidades reales. Elige el que más se acerque a tu trayectoria.
Trayectorias profesionales que esto construye
Roles canónicosInvestigador/a en Seguridad de IA
Detectar reward hacking y validar mitigaciones es exactamente el trabajo nuclear del AI safety researcher en labs de alignment y consultoría especializada.
Este proyecto afina
- rlhf
- reward-hacking
- alignment
Científico/a de Investigación
Producir un reporte tipo paper corto con evidencia cuantitativa y mitigaciones validadas emula el output esperado de un research scientist senior.
Este proyecto afina
- research-methods
- alignment
- evaluation
Investigador/a de Machine Learning
Red-teaming sistemático de modelos RLHF y diseño de protocolos reproducibles es la franja senior del ML researcher en alignment aplicado.
Este proyecto afina
- rlhf
- red-teaming
- evaluation