Skip to contentSkip to content
Certificados verificados. En cadena. Para siempre.Más información
Cover image for Detección y mitigación de reward hacking en un agente RLHF
Research

Detección y mitigación de reward hacking en un agente RLHF

FreeVerified credential4 semanasExpert

Visión general

De qué trata este proyecto.

En equipo de 2-3, recibes: (1) un modelo RLHF entrenado (caja negra accesible por API), (2) el Reward Model usado, (3) un prompt set diverso de 500 prompts. Diseña un protocolo para detectar reward hacking: (i) compara score del RM con accuracy en un golden test, (ii) busca patrones (verbosidad, formato excesivo, sycophancy) que suben score pero no calidad, (iii) ejecuta red-team con prompts adversariales. Propón 3 mitigaciones concretas (KL penalty más fuerte, RM ensembling, golden-grounded eval). Éxito = reporte técnico de 8 páginas con evidencia cuantitativa de al menos 2 patrones de hacking y mitigaciones validadas en mini-experimento.

CredentialBlockchain-anchored
ShareableLinkedIn-ready
LanguageEnglish
PaceSelf-paced

El Briefing

Lo que harás y lo que demostrarás.

Detectar reward hacking en un modelo RLHF y proponer mitigaciones validadas, en formato paper corto.

Earning criteria — what you'll demonstrate

  • Detectar reward hacking con métricas grounded vs. RM-based
  • Diseñar evaluaciones adversariales contra RLHF policies
  • Proponer y validar mitigaciones (KL, ensembling, grounded eval)
  • Producir reportes técnicos al nivel de paper en formato académico

Encaje académico

Dónde encaja esto en tus estudios.

Afina las mismas habilidades que tu titulación espera de ti.

Habilidades

Habilidades que demostrarás.

Cada una aparece en tu credencial verificada.

Carreras

Roles para los que esto te prepara.

Títulos reales. Puentes de habilidades reales. Elige el que más se acerque a tu trayectoria.

Trayectorias profesionales que esto construye

Roles canónicos

Investigador/a en Seguridad de IA

Detectar reward hacking y validar mitigaciones es exactamente el trabajo nuclear del AI safety researcher en labs de alignment y consultoría especializada.

Este proyecto afina

  • rlhf
  • reward-hacking
  • alignment

Científico/a de Investigación

Producir un reporte tipo paper corto con evidencia cuantitativa y mitigaciones validadas emula el output esperado de un research scientist senior.

Este proyecto afina

  • research-methods
  • alignment
  • evaluation

Investigador/a de Machine Learning

Red-teaming sistemático de modelos RLHF y diseño de protocolos reproducibles es la franja senior del ML researcher en alignment aplicado.

Este proyecto afina

  • rlhf
  • red-teaming
  • evaluation

Una cosa más

Puedes tener una credencial en tu CV para el viernes.