Detección y mitigación de reward hacking en un agente RLHF

FreeVerified credential4 semanasExpert

Visión general

De qué trata este proyecto.

Diseña un protocolo para detectar reward hacking en un agente RLHF y propón 3 mitigaciones. Obtén un certificado verificable.

CredentialBlockchain-anchored

ShareableLinkedIn-ready

LanguageEnglish

PaceSelf-paced

El Briefing

Lo que harás y lo que demostrarás.

Detectar reward hacking en un modelo RLHF y proponer mitigaciones validadas, en formato paper corto.

Earning criteria — what you'll demonstrate

Detectar reward hacking con métricas grounded vs. RM-based
Diseñar evaluaciones adversariales contra RLHF policies
Proponer y validar mitigaciones (KL, ensembling, grounded eval)
Producir reportes técnicos al nivel de paper en formato académico

Encaje académico

Dónde encaja esto en tus estudios.

Afina las mismas habilidades que tu titulación espera de ti.

Machine Learning from Human Preferences (RLHF and Alignment)

Master · Ai Ml

Fit score: 1

Habilidades

Habilidades que demostrarás.

Cada una aparece en tu credencial verificada.

Carreras

Roles para los que esto te prepara.

Títulos reales. Puentes de habilidades reales. Elige el que más se acerque a tu trayectoria.

Trayectorias profesionales que esto construye

Roles canónicos

Investigador/a de Seguridad en IA
AI Research

Investigador/a en Seguridad de IA

Detectar reward hacking y validar mitigaciones es exactamente el trabajo nuclear del AI safety researcher en labs de alignment y consultoría especializada.

Este proyecto afina

rlhf
reward-hacking
alignment

Científico/a de Investigación

Producir un reporte tipo paper corto con evidencia cuantitativa y mitigaciones validadas emula el output esperado de un research scientist senior.

Este proyecto afina

research-methods
alignment
evaluation

Investigador/a de Machine Learning

Red-teaming sistemático de modelos RLHF y diseño de protocolos reproducibles es la franja senior del ML researcher en alignment aplicado.

Este proyecto afina

rlhf
red-teaming
evaluation

Una cosa más

Puedes tener una credencial en tu CV para el viernes.

Empezar este proyecto