Visión general
De qué trata este proyecto.
Diseña dos entornos sobre Gymnasium: uno donde el agente puede maximizar recompensa explotando un bug del entorno, otro donde el agente puede satisfacer la métrica sin cumplir el objetivo real (proxy gaming). Entrena agentes con un algoritmo estándar (PPO o DQN) durante el tiempo necesario para observar el comportamiento patológico. Documenta el momento exacto en que aparece y compáralo contra una variante con recompensa rediseñada (reward shaping conservador). Cierra con un repositorio público y una guía de enseñanza de seis páginas con figuras claras del comportamiento del agente.
El Briefing
Lo que harás y lo que demostrarás.
Construir dos entornos donde el specification gaming aparezca de forma reproducible, documentarlo y producir material de enseñanza ejecutable.
Earning criteria — what you'll demonstrate
- Reproducir specification gaming en entornos controlados
- Diseñar entornos pedagógicos que muestren el fenómeno con claridad
- Aplicar reward shaping de forma reflexiva
- Construir material reproducible que la comunidad pueda reutilizar
Encaje académico
Dónde encaja esto en tus estudios.
Afina las mismas habilidades que tu titulación espera de ti.
Habilidades
Habilidades que demostrarás.
Cada una aparece en tu credencial verificada.
Carreras
Roles para los que esto te prepara.
Títulos reales. Puentes de habilidades reales. Elige el que más se acerque a tu trayectoria.
Trayectorias profesionales que esto construye
Roles canónicosInvestigador de Seguridad de IA
Reproducir specification gaming en entornos pedagógicos y construir material reproducible es trabajo nuclear del rol de AI Safety Researcher en investigación académica.
Este proyecto afina
- specification-gaming
- reinforcement-learning
- experimental-design
Investigador de Machine Learning
El diseño de entornos sintéticos donde aparezcan fenómenos específicos es ejercicio directo del rol de ML Researcher en RL y safety.
Este proyecto afina
- reinforcement-learning
- experimental-design
- pytorch
Investigador Científico
Convertir hallazgos en material reproducible y comunicable a la comunidad es competencia diferencial del rol de Research Scientist.
Este proyecto afina
- scientific-communication
- reinforcement-learning
- experimental-design