Aprende preferencias de manipulación a partir de feedback humano
Visión general
De qué trata este proyecto.
Recibirás un brazo simulado en MuJoCo con 3 tareas de manipulación (pasar un vaso, abrir la nevera, recoger una cuchara) y un dataset inicial de 50 demostraciones humanas con etiquetas de comodidad declarada. Implementarás un pipeline de Reinforcement Learning from Human Feedback (RLHF, aprendizaje por refuerzo a partir de feedback humano) en pequeña escala: modelo de recompensa entrenado sobre preferencias por pares, política refinada con PPO, evaluación con 8 personas voluntarias en simulador VR comparando la política base con la refinada. Entregarás política, modelo de recompensa, resultados del estudio y reflexión sobre escalabilidad.
El Briefing
Lo que harás y lo que demostrarás.
Adaptar la política de manipulación de un cobot doméstico a preferencias humanas mediante un pipeline ligero de aprendizaje por refuerzo a partir de feedback.
Earning criteria — what you'll demonstrate
- Implementar un bucle RLHF de baja escala extremo a extremo
- Diseñar un estudio de preferencias humanas con tareas robóticas controladas
- Reflexionar sobre seguridad, sesgo y deriva de preferencias en robótica asistiva
- Conectar resultados técnicos con decisiones de portafolio de I+D
Encaje académico
Dónde encaja esto en tus estudios.
Afina las mismas habilidades que tu titulación espera de ti.
Habilidades
Habilidades que demostrarás.
Cada una aparece en tu credencial verificada.
Carreras
Roles para los que esto te prepara.
Títulos reales. Puentes de habilidades reales. Elige el que más se acerque a tu trayectoria.
Ingeniera de Investigación en IA
RLHF aplicado a robótica con un estudio de preferencias humanas pre-registrado es trabajo de tesis temprana y pasa por defensa pública convincente.
Este proyecto afina
- rlhf
- reinforcement-learning
- evaluation
Investigadora de Ciencias
Diseñar el experimento con personas, pre-registrar hipótesis y reportar honestamente es el músculo central de una research scientist en HRI.
Este proyecto afina
- human-robot-interaction
- evaluation
- simulation
Investigadora de Seguridad de IA
Reflexionar sobre sesgo, deriva de preferencias y bucle humano-modelo en un cobot doméstico es trabajo nuclear de investigación en seguridad aplicada.
Este proyecto afina
- rlhf
- human-robot-interaction
- evaluation