Skip to contentSkip to content
Certificados verificados. En cadena. Para siempre.Más información
Cover image for Aprende preferencias de manipulación a partir de feedback humano
Research

Aprende preferencias de manipulación a partir de feedback humano

FreeVerified credential4 semanasExpert

Visión general

De qué trata este proyecto.

Recibirás un brazo simulado en MuJoCo con 3 tareas de manipulación (pasar un vaso, abrir la nevera, recoger una cuchara) y un dataset inicial de 50 demostraciones humanas con etiquetas de comodidad declarada. Implementarás un pipeline de Reinforcement Learning from Human Feedback (RLHF, aprendizaje por refuerzo a partir de feedback humano) en pequeña escala: modelo de recompensa entrenado sobre preferencias por pares, política refinada con PPO, evaluación con 8 personas voluntarias en simulador VR comparando la política base con la refinada. Entregarás política, modelo de recompensa, resultados del estudio y reflexión sobre escalabilidad.

CredentialBlockchain-anchored
ShareableLinkedIn-ready
LanguageEnglish
PaceSelf-paced

El Briefing

Lo que harás y lo que demostrarás.

Adaptar la política de manipulación de un cobot doméstico a preferencias humanas mediante un pipeline ligero de aprendizaje por refuerzo a partir de feedback.

Earning criteria — what you'll demonstrate

  • Implementar un bucle RLHF de baja escala extremo a extremo
  • Diseñar un estudio de preferencias humanas con tareas robóticas controladas
  • Reflexionar sobre seguridad, sesgo y deriva de preferencias en robótica asistiva
  • Conectar resultados técnicos con decisiones de portafolio de I+D

Encaje académico

Dónde encaja esto en tus estudios.

Afina las mismas habilidades que tu titulación espera de ti.

Habilidades

Habilidades que demostrarás.

Cada una aparece en tu credencial verificada.

Carreras

Roles para los que esto te prepara.

Títulos reales. Puentes de habilidades reales. Elige el que más se acerque a tu trayectoria.

Ingeniera de Investigación en IA

RLHF aplicado a robótica con un estudio de preferencias humanas pre-registrado es trabajo de tesis temprana y pasa por defensa pública convincente.

Este proyecto afina

  • rlhf
  • reinforcement-learning
  • evaluation

Investigadora de Ciencias

Diseñar el experimento con personas, pre-registrar hipótesis y reportar honestamente es el músculo central de una research scientist en HRI.

Este proyecto afina

  • human-robot-interaction
  • evaluation
  • simulation

Investigadora de Seguridad de IA

Reflexionar sobre sesgo, deriva de preferencias y bucle humano-modelo en un cobot doméstico es trabajo nuclear de investigación en seguridad aplicada.

Este proyecto afina

  • rlhf
  • human-robot-interaction
  • evaluation

Una cosa más

Puedes tener una credencial en tu CV para el viernes.