Inverse RL para descubrir la política de un piloto de drone
Visión general
De qué trata este proyecto.
En equipo de 2-3, recibes 120 trayectorias del piloto (estado-acción muestreado a 5Hz) con 10 features de estado (posición relativa, viento, batería, etc.) y un simulador de drone calibrado. Implementa Maximum Entropy IRL para recuperar una función de recompensa lineal en features. Entrena un agente RL contra esa recompensa y compara sus trayectorias con las del piloto cuantitativamente (mean trajectory deviation, métricas de cobertura). Éxito = recompensa interpretable (coeficientes claramente interpretables), agente que reproduce trayectorias dentro de 1m de mean deviation, reporte de 8 páginas con caveats metodológicos.
El Briefing
Lo que harás y lo que demostrarás.
Recuperar la función de recompensa implícita en trayectorias expertas de drone via IRL y validar con un agente entrenado contra esa recompensa.
Earning criteria — what you'll demonstrate
- Aplicar Maximum Entropy IRL para recuperar recompensa desde demostraciones
- Validar IRL comparando agente derivado vs. demostraciones
- Interpretar coeficientes de recompensa lineal en features de dominio
- Producir reportes técnicos al nivel de paper corto
Encaje académico
Dónde encaja esto en tus estudios.
Afina las mismas habilidades que tu titulación espera de ti.
Habilidades
Habilidades que demostrarás.
Cada una aparece en tu credencial verificada.
Carreras
Roles para los que esto te prepara.
Títulos reales. Puentes de habilidades reales. Elige el que más se acerque a tu trayectoria.
Trayectorias profesionales que esto construye
Roles canónicosInvestigador/a de Machine Learning
Aplicar IRL y producir reportes paper-quality es trabajo central del ML researcher en robotics avanzado.
Este proyecto afina
- inverse-reinforcement-learning
- research-methods
- robot-learning
Científico/a de Investigación
Recuperar funciones de recompensa interpretables con caveats explícitos emula el rigor de un research scientist en RL.
Este proyecto afina
- inverse-reinforcement-learning
- research-methods
- evaluation
Ingeniero/a de Machine Learning
Implementar IRL desde cero y entrenar el agente derivado conecta directo con la franja research del MLE en robotics.
Este proyecto afina
- reinforcement-learning
- robot-learning
- python
Científico/a Aplicado/a de IA
Capturar conocimiento experto via IRL para un problema industrial concreto es exactamente lo que aporta un applied AI scientist en minería e inspección.
Este proyecto afina
- inverse-reinforcement-learning
- robot-learning
- evaluation