Política PPO para Conducir un AGV en Mina de Antofagasta
Visión general
De qué trata este proyecto.
Recibirás un entorno Gymnasium con un AGV de tracción diferencial, 4 mapas de túneles distintos y perturbaciones (polvo, fallos puntuales de odometría, iluminación variable). Entrena PPO con observación tipo LiDAR (240 rayos). Tu política debe completar al menos el 90% de los episodios en los 4 mapas y reducir el tiempo de traslado medio en al menos un 15% respecto a la teleoperación de referencia. Reporta robustez ante perturbaciones por escenario, tiempo medio por kilómetro y un análisis de modos de fallo (al menos 8 casos peores visualizados).
El Briefing
Lo que harás y lo que demostrarás.
Entrena una política PPO de conducción autónoma para AGV en túneles que supere la teleoperación en tiempo y mantenga la seguridad ante perturbaciones realistas.
Earning criteria — what you'll demonstrate
- Aplicar PPO con clip de razón a un problema de control continuo realista
- Diseñar un protocolo de evaluación robusto frente a perturbaciones del entorno
- Interpretar curvas de entropía y KL para detectar políticas degeneradas
- Comunicar riesgos de despliegue de RL a una audiencia operacional minera
Encaje académico
Dónde encaja esto en tus estudios.
Afina las mismas habilidades que tu titulación espera de ti.
Habilidades
Habilidades que demostrarás.
Cada una aparece en tu credencial verificada.
Carreras
Roles para los que esto te prepara.
Títulos reales. Puentes de habilidades reales. Elige el que más se acerque a tu trayectoria.
Trayectorias profesionales que esto construye
Roles canónicosIngeniero en Aprendizaje Automático
Entrenar PPO con un protocolo de evaluación industrial cubre directamente la rutina de un MLE en robótica móvil y vehículos autónomos.
Este proyecto afina
- ppo
- pytorch
- simulation
Investigador en Seguridad de IA
Evaluar robustez bajo perturbaciones y catalogar modos de fallo es el músculo central que se le pide a un AI Safety Researcher junior.
Este proyecto afina
- robustness-evaluation
- policy-gradients
- simulation
Ingeniero MLOps
Reproducibilidad multi-semilla y empaquetado del entrenamiento conectan directamente con prácticas MLOps para modelos en producción.
Este proyecto afina
- reinforcement-learning
- simulation
- pytorch