Compara DQN y SAC para control de cinta transportadora aleatoria
Visión general
De qué trata este proyecto.
En equipo de 2, recibes el simulador de cinta calibrado contra logs de 30 días reales. Estado = (carga actual, tasa de llegada estimada, temperatura del motor). Acción discreta (DQN): 5 niveles de velocidad. Acción continua (SAC): velocidad en [0, vmax]. Recompensa = alpha*throughput - beta*desgaste - gamma*paquetes_perdidos. Entrena ambos y compara: throughput, desgaste, robustez ante picos de carga. Éxito = ventaja Pareto de uno sobre otro identificada honestamente, análisis de cuándo gana cada uno y nota técnica con recomendación.
El Briefing
Lo que harás y lo que demostrarás.
Comparar DQN y SAC para control de velocidad de cinta y recomendar uno basándose en evidencia operativa.
Earning criteria — what you'll demonstrate
- Implementar DQN para control discreto y SAC para continuo
- Diseñar funciones de recompensa multi-objetivo coherentes
- Comparar deep RL métodos honestamente con presupuesto controlado
- Razonar sobre elección discreta vs. continua en problemas reales
Encaje académico
Dónde encaja esto en tus estudios.
Afina las mismas habilidades que tu titulación espera de ti.
Habilidades
Habilidades que demostrarás.
Cada una aparece en tu credencial verificada.
Carreras
Roles para los que esto te prepara.
Títulos reales. Puentes de habilidades reales. Elige el que más se acerque a tu trayectoria.
Trayectorias profesionales que esto construye
Roles canónicosIngeniero/a de Machine Learning
Comparar DQN vs. SAC con varianza sobre seeds en un simulador calibrado es trabajo cotidiano del MLE en operations RL.
Este proyecto afina
- reinforcement-learning
- dqn
- sac
Científico/a Aplicado/a de IA
Diseñar recompensa multi-objetivo y producir recomendación operativa para puerto es la franja senior del applied AI scientist en logística.
Este proyecto afina
- reinforcement-learning
- robot-learning
- evaluation
Investigador/a de Machine Learning
Razonar formalmente sobre cuándo elegir discreto vs. continuo y publicar nota técnica defendible es trabajo del ML researcher aplicado.
Este proyecto afina
- reinforcement-learning
- evaluation
- robot-learning