Visión general
De qué trata este proyecto.
Recibirás 36 meses de historia anonimizada de demanda diaria, plazos de entrega de proveedor (variables) y costes (mantener stock, stockout, orden). Modela el problema como un MDP con estado (nivel inventario + pedidos en tránsito), acción (cantidad a ordenar), recompensa (negativo del coste total). Aplica al menos dos métodos: value iteration sobre un MDP simplificado (estado discretizado) y un método aproximado escalable (DQN o policy gradient simple) sobre el estado completo. Simula 24 meses fuera de muestra y compara contra el min-max heurístico. El éxito significa reducir coste total esperado al menos 15 por ciento manteniendo service level del 95 por ciento.
El Briefing
Lo que harás y lo que demostrarás.
Modela el reorden de inventario como MDP y entrena una política que reduzca coste total esperado 15 por ciento vs el baseline heurístico manteniendo 95 por ciento de service level.
Earning criteria — what you'll demonstrate
- Modelar un problema de decisión secuencial como Markov Decision Process
- Aplicar value iteration y dynamic programming sobre MDPs discretizados
- Comparar métodos exactos vs aproximados según tamaño del espacio de estados
- Validar políticas con simulación fuera de muestra, no con el dataset de entrenamiento
Encaje académico
Dónde encaja esto en tus estudios.
Afina las mismas habilidades que tu titulación espera de ti.
Habilidades
Habilidades que demostrarás.
Cada una aparece en tu credencial verificada.
Carreras
Roles para los que esto te prepara.
Títulos reales. Puentes de habilidades reales. Elige el que más se acerque a tu trayectoria.
Trayectorias profesionales que esto construye
Roles canónicosInvestigador de ML
Modelar un problema operativo como MDP y comparar value iteration vs métodos aproximados es trabajo prototípico de ML researcher en ops research aplicada.
Este proyecto afina
- mdp
- dynamic-programming
- reinforcement-learning
Científico Aplicado de IA
Validar políticas con simulación out-of-sample y comunicar trade-offs coste vs service level es la diferencia entre un paper y un sistema en producción.
Este proyecto afina
- simulation
- policy-evaluation
- reinforcement-learning
Ingeniero de Aprendizaje Automático
Construir el environment Gymnasium custom y empaquetarlo para entrenamiento repetible es la habilidad clave del MLE en RL aplicado.
Este proyecto afina
- python
- simulation
- reinforcement-learning