REINFORCE para balance de carga en un servidor de gaming LATAM
Visión general
De qué trata este proyecto.
Recibes 30 días de logs históricos (origen del jugador, datacenters disponibles, carga, latencia medida, costo) y construyes un simulador de eventos discretos. Entrena un agente REINFORCE con red MLP (3 capas) cuya política es softmax sobre los 6 datacenters. Estado = (origen del jugador, carga actual por DC, hora). Recompensa = -alpha*latencia - beta*costo. Compara contra heurística y reporta latencia promedio, costo promedio y ratio de partidas que exceden 150ms. Éxito = mejora Pareto sobre la heurística (mejor en al menos un eje sin empeorar el otro), con análisis de cuándo gana el RL y cuándo no.
El Briefing
Lo que harás y lo que demostrarás.
Aprender una política de asignación de servidores con REINFORCE que mejore Pareto a la heurística actual en latencia y costo.
Earning criteria — what you'll demonstrate
- Implementar policy gradients (REINFORCE) con baseline de varianza
- Construir simuladores de eventos discretos para entrenamiento RL
- Evaluar políticas con métricas multi-objetivo y análisis Pareto
- Diagnosticar inestabilidad de policy gradient y aplicar mitigaciones
Encaje académico
Dónde encaja esto en tus estudios.
Afina las mismas habilidades que tu titulación espera de ti.
Habilidades
Habilidades que demostrarás.
Cada una aparece en tu credencial verificada.
Carreras
Roles para los que esto te prepara.
Títulos reales. Puentes de habilidades reales. Elige el que más se acerque a tu trayectoria.
Trayectorias profesionales que esto construye
Roles canónicosIngeniero/a de Machine Learning
Construir un simulador, entrenar policy gradient y comparar contra heurística en métricas multi-objetivo es trabajo cotidiano del MLE en infraestructura y operaciones.
Este proyecto afina
- reinforcement-learning
- policy-gradients
- python
Científico/a Aplicado/a de IA
Aplicar RL a un problema operativo real con análisis Pareto y comunicación a un responsable técnico es el día a día del applied AI scientist en gaming y telco.
Este proyecto afina
- simulation
- evaluation
- reinforcement-learning
Investigador/a de Machine Learning
Diagnosticar inestabilidad de policy gradient y proponer mitigaciones es la franja de research aplicado dentro del MLE/researcher.
Este proyecto afina
- policy-gradients
- reinforcement-learning
- deep-learning