Exploración vs. explotación para recomendación de cursos online
Visión general
De qué trata este proyecto.
Recibes CTR (Click-Through Rate — tasa de click) histórico de los 6.000 cursos (con N de impresiones por curso, suficiente para tratar como prior fuerte) y construyes un simulador estilo Bernoulli. Implementa tres bandidos: Thompson sampling, epsilon-greedy (eps=0.1 y eps=0.05) y UCB1. Mide regret acumulado, top-3 hit rate y exploración wasted (impresiones en cursos claramente peores). Éxito = recomendación clara basada en simulación de 1M impresiones, con análisis de cuándo cada estrategia gana y memo accionable para growth.
El Briefing
Lo que harás y lo que demostrarás.
Comparar Thompson sampling, epsilon-greedy y UCB en un simulador de recomendación con 6k cursos y proponer una estrategia ganadora.
Earning criteria — what you'll demonstrate
- Aplicar el dilema exploración vs. explotación con tres estrategias clásicas
- Implementar Thompson sampling sobre Beta-Bernoulli
- Medir regret acumulado correctamente en un simulador
- Comunicar trade-offs de exploración a un equipo de growth
Encaje académico
Dónde encaja esto en tus estudios.
Afina las mismas habilidades que tu titulación espera de ti.
Habilidades
Habilidades que demostrarás.
Cada una aparece en tu credencial verificada.
Carreras
Roles para los que esto te prepara.
Títulos reales. Puentes de habilidades reales. Elige el que más se acerque a tu trayectoria.
Trayectorias profesionales que esto construye
Roles canónicosCientífico/a de Datos
Aplicar bandidos a recomendación y comunicar trade-offs a growth es trabajo cotidiano del data scientist en startups de consumer.
Este proyecto afina
- multi-armed-bandits
- experiment-design
- evaluation
Ingeniero/a de Machine Learning
Implementar Thompson sampling, UCB y epsilon-greedy reproduciblemente es la base del MLE en sistemas de recomendación.
Este proyecto afina
- reinforcement-learning
- thompson-sampling
- python
Científico/a Aplicado/a de IA
Convertir un experimento simulado en una recomendación de producto es la franja senior del rol de applied AI scientist en growth.
Este proyecto afina
- multi-armed-bandits
- experiment-design
- evaluation