Verificar Iniciar sesión

Reinforcement Learning

Si te gusta aplicar Reinforcement Learning, cada reto aquí te da la oportunidad de practicarlo en un briefing industrial real.

Proyectos recomendados

CodeIntermedioNuevo
Optimiza el inventario de una maquiladora con un MDP
Recibirás 36 meses de historia anonimizada de demanda diaria, plazos de entrega de proveedor (variables) y costes (mantener stock, stockout, orden). Modela el problema como un M…
- Mdp
- Dynamic Programming
- Reinforcement Learning
Decision Making Under Uncertainty
CodePrincipianteNuevo
Bot de Combate con Actor-Critic para Estudio Indie en Buenos Aires
Recibirás un build headless en Unity ML-Agents con dos arenas, 4 personajes y telemetría completa (vida, posición, habilidad disponible). Entrena un agente con PPO o SAC en self…
- Actor Critic
- Self Play
- Reinforcement Learning
Deep Reinforcement Learning
ResearchSéniorNuevo
RL para manipulación delicada en línea de moda
En equipo de 2-3, recibes el robot colaborativo simulado en SoftGym (o equivalente con tela deformable) con 3 niveles de dificultad: (E1) camiseta plana, (E2) camiseta arrugada,…
- Reinforcement Learning
- Curriculum Learning
- Robot Learning
Robot Learning
CodeIntermedioNuevo
REINFORCE para balance de carga en un servidor de gaming LATAM
Recibes 30 días de logs históricos (origen del jugador, datacenters disponibles, carga, latencia medida, costo) y construyes un simulador de eventos discretos. Entrena un agente…
- Reinforcement Learning
- Policy Gradients
- Deep Learning
Reinforcement Learning
Practice your coursework on real scenarios.
Every challenge is shaped from real-world context — not generic exercises. The work mirrors what your degree prepares you for.
Why Ewance
ResearchSéniorNuevo
Actor-critic para gestión de inventario en pesca acuícola
En equipo de 2-3, recibes 2 años de datos diarios por jaula (alimento dado, temperatura, mortalidad, peso muestreado mensualmente) y construyes un simulador calibrado del crecim…
- Reinforcement Learning
- Actor Critic
- Simulation
Reinforcement Learning
CodeIntermedioNuevo
Política PPO para Conducir un AGV en Mina de Antofagasta
Recibirás un entorno Gymnasium con un AGV de tracción diferencial, 4 mapas de túneles distintos y perturbaciones (polvo, fallos puntuales de odometría, iluminación variable). En…
- Policy Gradients
- Ppo
- Reinforcement Learning
Deep Reinforcement Learning
CodeIntermedioNuevo
Análisis de specification gaming en un agente RL simple
Diseña dos entornos sobre Gymnasium: uno donde el agente puede maximizar recompensa explotando un bug del entorno, otro donde el agente puede satisfacer la métrica sin cumplir e…
- Reinforcement Learning
- Specification Gaming
- Experimental Design
AI Safety and Alignment
ResearchSéniorNuevo
Aprende preferencias de manipulación a partir de feedback humano
Recibirás un brazo simulado en MuJoCo con 3 tareas de manipulación (pasar un vaso, abrir la nevera, recoger una cuchara) y un dataset inicial de 50 demostraciones humanas con et…
- Reinforcement Learning
- Human Robot Interaction
- Rlhf
Human-Robot Interaction
Explore role
Product Manager
Ship product that solves real user problems. Combine user research, prototyping, and stakeholder alignment to turn ambiguous briefs into measurable wins — the role at the centre of modern software teams.
Browse challenges
CodeSéniorNuevo
Aprender locomoción cuadrúpeda con reinforcement learning
Trabajarás con Isaac Gym o Isaac Lab que permite entrenar en miles de robots simulados en paralelo. Implementarás un setup PPO sobre un modelo del cuadrúpedo (similar a Unitree …
- Reinforcement Learning
- Learning Based Control
- Isaac Gym
Advanced Robotics
AnalysisPrincipianteNuevo
Exploración vs. explotación para recomendación de cursos online
Recibes CTR (Click-Through Rate — tasa de click) histórico de los 6.000 cursos (con N de impresiones por curso, suficiente para tratar como prior fuerte) y construyes un simulad…
- Multi Armed Bandits
- Thompson Sampling
- Reinforcement Learning
Reinforcement Learning
CodeIntermedioNuevo
Política de pricing dinámico con bandidos contextuales en e-commerce
Recibes 6 meses de eventos (vistas + compras) sobre los 80 SKUs y 8 niveles de precio discretos por SKU. Implementa LinUCB con 12 features contextuales y úsalo en una validación…
- Contextual Bandits
- Reinforcement Learning
- Offline Evaluation
Reinforcement Learning
CodeIntermedioNuevo
Compara DQN y SAC para control de cinta transportadora aleatoria
En equipo de 2, recibes el simulador de cinta calibrado contra logs de 30 días reales. Estado = (carga actual, tasa de llegada estimada, temperatura del motor). Acción discreta …
- Reinforcement Learning
- Dqn
- Sac
Robot Learning
Build a verifiable portfolio.
Submissions become evidence. Reviewers with shipping experience score against a rubric; the result becomes a credential anyone can verify.
Why Ewance
CodeIntermedioNuevo
Entrena un DQN para Soldadura Robotizada en Planta de Aguascalientes
Recibirás un simulador compatible con Gymnasium (celda con dos brazos UR10, 12 puntos de soldadura por carrocería, perturbaciones aleatorias de posicionamiento) y el script con …
- Deep Q Learning
- Reinforcement Learning
- Pytorch
Deep Reinforcement Learning
ResearchSéniorNuevo
RL Basado en Modelo para Tienda con Recomendaciones en Bogotá
Recibirás un simulador construido sobre 6 meses de logs anonimizados (~3M eventos, 80k usuarios anonimizados) que reproduce probabilidades de clic e ingresos por sesión. Entrena…
- Model Based Rl
- Reinforcement Learning
- Off Policy Evaluation
Deep Reinforcement Learning
CodePrincipianteNuevo
Optimiza el ruteo de un brazo robótico con Q-learning tabular
Recibes el modelo cinemático del brazo (6 articulaciones, rangos definidos) y 12 configuraciones de pieza objetivo. Discretiza el espacio de configuración (grids razonables por …
- Reinforcement Learning
- Q Learning
- Mdp Modeling
Reinforcement Learning
CodeIntermedioNuevo
Diseña una política de pricing dinámico para una hotelera caribeña
Recibirás 4 años de datos anonimizados de booking y precios por noche por propiedad, más eventos exógenos (festivos, eventos locales). Construye un simulador de demanda que repr…
- Reinforcement Learning
- Dynamic Pricing
- Simulation
Decision Making Under Uncertainty
AnalysisIntermedioNuevo
Imitation Learning para Sim-to-Real en Robot Móvil de Curitiba
Recibirás 200 demostraciones humanas teleoperadas (joystick) en simulador, más un wrapper Gymnasium del mismo entorno. Entrena un agente con Behaviour Cloning (BC) puro, luego c…
- Imitation Learning
- Behaviour Cloning
- Dagger
Deep Reinforcement Learning
ResearchSéniorNuevo
Inverse RL para descubrir la política de un piloto de drone
En equipo de 2-3, recibes 120 trayectorias del piloto (estado-acción muestreado a 5Hz) con 10 features de estado (posición relativa, viento, batería, etc.) y un simulador de dro…
- Inverse Reinforcement Learning
- Reinforcement Learning
- Robot Learning
Robot Learning
CodeIntermedioNuevo
Sim-to-real para robot de inspección en bodega vitivinícola
En equipo de 2, recibes un modelo de la bodega en Isaac Sim (o Gazebo) y especificación del robot móvil. Entrena un agente PPO de navegación con domain randomization sobre 6 par…
- Sim To Real
- Domain Randomization
- Reinforcement Learning
Robot Learning

Cómo funciona

Del briefing al certificado, en seis pasos.

Paso 01
Explora retos alineados con tus estudios.
Paso 02
Acepta el que encaja con tus metas.
Paso 03
Trabájalo con la guía del AI Copilot.
Paso 04
Envíalo para una evaluación estructurada.
Paso 05
Consigue una credencial verificada.
Paso 06
Añádela a LinkedIn con un solo clic.

Equipos del sector tras una década de briefings prácticos

¿Reclutando de este grupo?

Patrocina un reto y conoce candidatos a través de su trabajo real.

Los equipos de la industria pueden diseñar briefings en torno a las habilidades que buscan, y evaluar a los estudiantes por entregables puntuados con rúbrica — no por currículums.

Explorar patrocinio