Optimiza el ruteo de un brazo robótico con Q-learning tabular
Visión general
De qué trata este proyecto.
Recibes el modelo cinemático del brazo (6 articulaciones, rangos definidos) y 12 configuraciones de pieza objetivo. Discretiza el espacio de configuración (grids razonables por articulación), define recompensa = -longitud_paso - colisiones_severas y termina al alcanzar el target. Implementa Q-learning tabular con epsilon-greedy y alpha decay, entrenando hasta 100k episodios por pieza. Compara contra una heurística de planificación greedy. Éxito = trayectorias 15% más cortas en promedio sobre las 12 piezas, sin colisiones graves, y un análisis de cuántos episodios se necesitan por pieza.
El Briefing
Lo que harás y lo que demostrarás.
Aprender trayectorias eficientes en un brazo simulado con Q-learning tabular, superando a una heurística en 12 piezas distintas.
Earning criteria — what you'll demonstrate
- Modelar un problema robótico como MDP (Markov Decision Process)
- Aplicar Q-learning tabular con epsilon-greedy y decay
- Comparar RL (Reinforcement Learning — aprendizaje por refuerzo) contra heurística
- Diagnosticar cuándo el espacio de estado es demasiado grande para tabular
Encaje académico
Dónde encaja esto en tus estudios.
Afina las mismas habilidades que tu titulación espera de ti.
Habilidades
Habilidades que demostrarás.
Cada una aparece en tu credencial verificada.
Carreras
Roles para los que esto te prepara.
Títulos reales. Puentes de habilidades reales. Elige el que más se acerque a tu trayectoria.
Trayectorias profesionales que esto construye
Roles canónicosIngeniero/a de Machine Learning
Aplicar Q-learning a un problema robótico real con comparación honesta contra heurísticas es exactamente el trabajo de un MLE junior en robótica industrial.
Este proyecto afina
- reinforcement-learning
- q-learning
- python
Científico/a Aplicado/a de IA
Modelar un MDP industrial y demostrar valor incremental sobre heurística es el día a día del applied AI scientist en robotics y manufactura.
Este proyecto afina
- mdp-modeling
- reinforcement-learning
- evaluation
Investigador/a de Machine Learning
Analizar sample efficiency y proponer siguientes pasos (DQN, function approximation) es la franja research-oriented del MLE.
Este proyecto afina
- reinforcement-learning
- evaluation
- simulation