Modela secuencias de gestos para una empresa de retail interactivo en Bilbao
Visión general
De qué trata este proyecto.
Recibes 4.500 clips etiquetados (900 por clase) de 16 frames a 15 fps. Extrae keypoints de mano con MediaPipe Hands y entrena dos modelos temporales: LSTM bidireccional y un Transformer de 4 capas. Compara F1 macro y latencia (frame-to-decision) en CPU laptop. Éxito: F1 ≥0.92, latencia ≤80 ms, y un análisis de robustez a oclusión parcial sobre 200 clips con manga larga simulada.
El Briefing
Lo que harás y lo que demostrarás.
Reconocer 5 gestos en el aire con F1 ≥0.92 y latencia ≤80 ms sobre CPU laptop.
Earning criteria — what you'll demonstrate
- Modelar secuencias temporales cortas con LSTM y Transformers
- Combinar keypoint detection con modelos temporales
- Evaluar robustez a perturbaciones realistas (oclusión)
- Medir latencia frame-to-decision para UX en tiempo real
Encaje académico
Dónde encaja esto en tus estudios.
Afina las mismas habilidades que tu titulación espera de ti.
Habilidades
Habilidades que demostrarás.
Cada una aparece en tu credencial verificada.
Carreras
Roles para los que esto te prepara.
Títulos reales. Puentes de habilidades reales. Elige el que más se acerque a tu trayectoria.
Trayectorias profesionales que esto construye
Roles canónicosIngeniero/a de Visión por Computador
Gestos en tiempo real con keypoints y modelos temporales es un proyecto CV de cabecera en kioskos y AR.
Este proyecto afina
- keypoint-detection
- sequence-models
- perception
Ingeniero/a de Machine Learning
Comparar LSTM y Transformer con métricas de latencia es músculo cotidiano de MLE en producto.
Este proyecto afina
- lstm
- temporal-transformers
- sequence-models
Ingeniero/a de IA
Llevar un modelo de gestos desde dataset a prototipo medible en CPU es el flujo diario del AI engineer.
Este proyecto afina
- sequence-models
- perception
- pytorch