Razonamiento visual para auditar etiquetado vial en delivery autónomo
Visión general
De qué trata este proyecto.
Recibes 800 imágenes frontales de robot etiquetadas con respuestas a 12 preguntas estructuradas (¿hay rampa?, ¿hay peatón en la calzada?, ¿semáforo en verde?, etc.) y 200 imágenes adicionales sin etiquetar para análisis cualitativo. Construye un sistema de Visual Question Answering (VQA — respuesta a preguntas visuales) combinando un Modelo de Lenguaje Multimodal Grande (MLLM — por ejemplo LLaVA o Qwen-VL) afinado con LoRA (Low-Rank Adaptation — adaptación de rango bajo) sobre las 800 imágenes etiquetadas. Mide exactitud por pregunta sobre una partición de validación, latencia por imagen en una GPU L4 alquilada y modos de fallo cualitativos. Éxito: exactitud media superior al 78% en las 12 preguntas con latencia por consulta inferior a 1,5 segundos. Entrega también una galería de 20 fallos comentados que oriente la siguiente ronda de recolección de datos.
El Briefing
Lo que harás y lo que demostrarás.
Construir un sistema de Visual Question Answering capaz de responder 12 preguntas de seguridad vial sobre la vista frontal de un robot de reparto, con exactitud superior al 78% y latencia inferior a 1,5 segundos.
Earning criteria — what you'll demonstrate
- Aplicar Modelos de Lenguaje Multimodales Grandes (MLLM) a tareas de razonamiento visual
- Afinar un modelo grande con LoRA bajo restricciones de memoria de GPU
- Evaluar VQA con exactitud por pregunta más análisis cualitativo de fallos
- Conectar la percepción robótica con razonamiento de alto nivel en lenguaje natural
Encaje académico
Dónde encaja esto en tus estudios.
Afina las mismas habilidades que tu titulación espera de ti.
Habilidades
Habilidades que demostrarás.
Cada una aparece en tu credencial verificada.
Carreras
Roles para los que esto te prepara.
Títulos reales. Puentes de habilidades reales. Elige el que más se acerque a tu trayectoria.
Trayectorias profesionales que esto construye
Roles canónicosComputer Vision Engineer
Conectar percepción robótica con razonamiento visual multimodal es exactamente la siguiente generación de trabajo CV que las empresas de autónomos demandan; este reto entrega un proyecto completo para mostrar en entrevistas.
Este proyecto afina
- visual-question-answering
- scene-understanding
- model-evaluation
Applied AI Scientist
Afinar un MLLM con LoRA sobre un dataset propio y reportar exactitud más fallos accionables es el día a día de una persona Applied AI Scientist en una startup de autónomos o de IA física.
Este proyecto afina
- lora-fine-tuning
- multimodal-llm
- model-evaluation
Machine Learning Engineer
Servir un MLLM con presupuesto de latencia en GPU y reproducibilidad estricta refleja cómo los MLEs ponen modelos multimodales en producción.
Este proyecto afina
- pytorch
- multimodal-llm
- model-evaluation