Visión general
De qué trata este proyecto.
Recibirás 25.000 documentos heterogéneos (PDFs, imágenes, audios cortos) y los logs de preguntas reales (anonimizadas) que los creativos hicieron al wiki interno. Diseña ingesta multimodal (OCR, captioning de imágenes, transcripción de audio), embeddings adecuados (CLIP para imagen, modelos multilingües para texto), índice vectorial y RAG con un LLM. Cada respuesta debe citar fuentes inspeccionables. Construye un panel (Next.js o Streamlit). Evalúa precision@k de recuperación, faithfulness de las respuestas (juicio humano sobre 60 preguntas) y latencia. Entrega panel, evaluación y memo.
El Briefing
Lo que harás y lo que demostrarás.
Construye un RAG multimodal sobre 25k piezas creativas con citas verificables y panel para los creativos del estudio.
Earning criteria — what you'll demonstrate
- Diseñar ingesta multimodal con OCR, captioning y transcripción
- Elegir embeddings adecuados por modalidad y combinar resultados
- Implementar RAG con citas verificables
- Evaluar respuestas generadas en faithfulness, no solo en plausibilidad
Encaje académico
Dónde encaja esto en tus estudios.
Afina las mismas habilidades que tu titulación espera de ti.
Habilidades
Habilidades que demostrarás.
Cada una aparece en tu credencial verificada.
Carreras
Roles para los que esto te prepara.
Títulos reales. Puentes de habilidades reales. Elige el que más se acerque a tu trayectoria.
Trayectorias profesionales que esto construye
Roles canónicosIngeniero NLP
Construir RAG multimodal con citas es trabajo de día uno del NLP Engineer en agencias y enterprise.
Este proyecto afina
- rag
- embeddings
- multimodal-llm
Ingeniero en IA
Conectar índice vectorial, LLM y panel para usuarios reales es trabajo del AI Engineer.
Este proyecto afina
- rag
- vector-databases
- python
Arquitecto de Soluciones IA
Diseñar la arquitectura multimodal de ingesta + recuperación + generación es trabajo del AI Solutions Architect.
Este proyecto afina
- rag
- vector-databases
- multimodal-llm