Diseña un protocolo de evaluación de retrieval para asistente RAG bancario
Visión general
De qué trata este proyecto.
Recibirás acceso de lectura al índice y a un set inicial de 50 consultas reales con respuesta esperada. Diseñarás un protocolo de evaluación que cubra: (1) generación o curación de 200 consultas representativas, (2) anotación de juicios de relevancia (top-5 por consulta, con guideline anti-sesgo), (3) métricas IR (nDCG@5, MRR, recall@5), (4) métricas downstream para el RAG (groundedness, citation accuracy), (5) flujo de re-evaluación mensual automatizado. Entregarás el protocolo y el primer reporte.
El Briefing
Lo que harás y lo que demostrarás.
Diseñar un protocolo reproducible de evaluación de retrieval y RAG que un comité de modelos bancario pueda auditar mes a mes.
Earning criteria — what you'll demonstrate
- Diseñar protocolos de evaluación auditables para retrieval y RAG
- Construir guideline de anotación que minimiza sesgo y mide acuerdo entre anotadores
- Combinar métricas IR clásicas y métricas específicas de RAG
- Automatizar evaluaciones repetibles con trazabilidad por release
Encaje académico
Dónde encaja esto en tus estudios.
Afina las mismas habilidades que tu titulación espera de ti.
Habilidades
Habilidades que demostrarás.
Cada una aparece en tu credencial verificada.
Carreras
Roles para los que esto te prepara.
Títulos reales. Puentes de habilidades reales. Elige el que más se acerque a tu trayectoria.
Investigadora de Ciencias
Diseñar protocolos auditables de evaluación es la espina dorsal del trabajo de research scientist en producto de IA bajo regulación.
Este proyecto afina
- evaluation
- rag-evaluation
- experiment-design
Ingeniera de Procesamiento de Lenguaje Natural
Combinar métricas IR clásicas con métricas de RAG y automatizarlas es exactamente lo que una NLP engineer construye para sostener un asistente vertical en producción.
Este proyecto afina
- information-retrieval
- rag-evaluation
- python
Investigadora de Seguridad de IA
Trabajar el bucle release → evaluación → comité de modelos es trabajo nuclear de safety aplicada en sectores regulados.
Este proyecto afina
- evaluation
- annotation-design
- rag-evaluation