Evalúa fielmente un RAG médico con RAGAS y juicio clínico
Visión general
De qué trata este proyecto.
En equipo de 2, recibes el RAG actual (caja negra), un corpus de 1.200 guías de práctica clínica argentinas y 200 preguntas reales con respuestas-oro escritas por 2 médicos. Diseña una evaluación con: (1) RAGAS para faithfulness, answer relevance y context precision/recall, (2) un panel clínico de 3 médicos que evalúan ciegamente 50 respuestas, (3) detección de alucinaciones contra guías no incluidas (control). Éxito = reporte con métricas RAGAS + concordancia juez-clínico, lista de tipos de error con tasa, y recomendación go/no-go defensible.
El Briefing
Lo que harás y lo que demostrarás.
Evaluar rigurosamente un RAG clínico con métricas automáticas + panel humano y producir recomendación go/no-go.
Earning criteria — what you'll demonstrate
- Diseñar evaluación de RAG combinando métricas automáticas y juicio experto
- Aplicar RAGAS para faithfulness, context precision/recall y answer relevance
- Cuantificar alucinaciones con datasets de control
- Comunicar riesgo clínico a un comité médico
Encaje académico
Dónde encaja esto en tus estudios.
Afina las mismas habilidades que tu titulación espera de ti.
Habilidades
Habilidades que demostrarás.
Cada una aparece en tu credencial verificada.
Carreras
Roles para los que esto te prepara.
Títulos reales. Puentes de habilidades reales. Elige el que más se acerque a tu trayectoria.
Trayectorias profesionales que esto construye
Roles canónicosIngeniero/a de IA
Diseñar harnesses rigurosos de evaluación de RAG en dominios sensibles es la franja senior del AI engineer en healthtech.
Este proyecto afina
- retrieval-augmented-generation
- evaluation
- ragas
Investigador/a en Seguridad de IA
Detectar alucinaciones con datasets de control y comunicar riesgo clínico es exactamente el trabajo del AI safety researcher en producto médico.
Este proyecto afina
- evaluation
- ragas
- research-methods
Investigador/a de Machine Learning
Combinar métricas automáticas con paneles humanos y medir concordancia es competencia central del ML researcher en evaluación responsable.
Este proyecto afina
- evaluation
- research-methods
- domain-specific-nlp