Visión general
De qué trata este proyecto.
En equipo de 2-3, recibes 30 tablas financieras anonimizadas (estados consolidados, P&L, cash flow) y 150 preguntas reales con respuesta-oro numérica/textual. Implementa: (A) tabla serializada como texto plano + prompt, (B) tabla en Markdown + prompt CoT, (C) tabla como herramienta Python evaluable + agente. Mide exactitud numérica (tolerancia 0,5%), errores de tipo (numérico vs. categórico) y tasa de alucinación. Éxito = benchmark publicable internamente, ganador identificado con análisis estadístico y reporte con recomendación honesta al CIO.
El Briefing
Lo que harás y lo que demostrarás.
Comparar 3 enfoques de QA tabular sobre tablas financieras y producir un benchmark + recomendación para CIO.
Earning criteria — what you'll demonstrate
- Diseñar benchmarks honestos de QA sobre datos estructurados
- Comparar serializaciones (texto, Markdown, JSON+tool) sistemáticamente
- Evaluar exactitud numérica con tolerancia apropiada
- Comunicar madurez de IA a un público ejecutivo escéptico
Encaje académico
Dónde encaja esto en tus estudios.
Afina las mismas habilidades que tu titulación espera de ti.
Habilidades
Habilidades que demostrarás.
Cada una aparece en tu credencial verificada.
Carreras
Roles para los que esto te prepara.
Títulos reales. Puentes de habilidades reales. Elige el que más se acerque a tu trayectoria.
Trayectorias profesionales que esto construye
Roles canónicosInvestigador/a de Machine Learning
Diseñar benchmarks publicables internamente y sostener una recomendación ante un CIO es trabajo nuclear del ML researcher en laboratorios corporativos de IA.
Este proyecto afina
- question-answering
- research-methods
- experiment-design
Científico/a de Investigación
Comparación estadísticamente rigurosa con análisis de errores categorizado emula el rigor del research scientist en banca corporativa.
Este proyecto afina
- tabular-qa
- evaluation
- research-methods
Científico/a Aplicado/a de IA
Traducir un benchmark técnico en una nota ejecutiva con recomendación es la franja senior del rol de applied AI scientist en BFSI.
Este proyecto afina
- question-answering
- tabular-qa
- evaluation