Benchmark estadísticamente honesto para clasificadores de texto en español
Visión general
De qué trata este proyecto.
Recibes cinco modelos (regresión logística sobre TF-IDF, fastText, RoBERTa multilingüe, mBERT, modelo open-source español tipo BETO) y tres conjuntos en español de clasificación de tres dominios distintos. Diseña un protocolo con múltiples semillas, validación cruzada estratificada y tests estadísticos (bootstrap o test de McNemar pareado). Reporta accuracy, F1 macro, intervalos de confianza y tamaño de efecto. Identifica qué diferencias entre modelos son estadísticamente significativas. Cierra con una memoria de cinco páginas y un notebook que sirva como plantilla reutilizable.
El Briefing
Lo que harás y lo que demostrarás.
Diseñar y aplicar un protocolo de benchmark estadísticamente honesto a cinco clasificadores de texto en español sobre tres conjuntos, identificando qué diferencias son significativas.
Earning criteria — what you'll demonstrate
- Diseñar protocolos de evaluación que controlen variabilidad de semilla y partición
- Aplicar tests estadísticos pareados a comparaciones de modelos
- Reportar intervalos de confianza y tamaño de efecto, no solo p-valores
- Producir benchmarks reproducibles que el equipo pueda reutilizar
Encaje académico
Dónde encaja esto en tus estudios.
Afina las mismas habilidades que tu titulación espera de ti.
Habilidades
Habilidades que demostrarás.
Cada una aparece en tu credencial verificada.
Carreras
Roles para los que esto te prepara.
Títulos reales. Puentes de habilidades reales. Elige el que más se acerque a tu trayectoria.
Trayectorias profesionales que esto construye
Roles canónicosInvestigador de Machine Learning
Diseñar protocolos de benchmark estadísticamente sólidos y comparar familias de modelos con honestidad es trabajo nuclear de un ML Researcher.
Este proyecto afina
- model-evaluation
- statistical-testing
- experimental-design
Ingeniero de NLP
Comparar clasificadores en español con rigor es base del rol de NLP Engineer en empresas con producto en mercado hispanohablante.
Este proyecto afina
- nlp
- model-evaluation
- benchmarking
Científico de Datos
El reporte de intervalos de confianza y tamaño de efecto es el músculo estadístico que diferencia a un Data Scientist senior.
Este proyecto afina
- statistical-testing
- model-evaluation
- reproducibility