Visión general
De qué trata este proyecto.
Recibes 12.000 reseñas en español ya etiquetadas (3.000 por categoría). Construye un pipeline con TF-IDF (Term Frequency-Inverse Document Frequency — frecuencia de término inversa de documento) + regresión logística multinomial como baseline, y luego prueba un modelo sencillo de embeddings con una librería como fastText. Reporta precisión, recall y matriz de confusión en un holdout (datos retenidos) del 20 %. El éxito es superar el 80 % de macro-F1 y entregar 10 ejemplos de errores que ayuden al equipo de operaciones a entender los casos límite.
El Briefing
Lo que harás y lo que demostrarás.
Clasificar reseñas en español en cuatro temas operacionales con macro-F1 ≥ 0.80 y un análisis de errores útil.
Earning criteria — what you'll demonstrate
- Construir un pipeline de clasificación de texto extremo a extremo
- Comparar métricas macro y micro en problemas multiclase
- Realizar análisis de errores cualitativo para mejorar el modelo
- Comunicar limitaciones del modelo a un equipo de operaciones
Encaje académico
Dónde encaja esto en tus estudios.
Afina las mismas habilidades que tu titulación espera de ti.
Habilidades
Habilidades que demostrarás.
Cada una aparece en tu credencial verificada.
Carreras
Roles para los que esto te prepara.
Títulos reales. Puentes de habilidades reales. Elige el que más se acerque a tu trayectoria.
Trayectorias profesionales que esto construye
Roles canónicosIngeniero/a de Procesamiento de Lenguaje Natural
Construir un clasificador de texto multiclase con TF-IDF y un análisis de errores cuidadoso es el primer proyecto típico de quien empieza como NLP Engineer en una empresa de producto.
Este proyecto afina
- text-classification
- tf-idf
- error-analysis
Científico de Datos
Encuadrar un problema de operaciones como clasificación y entregar métricas + ejemplos cualitativos es la rutina semanal de una persona junior en data science.
Este proyecto afina
- text-classification
- model-evaluation
- logistic-regression