Investiga fusión audio+texto para análisis de llamadas en una telco
Visión general
De qué trata este proyecto.
Recibirás 600 fragmentos de llamadas anonimizadas (audio + transcripción) etiquetados como 'escala/no-escala'. Implementa: (1) baseline solo-texto con un modelo en español (BETO o XLM-R), (2) modelo audio solo (wav2vec2-spanish), (3) modelo de fusión (concatenación de embeddings + clasificador). Evalúa con F1 macro y matriz de confusión, e incluye análisis cualitativo: 10 casos donde la fusión gana y 10 donde pierde. Entrega informe de research de 5 páginas.
El Briefing
Lo que harás y lo que demostrarás.
Determinar si la fusión audio+texto mejora detección de escalas frente a modelos unimodales sobre 600 llamadas anonimizadas.
Earning criteria — what you'll demonstrate
- Aplicar modelos preentrenados de audio y texto en español
- Diseñar y comparar arquitecturas de fusión multimodal
- Evaluar con rigor (intervalos, análisis cualitativo) más allá de la métrica única
- Comunicar resultados de research a un equipo de innovación
Encaje académico
Dónde encaja esto en tus estudios.
Afina las mismas habilidades que tu titulación espera de ti.
Habilidades
Habilidades que demostrarás.
Cada una aparece en tu credencial verificada.
Carreras
Roles para los que esto te prepara.
Títulos reales. Puentes de habilidades reales. Elige el que más se acerque a tu trayectoria.
Trayectorias profesionales que esto construye
Roles canónicosInvestigador/a en ML
Comparar arquitecturas multimodales con rigor experimental es el corazón del trabajo de un ML researcher aplicado en una telco con foco en innovación.
Este proyecto afina
- multimodal-ml
- fusion
- evaluation
Ingeniero/a de PLN
La pieza de texto en español y el análisis lingüístico de las escalas es competencia del NLP engineer en contact center.
Este proyecto afina
- transformers
- python
- evaluation
Científico/a Aplicado/a de IA
Traducir un experimento de research en una recomendación con ROI defendible es trabajo del applied AI scientist.
Este proyecto afina
- multimodal-ml
- audio-processing
- fusion