Síntesis de voz expresiva para audiolibros infantiles en español
Visión general
De qué trata este proyecto.
Recibes 6 horas de grabaciones de narradores profesionales cedidas para fine-tuning, los textos de 3 libros piloto y acceso al modelo XTTS preentrenado. Genera narración completa de los 3 libros con ambos modelos. Diseña una evaluación con 25 familias usando Mean Opinion Score (MOS — escala de 1 a 5 sobre naturalidad y expresividad), comparación A/B y dos preguntas cualitativas sobre engancha o no al niño. Reporta resultados por dimensión y recomienda el modelo (o combinación) que la editorial debe adoptar.
El Briefing
Lo que harás y lo que demostrarás.
Comparar dos modelos de síntesis de voz expresiva sobre audiolibros infantiles y entregar una recomendación validada con familias reales.
Earning criteria — what you'll demonstrate
- Entrenar y comparar modelos de síntesis de voz
- Diseñar evaluaciones MOS con audiencias no expertas
- Analizar prosodia y expresividad cualitativamente
- Comunicar recomendaciones a un equipo editorial
Encaje académico
Dónde encaja esto en tus estudios.
Afina las mismas habilidades que tu titulación espera de ti.
Habilidades
Habilidades que demostrarás.
Cada una aparece en tu credencial verificada.
Carreras
Roles para los que esto te prepara.
Títulos reales. Puentes de habilidades reales. Elige el que más se acerque a tu trayectoria.
Investigador/a de Aprendizaje Automático
Comparar modelos de síntesis con evaluación MOS y análisis cualitativo es trabajo de una persona investigadora ML en empresas con producto sobre audio.
Este proyecto afina
- text-to-speech
- prosody-modeling
- mean-opinion-score
Diseñador/a de Producto de IA
Diseñar evaluaciones con familias reales y traducir resultados a decisiones editoriales refleja el día a día de una persona diseñadora de producto de IA en sectores creativos.
Este proyecto afina
- user-research
- text-to-speech
- mean-opinion-score
Ingeniero/a de NLP
Fine-tunear modelos de habla y planificar despliegue es trabajo recurrente de personas NLP en empresas con producto multilingüe de audio.
Este proyecto afina
- fine-tuning
- text-to-speech
- pytorch