Visión general
De qué trata este proyecto.
Recibirás 30 minutos de audio limpio por personaje (6 actores) y el guion en español e inglés. Adaptarás un modelo TTS de código abierto (XTTS-v2, Tortoise o Bark) para cada voz, evaluarás (1) similitud de hablante con un score embedding-based (ECAPA-TDNN), (2) inteligibilidad con WER (Word Error Rate, tasa de error de palabra) usando un ASR (Automatic Speech Recognition, reconocimiento de voz automático), y (3) MOS (Mean Opinion Score, puntuación media de opinión) en un panel humano de 15 jugadores. El éxito es similitud por encima del umbral acordado, WER por debajo del 8% y MOS medio superior a 3,8.
El Briefing
Lo que harás y lo que demostrarás.
Producir voces sintéticas multilingües y expresivas para 6 personajes de un videojuego, validadas por similitud, inteligibilidad y juicio humano.
Earning criteria — what you'll demonstrate
- Aplicar y ajustar modelos TTS modernos para clonación de voz
- Evaluar voces sintéticas combinando métricas automáticas y juicio humano
- Tratar artefactos típicos de TTS (prosodia plana, jitter, glitches)
- Documentar limitaciones éticas del uso de voces clonadas
Encaje académico
Dónde encaja esto en tus estudios.
Afina las mismas habilidades que tu titulación espera de ti.
Habilidades
Habilidades que demostrarás.
Cada una aparece en tu credencial verificada.
Carreras
Roles para los que esto te prepara.
Títulos reales. Puentes de habilidades reales. Elige el que más se acerque a tu trayectoria.
Trayectorias profesionales que esto construye
Roles canónicosAI Engineer
Llevar un modelo generativo de voz desde un repositorio open-source hasta un pipeline de producción para un estudio creativo es trabajo central de una persona AI Engineer.
Este proyecto afina
- text-to-speech
- voice-cloning
- model-fine-tuning
Applied AI Scientist
Evaluar voces sintéticas con métricas automáticas y panel humano es el método con el que se justifica adopción en producto y se acotan riesgos reputacionales.
Este proyecto afina
- human-evaluation
- audio-processing
- voice-cloning
Investigador en Seguridad de IA
Documentar consentimiento, usos prohibidos y marca detectable conecta con la práctica de quien estudia los riesgos del audio sintético y posibles contramedidas.
Este proyecto afina
- voice-cloning
- audio-processing
- text-to-speech