Investiga back-translation para mejorar MT EN→Catalán en una editorial
Visión general
De qué trata este proyecto.
Recibes 80.000 pares EN↔CA reales + 5 M de oraciones en catalán monolingüe. Aplica back-translation: traduce el monolingüe CA→EN con un modelo intermedio, luego entrena (o fine-tunea NLLB) sobre la unión del corpus auténtico + sintético. Compara contra solo-auténtico en BLEU + chrF en un test set in-domain (literario) y out-of-domain (técnico). Conduce ablación variando el ratio auténtico:sintético en {1:1, 1:2, 1:5}. Éxito: +2 BLEU en in-domain sin pérdida >0.5 BLEU en out-of-domain.
El Briefing
Lo que harás y lo que demostrarás.
Demostrar si back-translation mejora MT EN→CA en dominio literario sin sacrificar generalización.
Earning criteria — what you'll demonstrate
- Implementar back-translation como técnica de aumento de datos
- Diseñar ablaciones que aíslen el efecto del ratio sintético
- Evaluar en dominio y fuera de dominio para detectar overfitting
- Comunicar hallazgos de research a un equipo no académico
Encaje académico
Dónde encaja esto en tus estudios.
Afina las mismas habilidades que tu titulación espera de ti.
Habilidades
Habilidades que demostrarás.
Cada una aparece en tu credencial verificada.
Carreras
Roles para los que esto te prepara.
Títulos reales. Puentes de habilidades reales. Elige el que más se acerque a tu trayectoria.
Trayectorias profesionales que esto construye
Roles canónicosInvestigador/a de Machine Learning
Back-translation con ablaciones in/out-of-domain es metodología típica de investigación aplicada en MT.
Este proyecto afina
- back-translation
- low-resource-mt
- data-augmentation
Ingeniero/a de Procesamiento de Lenguaje Natural
Aumentar corpus para idiomas con menos recursos es habilidad central de NLP en mercados europeos minoritarios.
Este proyecto afina
- back-translation
- neural-machine-translation
- low-resource-mt
Científico/a de IA Aplicada
Demostrar mejora medible sin regresión out-of-domain es la mentalidad de aplicación que distingue al rol.
Este proyecto afina
- bleu-evaluation
- data-augmentation
- neural-machine-translation