Alinea un corpus paralelo ES↔PT para una agencia de localización en Lisboa
Visión general
De qué trata este proyecto.
Recibes 8.000 documentos pareados (~3,5 M oraciones por idioma). Aplica: (1) emparejado de documentos por similitud de embeddings multilingües (LaBSE o LASER), (2) alineamiento de oraciones con bleualign o vecalign, (3) filtrado por score de similitud + longitud + heurísticas de ruido. Reporta tamaño antes/después de cada filtro y precisión sobre un gold-standard manual de 500 pares. Éxito: corpus de ≥1,2 M pares con precisión ≥95 % en el gold-standard.
El Briefing
Lo que harás y lo que demostrarás.
Construir un corpus paralelo ES↔PT con ≥1,2 M oraciones y precisión ≥95 % en gold-standard.
Earning criteria — what you'll demonstrate
- Aplicar embeddings multilingües para emparejado a varios niveles
- Usar algoritmos clásicos de alineamiento (vecalign, bleualign)
- Diseñar filtros de calidad que no sobre-filtren
- Validar calidad con gold-standard manual
Encaje académico
Dónde encaja esto en tus estudios.
Afina las mismas habilidades que tu titulación espera de ti.
Habilidades
Habilidades que demostrarás.
Cada una aparece en tu credencial verificada.
Carreras
Roles para los que esto te prepara.
Títulos reales. Puentes de habilidades reales. Elige el que más se acerque a tu trayectoria.
Trayectorias profesionales que esto construye
Roles canónicosIngeniero/a de Procesamiento de Lenguaje Natural
Construcción de corpus paralelos es una de las habilidades operativas centrales en empresas de localización.
Este proyecto afina
- sentence-alignment
- parallel-corpus
- multilingual-embeddings
Ingeniero/a de Datos
Pipelines de datos con filtros validados es trabajo transversal con data engineering en cualquier startup NLP.
Este proyecto afina
- parallel-corpus
- data-filtering
- python
Ingeniero/a de Machine Learning
Curar datos de entrenamiento con criterios cuantitativos es una habilidad cotidiana de MLE en NLP.
Este proyecto afina
- data-filtering
- multilingual-embeddings
- parallel-corpus