Skip to contentSkip to content
Certificados verificados. En cadena. Para siempre.Más información
Cover image for Alinea un corpus paralelo ES↔PT para una agencia de localización en Lisboa
Code

Alinea un corpus paralelo ES↔PT para una agencia de localización en Lisboa

FreeVerified credential2 semanasIntermediate

Visión general

De qué trata este proyecto.

Recibes 8.000 documentos pareados (~3,5 M oraciones por idioma). Aplica: (1) emparejado de documentos por similitud de embeddings multilingües (LaBSE o LASER), (2) alineamiento de oraciones con bleualign o vecalign, (3) filtrado por score de similitud + longitud + heurísticas de ruido. Reporta tamaño antes/después de cada filtro y precisión sobre un gold-standard manual de 500 pares. Éxito: corpus de ≥1,2 M pares con precisión ≥95 % en el gold-standard.

CredentialBlockchain-anchored
ShareableLinkedIn-ready
LanguageEnglish
PaceSelf-paced

El Briefing

Lo que harás y lo que demostrarás.

Construir un corpus paralelo ES↔PT con ≥1,2 M oraciones y precisión ≥95 % en gold-standard.

Earning criteria — what you'll demonstrate

  • Aplicar embeddings multilingües para emparejado a varios niveles
  • Usar algoritmos clásicos de alineamiento (vecalign, bleualign)
  • Diseñar filtros de calidad que no sobre-filtren
  • Validar calidad con gold-standard manual

Encaje académico

Dónde encaja esto en tus estudios.

Afina las mismas habilidades que tu titulación espera de ti.

Habilidades

Habilidades que demostrarás.

Cada una aparece en tu credencial verificada.

Carreras

Roles para los que esto te prepara.

Títulos reales. Puentes de habilidades reales. Elige el que más se acerque a tu trayectoria.

Trayectorias profesionales que esto construye

Roles canónicos

Ingeniero/a de Procesamiento de Lenguaje Natural

Construcción de corpus paralelos es una de las habilidades operativas centrales en empresas de localización.

Este proyecto afina

  • sentence-alignment
  • parallel-corpus
  • multilingual-embeddings

Ingeniero/a de Datos

Pipelines de datos con filtros validados es trabajo transversal con data engineering en cualquier startup NLP.

Este proyecto afina

  • parallel-corpus
  • data-filtering
  • python

Ingeniero/a de Machine Learning

Curar datos de entrenamiento con criterios cuantitativos es una habilidad cotidiana de MLE en NLP.

Este proyecto afina

  • data-filtering
  • multilingual-embeddings
  • parallel-corpus

Una cosa más

Puedes tener una credencial en tu CV para el viernes.