Indexa el catálogo de una biblioteca digital pública con metadatos limpios
Visión general
De qué trata este proyecto.
Recibirás un dump anonimizado de 50.000 obras con metadatos en CSV. Diseñarás un pipeline de limpieza: deduplicación de autoras (Apellido, Nombre vs Nombre Apellido vs iniciales), normalización de idiomas (ISO 639), enriquecimiento de materias contra un thesaurus (DDC/LCSH abreviado), y un conjunto reglas reproducibles. Indexarás en Elasticsearch con campos pesados. Mostrarás impacto sobre 30 consultas reales con juicios de relevancia: recall@10 antes y después.
El Briefing
Lo que harás y lo que demostrarás.
Sanear metadatos heterogéneos e indexarlos consistentemente para mejorar recall del buscador de una biblioteca digital pública.
Earning criteria — what you'll demonstrate
- Aplicar técnicas básicas de entity resolution (fuzzy matching, blocking)
- Diseñar schemas de Elasticsearch acorde al uso real
- Medir impacto de saneamiento de metadatos sobre métricas IR
- Documentar reglas de limpieza para mantenimiento futuro
Encaje académico
Dónde encaja esto en tus estudios.
Afina las mismas habilidades que tu titulación espera de ti.
Habilidades
Habilidades que demostrarás.
Cada una aparece en tu credencial verificada.
Carreras
Roles para los que esto te prepara.
Títulos reales. Puentes de habilidades reales. Elige el que más se acerque a tu trayectoria.
Trayectorias profesionales que esto construye
Roles canónicosIngeniera de Datos
Saneamiento de metadatos heterogéneos con entity resolution e indexación es trabajo central de data engineering en bibliotecas, medios y catálogos.
Este proyecto afina
- data-cleaning
- entity-resolution
- indexing
Ingeniera de Procesamiento de Lenguaje Natural
Diseñar analizadores y medir impacto IR conecta directo con el trabajo de NLP engineers en search.
Este proyecto afina
- information-retrieval
- indexing
- evaluation
Ingeniera de IA
Esta base limpia es prerequisito de cualquier RAG bibliotecario; AI engineers se apoyan en este trabajo constantemente.
Este proyecto afina
- python
- indexing
- information-retrieval