Buscador semántico para la base de conocimiento interna de un banco
Visión general
De qué trata este proyecto.
Recibes una exportación de 18.000 páginas (unos 90 MB de texto en castellano) y un benchmark anotado a mano con 50 consultas reales del equipo de Riesgos junto con los identificadores de los documentos correctos. Trocea el corpus en fragmentos (chunking), genera embeddings con un modelo multilingüe de sentence-transformers, indexa todo en pgvector sobre una única instancia de PostgreSQL y expone un endpoint HTTP /buscar. Mide recall@5 (proporción de consultas en las que el documento correcto aparece entre los 5 primeros) y MRR@10 (Mean Reciprocal Rank — posición media inversa del documento correcto). Compara dos codificadores: paraphrase-multilingual-MiniLM como base y bge-m3 como alternativa. El éxito es recall@5 superior a 0,80 con latencia p95 (percentil 95) por debajo de 200 ms en una máquina de 4 vCPU. Empaquétalo en Docker con un README de una página que el equipo de Plataforma pueda seguir.
El Briefing
Lo que harás y lo que demostrarás.
Levantar un servicio sandbox de búsqueda semántica sobre la documentación interna de cumplimiento que alcance recall@5 mayor o igual a 0,80 con latencia p95 inferior a 200 ms.
Earning criteria — what you'll demonstrate
- Elegir un modelo de embeddings adecuado al tamaño del corpus y al presupuesto de latencia
- Aplicar estrategias de troceado (tamaño fijo frente a estructural) y medir su impacto en la calidad
- Operar pgvector con índices HNSW (Hierarchical Navigable Small World) dentro de PostgreSQL
- Evaluar recuperación con recall@k y MRR sobre un benchmark anotado a mano
Encaje académico
Dónde encaja esto en tus estudios.
Afina las mismas habilidades que tu titulación espera de ti.
Habilidades
Habilidades que demostrarás.
Cada una aparece en tu credencial verificada.
Carreras
Roles para los que esto te prepara.
Títulos reales. Puentes de habilidades reales. Elige el que más se acerque a tu trayectoria.
Trayectorias profesionales que esto construye
Roles canónicosAI Engineer
Levantar un servicio de recuperación de extremo a extremo (generar embeddings, indexar, servir, medir) es el trabajo del primer día de un ingeniero o ingeniera de IA en cualquier empresa que envíe funciones basadas en Retrieval-Augmented Generation (RAG — generación aumentada con recuperación).
Este proyecto afina
- embedding-models
- vector-search
- pgvector
Machine Learning Engineer
Tratar la recuperación como un sistema medido con benchmarks offline y presupuestos de latencia refleja cómo los Machine Learning Engineers envían sistemas de ranking y recomendación a producción.
Este proyecto afina
- evaluation
- embedding-models
- python
Data Engineer
La pipeline de ingesta y troceado más operar pgvector dentro de PostgreSQL son competencias centrales que los Data Engineers utilizan al desplegar cargas vectoriales junto a datos transaccionales (OLTP).
Este proyecto afina
- chunking-strategy
- pgvector
- python