Skip to contentSkip to content
Certificados verificados. En cadena. Para siempre.Más información
Cover image for Buscador semántico para la base de conocimiento interna de un banco
Code

Buscador semántico para la base de conocimiento interna de un banco

FreeVerified credential2 semanasIntermediate

Visión general

De qué trata este proyecto.

Recibes una exportación de 18.000 páginas (unos 90 MB de texto en castellano) y un benchmark anotado a mano con 50 consultas reales del equipo de Riesgos junto con los identificadores de los documentos correctos. Trocea el corpus en fragmentos (chunking), genera embeddings con un modelo multilingüe de sentence-transformers, indexa todo en pgvector sobre una única instancia de PostgreSQL y expone un endpoint HTTP /buscar. Mide recall@5 (proporción de consultas en las que el documento correcto aparece entre los 5 primeros) y MRR@10 (Mean Reciprocal Rank — posición media inversa del documento correcto). Compara dos codificadores: paraphrase-multilingual-MiniLM como base y bge-m3 como alternativa. El éxito es recall@5 superior a 0,80 con latencia p95 (percentil 95) por debajo de 200 ms en una máquina de 4 vCPU. Empaquétalo en Docker con un README de una página que el equipo de Plataforma pueda seguir.

CredentialBlockchain-anchored
ShareableLinkedIn-ready
LanguageEnglish
PaceSelf-paced

El Briefing

Lo que harás y lo que demostrarás.

Levantar un servicio sandbox de búsqueda semántica sobre la documentación interna de cumplimiento que alcance recall@5 mayor o igual a 0,80 con latencia p95 inferior a 200 ms.

Earning criteria — what you'll demonstrate

  • Elegir un modelo de embeddings adecuado al tamaño del corpus y al presupuesto de latencia
  • Aplicar estrategias de troceado (tamaño fijo frente a estructural) y medir su impacto en la calidad
  • Operar pgvector con índices HNSW (Hierarchical Navigable Small World) dentro de PostgreSQL
  • Evaluar recuperación con recall@k y MRR sobre un benchmark anotado a mano

Encaje académico

Dónde encaja esto en tus estudios.

Afina las mismas habilidades que tu titulación espera de ti.

Habilidades

Habilidades que demostrarás.

Cada una aparece en tu credencial verificada.

Carreras

Roles para los que esto te prepara.

Títulos reales. Puentes de habilidades reales. Elige el que más se acerque a tu trayectoria.

Trayectorias profesionales que esto construye

Roles canónicos

AI Engineer

Levantar un servicio de recuperación de extremo a extremo (generar embeddings, indexar, servir, medir) es el trabajo del primer día de un ingeniero o ingeniera de IA en cualquier empresa que envíe funciones basadas en Retrieval-Augmented Generation (RAG — generación aumentada con recuperación).

Este proyecto afina

  • embedding-models
  • vector-search
  • pgvector

Machine Learning Engineer

Tratar la recuperación como un sistema medido con benchmarks offline y presupuestos de latencia refleja cómo los Machine Learning Engineers envían sistemas de ranking y recomendación a producción.

Este proyecto afina

  • evaluation
  • embedding-models
  • python

Data Engineer

La pipeline de ingesta y troceado más operar pgvector dentro de PostgreSQL son competencias centrales que los Data Engineers utilizan al desplegar cargas vectoriales junto a datos transaccionales (OLTP).

Este proyecto afina

  • chunking-strategy
  • pgvector
  • python

Una cosa más

Puedes tener una credencial en tu CV para el viernes.