Búsqueda híbrida para el catálogo de una marketplace de moda LATAM
Visión general
De qué trata este proyecto.
Recibes 95.000 registros de producto anonimizados (título, descripción, categoría, atributos) y una muestra de 35.000 entradas de logs de búsqueda con etiquetas de clic. Genera embeddings del catálogo con un sentence-transformer multilingüe (la marketplace vende en español de México, Colombia y Perú, con descripciones que mezclan regionalismos), indexa la parte léxica en OpenSearch y la parte densa en Qdrant, y diseña una estrategia de fusión (Reciprocal Rank Fusion — RRF — es un buen punto de partida). Construye un ranker offline que, dada una consulta, devuelva el top-20 fusionado. Mide nDCG@10 (Normalized Discounted Cumulative Gain — calidad del ranking) contra los logs de clic frente a la base BM25 actual. Éxito: mejora de al menos un 12% en nDCG@10 con un diagrama de arquitectura documentado que el equipo de Plataforma pueda pasar a Backend.
El Briefing
Lo que harás y lo que demostrarás.
Diseñar y prototipar una búsqueda híbrida (BM25 más vector denso) que mejore nDCG@10 al menos un 12% frente a BM25 sobre los logs de búsqueda de 90 días de la marketplace.
Earning criteria — what you'll demonstrate
- Combinar recuperación léxica y densa en un único ranking
- Aplicar modelos de embeddings multilingües a un catálogo real con variantes regionales del castellano
- Evaluar calidad de ranking con nDCG@k sobre etiquetas derivadas de clics
- Comunicar un compromiso de arquitectura (latencia, coste, frescura) a personas ingenieras ajenas a búsqueda
Encaje académico
Dónde encaja esto en tus estudios.
Afina las mismas habilidades que tu titulación espera de ti.
Habilidades
Habilidades que demostrarás.
Cada una aparece en tu credencial verificada.
Carreras
Roles para los que esto te prepara.
Títulos reales. Puentes de habilidades reales. Elige el que más se acerque a tu trayectoria.
Trayectorias profesionales que esto construye
Roles canónicosAI Solutions Architect
Diseñar una arquitectura de recuperación híbrida que sobreviva a restricciones multidialecto, multitenant y de frescura es el entregable habitual de una persona arquitecta de soluciones de IA en cualquier empresa de comercio electrónico.
Este proyecto afina
- hybrid-search
- reciprocal-rank-fusion
- multilingual-retrieval
Machine Learning Engineer
Operar BM25 más recuperación densa como un sistema de ranking medido se traslada directamente a cómo los Machine Learning Engineers envían búsqueda y ranking de anuncios.
Este proyecto afina
- bm25
- embedding-models
- evaluation
Data Scientist
Construir etiquetas derivadas de clics y reportar nDCG@k por segmento es el tipo de trabajo de medición que las personas Data Scientists asumen en equipos de búsqueda y recomendación.
Este proyecto afina
- evaluation
- hybrid-search
- multilingual-retrieval