Benchmark de índices ANN para una startup de búsqueda jurídica
Visión general
De qué trata este proyecto.
Recibes una muestra de 5 millones de vectores (1024 dimensiones, float32) y un benchmark anotado de 1.000 consultas con los 50 vecinos más cercanos como ground truth. Indexa la misma muestra en Chroma (HNSW), Qdrant (HNSW) y Weaviate (HNSW), afinados de manera que el recall@10 quede dentro de 5 puntos porcentuales entre los tres almacenes. Después mide: latencia p50/p95 por consulta con concurrencia 1 y 16, huella de RAM, tamaño en disco y tiempo de construcción del índice. Vuelve a ejecutar a 10 millones de vectores si tu máquina virtual tiene margen. Escribe un memorando de 3 páginas con una recomendación clara, la tabla de compromisos que la respalda y una proyección explícita de qué cambia al llegar a 150 millones de vectores.
El Briefing
Lo que harás y lo que demostrarás.
Elegir el almacén vectorial de producción para una carga de búsqueda jurídica comparando Chroma, Qdrant y Weaviate en recall, latencia, RAM y tiempo de construcción en el mismo punto operativo.
Earning criteria — what you'll demonstrate
- Comprender los parámetros HNSW (M, ef_construction, ef_search) y cómo intercambian calidad por latencia
- Diseñar un benchmark justo entre almacenes vectoriales con recall equiparado
- Proyectar la capacidad desde una medición de 5 millones a un objetivo de producción de 150 millones de vectores
- Defender por escrito una recomendación de infraestructura ante la dirección técnica
Encaje académico
Dónde encaja esto en tus estudios.
Afina las mismas habilidades que tu titulación espera de ti.
Habilidades
Habilidades que demostrarás.
Cada una aparece en tu credencial verificada.
Carreras
Roles para los que esto te prepara.
Títulos reales. Puentes de habilidades reales. Elige el que más se acerque a tu trayectoria.
Trayectorias profesionales que esto construye
Roles canónicosMLOps Engineer
Elegir y dimensionar la infraestructura adecuada para una carga vectorial es trabajo central de MLOps en cualquier producto de IA que esté escalando más allá de la fase de prototipo.
Este proyecto afina
- ann-indexes
- capacity-planning
- benchmarking
Data Engineer
Operar almacenes vectoriales junto a sistemas OLTP y de almacén de datos se está convirtiendo en alcance estándar de la ingeniería de datos; este reto da experiencia operativa directamente aplicable.
Este proyecto afina
- vector-databases
- hnsw
- capacity-planning
AI Solutions Architect
Traducir un benchmark en una recomendación escrita de compromisos que una persona directiva pueda firmar es el entregable cotidiano de una persona arquitecta de soluciones de IA.
Este proyecto afina
- benchmarking
- vector-databases
- capacity-planning
AI Engineer
Saber cómo los parámetros HNSW mueven recall y latencia es lo mínimo exigible a cualquier persona ingeniera de IA que envíe funciones de recuperación contra un almacén vectorial gestionado.
Este proyecto afina
- hnsw
- ann-indexes
- python