Algoritmo de Reservoir Sampling para Streaming de Telemetría Médica
Visión general
De qué trata este proyecto.
Implementa el Algoritmo R de Vitter y el A-Res ponderado (Efraimidis-Spirakis) en Python con tipado estático. Demuestra empíricamente sobre 5 trazas de 8M eventos cada una que la distribución de la muestra es uniforme (test chi-cuadrado, p mayor a 0,05). Variante ponderada: usa la edad del paciente como peso y valida con un test KS (Kolmogorov-Smirnov). Mide latencia por evento, memoria pico y consumo de CPU. Entrega: implementación, suite de tests estadísticos, integración con el pipeline Kafka existente (interfaz documentada), informe técnico de 6 páginas.
El Briefing
Lo que harás y lo que demostrarás.
Implementar Reservoir Sampling uniforme y ponderado para extraer 50.000 eventos diarios de un stream de 8M con garantía estadística probada.
Earning criteria — what you'll demonstrate
- Implementar algoritmos de streaming randomizados con garantías de uniformidad
- Aplicar tests estadísticos para validar propiedades probabilísticas
- Distinguir muestreo uniforme y ponderado, eligiendo según el problema
- Integrar un algoritmo randomizado en un pipeline real de producción
Encaje académico
Dónde encaja esto en tus estudios.
Afina las mismas habilidades que tu titulación espera de ti.
Habilidades
Habilidades que demostrarás.
Cada una aparece en tu credencial verificada.
Carreras
Roles para los que esto te prepara.
Títulos reales. Puentes de habilidades reales. Elige el que más se acerque a tu trayectoria.
Trayectorias profesionales que esto construye
Roles canónicosIngeniero de Datos
Ingenieros de datos que pueden implementar muestreo de streaming con garantías estadísticas son los que el equipo de producto invita a las decisiones de arquitectura de datos.
Este proyecto afina
- reservoir-sampling
- kafka
- python
Ingeniero de Aprendizaje Automático
Los ingenieros de ML que entienden los algoritmos de muestreo en streaming evitan sesgos en validación que invalidan modelos en producción.
Este proyecto afina
- reservoir-sampling
- streaming-algorithms
- statistical-testing
Ingeniero de Backend
Saber escribir un sampler probabilístico que se integre con Kafka sin perder latencia es trabajo de backend senior real, no scripting.
Este proyecto afina
- randomized-algorithms
- kafka
- python