Comparar Spark y Dask para análisis genómico a escala
Visión general
De qué trata este proyecto.
Implementa las mismas 3 cargas en Spark (PySpark) y Dask: 1) join de tablas de variantes con anotaciones (250 GB), 2) ventanas estadísticas por cromosoma (100 GB), 3) entrenamiento distribuido de un modelo mixto sobre 50.000 individuos. Mide tiempo total, memoria peak por worker, tiempo perdido en shuffle/scheduling, robustez ante fallo de un worker. Ejecuta en el mismo clúster (32 nodos, 16 cores/nodo). Documenta diferencias de paradigma (Spark DAG fijo vs Dask scheduler dinámico). Entrega los scripts de benchmark, una tabla comparativa, un informe de 9 páginas y una recomendación con plan de migración.
El Briefing
Lo que harás y lo que demostrarás.
Comparar Spark y Dask sobre 3 cargas genómicas reales y producir una recomendación de plataforma con plan de migración respaldado por datos.
Earning criteria — what you'll demonstrate
- Distinguir paradigmas DAG estático vs scheduler dinámico de tareas
- Diseñar benchmarks comparables entre frameworks distintos
- Medir overhead de shuffling y scheduling con honestidad
- Evaluar tolerancia a fallos con escenarios reproducibles
Encaje académico
Dónde encaja esto en tus estudios.
Afina las mismas habilidades que tu titulación espera de ti.
Habilidades
Habilidades que demostrarás.
Cada una aparece en tu credencial verificada.
Carreras
Roles para los que esto te prepara.
Títulos reales. Puentes de habilidades reales. Elige el que más se acerque a tu trayectoria.
Trayectorias profesionales que esto construye
Roles canónicosIngeniero de Datos
Comparar frameworks distribuidos con benchmarks justos es exactamente lo que una persona ingeniera de datos senior hace cuando decide la columna vertebral de la plataforma analítica.
Este proyecto afina
- distributed-algorithms
- benchmarking
- data-engineering
Ingeniero de Software
Quien razona sobre paradigmas de cómputo distribuido entiende mejor cómo diseñar APIs sobre Spark/Dask sin convertirlas en cuellos de botella.
Este proyecto afina
- distributed-algorithms
- parallel-algorithms
- performance-analysis
Arquitecto de Sistemas
La elección de framework distribuido condiciona la arquitectura de datos durante años; esta experiencia da autoridad para liderar esa decisión.
Este proyecto afina
- distributed-algorithms
- message-passing
- performance-analysis