Skip to contentSkip to content
Certificados verificados. En cadena. Para siempre.Más información
Cover image for Comparar Spark y Dask para análisis genómico a escala
Analysis

Comparar Spark y Dask para análisis genómico a escala

FreeVerified credential4 semanasAdvanced

Visión general

De qué trata este proyecto.

Implementa las mismas 3 cargas en Spark (PySpark) y Dask: 1) join de tablas de variantes con anotaciones (250 GB), 2) ventanas estadísticas por cromosoma (100 GB), 3) entrenamiento distribuido de un modelo mixto sobre 50.000 individuos. Mide tiempo total, memoria peak por worker, tiempo perdido en shuffle/scheduling, robustez ante fallo de un worker. Ejecuta en el mismo clúster (32 nodos, 16 cores/nodo). Documenta diferencias de paradigma (Spark DAG fijo vs Dask scheduler dinámico). Entrega los scripts de benchmark, una tabla comparativa, un informe de 9 páginas y una recomendación con plan de migración.

CredentialBlockchain-anchored
ShareableLinkedIn-ready
LanguageEnglish
PaceSelf-paced

El Briefing

Lo que harás y lo que demostrarás.

Comparar Spark y Dask sobre 3 cargas genómicas reales y producir una recomendación de plataforma con plan de migración respaldado por datos.

Earning criteria — what you'll demonstrate

  • Distinguir paradigmas DAG estático vs scheduler dinámico de tareas
  • Diseñar benchmarks comparables entre frameworks distintos
  • Medir overhead de shuffling y scheduling con honestidad
  • Evaluar tolerancia a fallos con escenarios reproducibles

Encaje académico

Dónde encaja esto en tus estudios.

Afina las mismas habilidades que tu titulación espera de ti.

Carreras

Roles para los que esto te prepara.

Títulos reales. Puentes de habilidades reales. Elige el que más se acerque a tu trayectoria.

Trayectorias profesionales que esto construye

Roles canónicos

Ingeniero de Datos

Comparar frameworks distribuidos con benchmarks justos es exactamente lo que una persona ingeniera de datos senior hace cuando decide la columna vertebral de la plataforma analítica.

Este proyecto afina

  • distributed-algorithms
  • benchmarking
  • data-engineering

Ingeniero de Software

Quien razona sobre paradigmas de cómputo distribuido entiende mejor cómo diseñar APIs sobre Spark/Dask sin convertirlas en cuellos de botella.

Este proyecto afina

  • distributed-algorithms
  • parallel-algorithms
  • performance-analysis

Arquitecto de Sistemas

La elección de framework distribuido condiciona la arquitectura de datos durante años; esta experiencia da autoridad para liderar esa decisión.

Este proyecto afina

  • distributed-algorithms
  • message-passing
  • performance-analysis

Una cosa más

Puedes tener una credencial en tu CV para el viernes.