Modelado de roofline para pipeline genómico en cluster compartido
Visión general
De qué trata este proyecto.
Perfila las 6 etapas del pipeline (Trimmomatic, BWA, Samtools sort, Mark duplicates, BQSR, GATK HaplotypeCaller) con likwid o Intel Advisor para obtener intensidad aritmética y throughput. Construye el modelo roofline para la arquitectura objetivo (Xeon Platinum 8358). Clasifica cada etapa. Propone 3 optimizaciones priorizadas por ROI (probablemente: vectorización en hot loop, mejor uso de cache, paralelización adicional). Implementa una de las 3 como prueba. Entrega perfiles, roofline, optimizaciones propuestas, implementación piloto y dossier para el equipo bioinformático.
El Briefing
Lo que harás y lo que demostrarás.
Construir el roofline del pipeline genómico y proponer 3 optimizaciones priorizadas por ROI, con una implementada como prueba.
Earning criteria — what you'll demonstrate
- Construir y leer el modelo roofline correctamente
- Distinguir memory-bound vs compute-bound con evidencia
- Priorizar optimizaciones por retorno cuantificado
- Validar una optimización midiendo antes y después
Encaje académico
Dónde encaja esto en tus estudios.
Afina las mismas habilidades que tu titulación espera de ti.
Habilidades
Habilidades que demostrarás.
Cada una aparece en tu credencial verificada.
Carreras
Roles para los que esto te prepara.
Títulos reales. Puentes de habilidades reales. Elige el que más se acerque a tu trayectoria.
Trayectorias profesionales que esto construye
Roles canónicosIngeniero de Software
Construir rooflines defendibles y priorizar optimizaciones por ROI es el músculo de rendimiento HPC que abre puertas en consultoría científica e industrial.
Este proyecto afina
- roofline-model
- performance-analysis
- vectorization
Arquitecto de Sistemas
Clasificar etapas memory-bound vs compute-bound informa decisiones arquitectónicas y de hardware — competencia arquitectónica aplicada.
Este proyecto afina
- roofline-model
- memory-optimization
- performance-analysis
Investigador Científico
Quien optimiza su propio pipeline en lugar de pedir más cores extrae más valor del cluster compartido — ventaja directa en throughput científico.
Este proyecto afina
- scientific-computing
- profiling
- performance-analysis