GPU Compute: Optimización de Kernel CUDA y Análisis Roofline
Visión general
De qué trata este proyecto.
Parte del kernel SPH base provisto (alrededor de 200 líneas de CUDA con N≈1M partículas). Aplica optimizaciones: tiling con shared memory, vectorización de loads (float4), reducción de divergencia de warp, ocupación tuneada. Mide GFLOPS y bandwidth con Nsight Compute. Construye un análisis roofline FP32 para A100 y posiciona ambas variantes. Demuestra paridad numérica vs baseline (error relativo < 1e-5). Entrega kernel optimizado, reporte de profiling, gráfico roofline y memoria de 5 páginas con justificación de cada optimización.
El Briefing
Lo que harás y lo que demostrarás.
Optimizar kernel CUDA SPH para alcanzar 55% del peak FP32 de A100 con paridad numérica vs baseline y análisis roofline defendible.
Earning criteria — what you'll demonstrate
- Aplicar tiling shared memory + vectorización con criterio
- Medir GFLOPS y bandwidth efectivos con Nsight Compute
- Construir y leer un análisis roofline para decidir dónde optimizar
- Mantener paridad numérica al optimizar kernels FP32
Encaje académico
Dónde encaja esto en tus estudios.
Afina las mismas habilidades que tu titulación espera de ti.
Habilidades
Habilidades que demostrarás.
Cada una aparece en tu credencial verificada.
Carreras
Roles para los que esto te prepara.
Títulos reales. Puentes de habilidades reales. Elige el que más se acerque a tu trayectoria.
Trayectorias profesionales que esto construye
Roles canónicosIngeniero de Software
Optimización GPU con análisis roofline es perfil de ingeniero de software escaso y bien pagado — empresas de simulación, ML y gráficos lo contratan al primer match.
Este proyecto afina
- cuda
- gpu-architecture
- performance-optimization
Ingeniero Backend
Quien optimiza kernels GPU entiende cuándo migrar parts de un backend a aceleradores — perfil que las empresas de AI/inferencia valoran muy alto.
Este proyecto afina
- gpu-architecture
- parallel-programming
- performance-optimization
Arquitecto de Sistemas
Razonar sobre roofline y bottlenecks de hardware prepara al arquitecto que diseña plataformas heterogéneas (CPU+GPU+aceleradores) con criterio.
Este proyecto afina
- gpu-architecture
- roofline-analysis
- performance-optimization