Profiling y Tuning de Inferencia GPU para Startup de Cómputo Mexicana
Visión general
De qué trata este proyecto.
Recibes el servicio de inferencia (Python + PyTorch + NVIDIA Triton Inference Server), un dataset de imágenes representativo y acceso a un nodo g5.2xlarge. Perfila con NVIDIA Nsight Systems y nvprof: ocupación SM, tiempo en H2D/D2H, utilización de Tensor Cores. Diagnostica las 3 fuentes principales de subutilización (batching dinámico mal configurado, copias innecesarias, kernels secuenciales). Aplica fixes (dynamic batching de Triton, CUDA streams para solapar copia y cómputo, half precision donde sea seguro). Mide latencia y throughput antes/después por tamaño de batch. Entrega el reporte Nsight, la configuración mejorada y un memo de 4 páginas con coste por millón de inferencias.
El Briefing
Lo que harás y lo que demostrarás.
Aumentar la utilización GPU de un servicio de inferencia desde 22% a más del 60% manteniendo latencia p99 aceptable.
Earning criteria — what you'll demonstrate
- Aplicar Nsight Systems a un servicio real de inferencia
- Diagnosticar bottlenecks GPU con métricas microarquitectónicas
- Configurar batching dinámico y streams correctamente
- Cuantificar el impacto financiero de las optimizaciones
Encaje académico
Dónde encaja esto en tus estudios.
Afina las mismas habilidades que tu titulación espera de ti.
Habilidades
Habilidades que demostrarás.
Cada una aparece en tu credencial verificada.
Carreras
Roles para los que esto te prepara.
Títulos reales. Puentes de habilidades reales. Elige el que más se acerque a tu trayectoria.
Trayectorias profesionales que esto construye
Roles canónicosIngeniero de Backend
Backend engineers que entienden GPU profiling construyen servicios que escalan en presupuesto, no solo en CPU.
Este proyecto afina
- cuda
- performance-engineering
- benchmarking