Diseña una arquitectura de entrenamiento distribuido para una telco brasileña
Visión general
De qué trata este proyecto.
Recibirás un dataset reducido (15 millones de filas) y especificaciones de la infraestructura disponible (clúster Kubernetes con 8 nodos GPU). Diseña la arquitectura: elige entre data parallelism con PyTorch DDP (Distributed Data Parallel), pipeline parallelism o un orquestador como Ray. Prototipa la pieza de carga distribuida de datos sobre el dataset reducido y mide el speedup (aceleración) real con 1, 2 y 4 GPUs. Entrega un documento de arquitectura de 6 páginas que justifique la elección y estime el coste mensual.
El Briefing
Lo que harás y lo que demostrarás.
Diseñar y prototipar una arquitectura de entrenamiento distribuido que baje el tiempo de entrenamiento de 11 h a menos de 3 h con coste justificable.
Earning criteria — what you'll demonstrate
- Comparar estrategias de paralelismo (datos, pipeline, tensor) para un caso real
- Prototipar la pieza crítica de un sistema de entrenamiento distribuido
- Medir speedup y eficiencia escalar honestamente
- Defender una decisión de arquitectura con números, no con intuición
Encaje académico
Dónde encaja esto en tus estudios.
Afina las mismas habilidades que tu titulación espera de ti.
Habilidades
Habilidades que demostrarás.
Cada una aparece en tu credencial verificada.
Carreras
Roles para los que esto te prepara.
Títulos reales. Puentes de habilidades reales. Elige el que más se acerque a tu trayectoria.
Ingeniero/a de Machine Learning
Diseñar entrenamiento distribuido y defender la elección con benchmarks es competencia clave de MLE senior en empresas con datos a escala telco.
Este proyecto afina
- distributed-training
- pytorch
- benchmarking
Ingeniero/a MLOps
La integración con Kubernetes y la operación del clúster GPU es trabajo cotidiano de MLOps en infraestructura de IA.
Este proyecto afina
- kubernetes
- system-design
- distributed-training
Arquitecto/a de Soluciones de IA
Producir un documento de arquitectura defendible y un análisis económico es el corazón del rol de solutions architect en una telco grande.
Este proyecto afina
- system-design
- cost-analysis
- distributed-training