Übersicht
Worum es bei diesem Projekt geht.
Sie bekommen Zugriff (per VPN) auf einen Test-Cluster mit 4 Knoten à 4 A100-GPUs. Trainieren Sie ein 1,3-Milliarden-Parameter-Sprachmodell (Pythia oder eine eigene Variante) mit drei Verteilungsstrategien: (1) reinem Data-Parallel (DDP), (2) Fully Sharded Data Parallel (FSDP), (3) FSDP + Pipeline Parallel. Messen Sie Tokens/Sekunde, GPU-Speicher-Auslastung, Kommunikations-Overhead und MFU (Model FLOPs Utilization). Erfolgskriterium: dokumentierte MFU-Tabelle über die drei Strategien plus eine begründete Empfehlung, welche Strategie das interne Team als Standard adoptieren soll.
Das Briefing
Was Du tust und was Du zeigst.
Welche Distributed-Training-Strategie liefert auf dem konzerneigenen 4x4-A100-Cluster die beste MFU für ein 1,3-B-Parameter-Modell?
Earning criteria — what you'll demonstrate
- Drei Distributed-Training-Strategien praktisch implementieren und vergleichen
- MFU als Engineering-Metrik korrekt berechnen und interpretieren
- GPU-Profiling-Werkzeuge zur Kommunikations-Engpass-Analyse anwenden
- Eine Plattform-Roadmap auf Basis quantitativer Benchmarks begründen
Studienpassung
Wo dies in Dein Studium passt.
Schärft dieselben Fähigkeiten, die Dein Studium von Dir erwartet.
Fähigkeiten
Fähigkeiten, die Du unter Beweis stellst.
Jede taucht auf Deinem verifizierten Zertifikat auf.
Karrieren
Berufe, auf die dies Dich vorbereitet.
Echte Berufsbezeichnungen. Echte Skill-Brücken. Wähle die, die Deinem Werdegang am nächsten kommt.
ML-Systems-Ingenieur:in
Wer FSDP, Pipeline-Parallel und MFU-Messung praktisch beherrscht, deckt das Profil ab, das ML-Systems-Teams in Hyperscalern und großen Enterprises 2026 dringend suchen.
Dieses Projekt schärft
- distributed-training
- fsdp
- pipeline-parallelism
MLOps-Ingenieur:in
Profiling, Slurm-Bedienung und reproduzierbare Cluster-Benchmarks sind das Handwerk, das MLOps-Teams beim Aufbau interner GPU-Plattformen täglich brauchen.
Dieses Projekt schärft
- gpu-profiling
- benchmarking
- distributed-training
KI-Lösungsarchitekt:in
Die Übung, eine Verteilungsstrategie quantitativ zu rechtfertigen und in eine Roadmap zu gießen, bildet exakt die Architektur-Empfehlungs-Arbeit ab, die Solutions Architects an Plattform-Teams liefern.
Dieses Projekt schärft
- benchmarking
- pytorch
- gpu-profiling
Noch eine Sache