Verteiltes Training eines CTR-Modells für eine Münchner AdTech-Plattform
Übersicht
Worum es bei diesem Projekt geht.
Du erhältst das bestehende PyTorch-Trainings-Skript (ein zweistöckiges Deep & Wide-Modell), einen 4-GPU-Server (4x NVIDIA A100) und eine Daten-Stichprobe von 500 Millionen Impressions im Parquet-Format. Implementiere verteiltes Training mit PyTorch Distributed Data Parallel (DDP), tune Batch-Größe und Lern-Rate für die größere effektive Batch-Größe und reportiere Throughput (Impressions pro Sekunde) und Konvergenz (AUC auf dem Validierungs-Set) gegen die Single-GPU-Baseline. Liefere das Trainings-Skript, einen Benchmark-Report und ein 2-seitiges Memo zur empfohlenen Cluster-Größe.
Das Briefing
Was Du tust und was Du zeigst.
Skaliere ein CTR-Trainings-Skript von einer GPU auf vier mit dokumentiertem Throughput-vs-Konvergenz-Trade-off und Konvergenz-Parität zur Baseline.
Earning criteria — what you'll demonstrate
- Verteiltes Training mit PyTorch DDP korrekt aufsetzen
- Effektive Batch-Größe, Lern-Rate und Warm-up-Strategien zusammen tunen
- Skalierungs-Effizienz quantitativ messen und reportieren
- Cluster-Größen-Empfehlung mit Kosten und Iterations-Geschwindigkeit verbinden
Studienpassung
Wo dies in Dein Studium passt.
Schärft dieselben Fähigkeiten, die Dein Studium von Dir erwartet.
Fähigkeiten
Fähigkeiten, die Du unter Beweis stellst.
Jede taucht auf Deinem verifizierten Zertifikat auf.
Karrieren
Berufe, auf die dies Dich vorbereitet.
Echte Berufsbezeichnungen. Echte Skill-Brücken. Wähle die, die Deinem Werdegang am nächsten kommt.
Karrierewege, die das aufbaut
Kanonische RollenMaschinelles-Lernen-Ingenieur:in
Ein Trainings-Skript auf mehrere GPUs zu skalieren und Konvergenz-Parität zu beweisen, ist die Vorzeige-Arbeit für MLE bei Plattformen mit großen Modellen.
Dieses Projekt schärft
- distributed-training
- pytorch
- performance-tuning
MLOps-Ingenieur:in
Cluster-Auslastung und Kosten in eine Empfehlung zu übersetzen ist die MLOps-Brücke zwischen Forschung und Plattform-Budget.
Dieses Projekt schärft
- gpu-optimization
- performance-tuning
- experiment-design
Maschinelles-Lernen-Forscher:in
Mehrere Seeds und Konfidenz-Reporting sind Forschungs-Disziplin, die für jede ehrliche Modell-Skalierungs-Studie nötig ist.
Dieses Projekt schärft
- evaluation
- experiment-design
- pytorch
Noch eine Sache