CUDA-Optimierung eines Bilderkennungs-Kernels für ein Stuttgarter Visual-Inspection-Startup
Übersicht
Worum es bei diesem Projekt geht.
Lade den anonymisierten CUDA-Kernel (rund 380 Zeilen) und profile ihn mit Nsight Compute auf einer L40-GPU. Identifiziere den Limiter (typische Kandidaten: schlecht koaleszierter globaler Speicher-Zugriff, niedrige Occupancy wegen Register-Druck, ineffiziente Shared-Memory-Nutzung). Implementiere zwei bis drei Optimierungen (z. B. Tile-basierte Shared-Memory-Nutzung, Restrukturierung für Coalescing, Warp-Level-Primitive für Reduction). Vergleiche Auslastung, Durchsatz und Energie pro Frame vorher/nachher. Stelle Korrektheit über Output-Vergleich gegen CPU-Referenz sicher. Abgaben: Profil-Bericht mit Limiter-Analyse, optimierter Kernel, Vergleichs-Bericht, 8-seitiges Optimierungs-Memo.
Das Briefing
Was Du tust und was Du zeigst.
Wie hebt man die GPU-Auslastung eines CUDA-Defekt-Erkennungs-Kernels von 35 auf mindestens 70 Prozent ohne Funktionalitäts-Verlust?
Earning criteria — what you'll demonstrate
- GPU-Kernel mit Nsight Compute systematisch profilieren
- Memory-Coalescing, Shared-Memory-Tiling und Warp-Primitive einsetzen
- Occupancy gegen Register-Druck bewusst abwägen
- Korrektheit von GPU-Optimierungen über CPU-Referenz absichern
Studienpassung
Wo dies in Dein Studium passt.
Schärft dieselben Fähigkeiten, die Dein Studium von Dir erwartet.
Fähigkeiten
Fähigkeiten, die Du unter Beweis stellst.
Jede taucht auf Deinem verifizierten Zertifikat auf.
Karrieren
Berufe, auf die dies Dich vorbereitet.
Echte Berufsbezeichnungen. Echte Skill-Brücken. Wähle die, die Deinem Werdegang am nächsten kommt.
GPU-Programmierer:in
CUDA-Kernel auf 70+ Prozent Auslastung zu bringen ist eine seltene Senior-Fähigkeit, die KI-, Visual-Inspection- und HPC-Anbieter aggressiv suchen.
Dieses Projekt schärft
- cuda
- memory-coalescing
- warp-primitives
Noch eine Sache