Übersicht
Worum es bei diesem Projekt geht.
Sie setzen einen vollständigen Monitoring-Stack auf: NVIDIA DCGM Exporter für GPU-Metriken, Node Exporter für CPU/IO, Prometheus als Datenbank, Grafana für Dashboards. Bauen Sie drei Dashboards: (1) Real-time Cluster-Auslastung (für Plattform-Engineer), (2) Pro-User-Verbrauch der letzten 30 Tage (für Research-Lead), (3) Hardware-Health (Temperatur, ECC-Fehler, NVLink-Errors). Setzen Sie zwei Alerts: GPU-Temperatur > 85°C und idle-but-allocated > 30 Min. Liefern Sie zusätzlich einen 4-seitigen Bericht mit den Top-3 Auslastungsbefunden der letzten 30 Tage.
Das Briefing
Was Du tust und was Du zeigst.
Welche GPU-Auslastungs- und Hardware-Health-Daten muss ein Startup-Cluster sichtbar machen, damit Plattform-Team und Research-Lead bessere Entscheidungen treffen?
Earning criteria — what you'll demonstrate
- Einen produktionsfähigen GPU-Monitoring-Stack mit Standard-Werkzeugen aufsetzen
- Beobachtbarkeit so designen, dass zwei verschiedene Personas (Engineer + Research-Lead) bedient werden
- Alerts mit Runbooks koppeln, statt nur Pager-Müll zu produzieren
- Cluster-Auslastungsdaten zu konkreten Operations-Befunden verdichten
Studienpassung
Wo dies in Dein Studium passt.
Schärft dieselben Fähigkeiten, die Dein Studium von Dir erwartet.
Fähigkeiten
Fähigkeiten, die Du unter Beweis stellst.
Jede taucht auf Deinem verifizierten Zertifikat auf.
Karrieren
Berufe, auf die dies Dich vorbereitet.
Echte Berufsbezeichnungen. Echte Skill-Brücken. Wähle die, die Deinem Werdegang am nächsten kommt.
Karrierewege, die das aufbaut
Kanonische RollenMLOps-Ingenieur:in
GPU-Monitoring + Alerting mit DCGM/Prometheus/Grafana ist eine direkt produktionsrelevante Kombination, die in fast jeder Junior-MLOps-Stellenausschreibung 2026 auftaucht.
Dieses Projekt schärft
- gpu-monitoring
- prometheus
- grafana
Data Engineer:in
Beobachtbarkeits-Design mit Personas und Runbooks ist eine übertragbare Engineering-Disziplin, die auch Data-Engineering-Teams für ihre Pipelines aufbauen.
Dieses Projekt schärft
- observability
- alerting
- infrastructure
Machine-Learning-Ingenieur:in
Wer Cluster-Auslastung diagnostizieren und Befunde formulieren kann, hebt sich von MLEs ab, die nur Modelle trainieren können und die Plattform für sich arbeiten lassen.
Dieses Projekt schärft
- gpu-monitoring
- infrastructure
- observability
Noch eine Sache