Übersicht
Worum es bei diesem Projekt geht.
Du erhältst Zugang zu einer Test-Instanz (A100 80GB) mit Llama-3-8B-Instruct und einen Trace von 1.000 anonymisierten Anfragen mit Längen- und Concurrency-Verteilung. Vergleiche systematisch: (1) Vanilla Hugging Face Transformers; (2) vLLM mit PagedAttention; (3) vLLM mit AWQ-/GPTQ-Quantisierung; (4) vLLM mit Speculative Decoding (kleines Draft-Modell). Miss Throughput (Tokens/Sekunde), Time-to-First-Token, Per-Request-Latenz bei Concurrency 10/50/100. Liefere Benchmark-Pipeline, beste Konfiguration und 6-seitiger Bericht.
Das Briefing
Was Du tust und was Du zeigst.
Welche Inferenz-Konfiguration maximiert Throughput und hält Per-Request-Latenz im Budget für 200 gleichzeitige Berater:innen auf einer einzigen A100?
Earning criteria — what you'll demonstrate
- Modernes LLM-Serving (vLLM, PagedAttention) verstehen und konfigurieren
- Quantisierungs-Trade-offs (Qualität vs. Throughput) ehrlich messen
- Speculative Decoding korrekt einsetzen
- Inferenz-Argumente für regulierte On-Prem-Umgebungen entwickeln
Studienpassung
Wo dies in Dein Studium passt.
Schärft dieselben Fähigkeiten, die Dein Studium von Dir erwartet.
Fähigkeiten
Fähigkeiten, die Du unter Beweis stellst.
Jede taucht auf Deinem verifizierten Zertifikat auf.
Karrieren
Berufe, auf die dies Dich vorbereitet.
Echte Berufsbezeichnungen. Echte Skill-Brücken. Wähle die, die Deinem Werdegang am nächsten kommt.
Karrierewege, die das aufbaut
Kanonische RollenMLOps-Ingenieur:in
Inferenz-Optimierung mit vLLM und Quantisierung ist die Senior-typische Aufgabe von MLOps-Ingenieur:innen in LLM-betreibenden Teams, besonders in regulierten Branchen.
Dieses Projekt schärft
- llm-inference-optimization
- vllm
- quantization
Machine-Learning-Ingenieur:in
Saubere Benchmark-Methodik und Qualitätskontrolle für Modell-Inferenz sind direkte ML-Engineering-Verantwortlichkeiten in produktnahen Teams.
Dieses Projekt schärft
- benchmarking
- gpu-optimization
- quantization
KI-Solutions-Architekt:in
Inferenz-Architektur und Roll-out-Empfehlungen in regulierten On-Prem-Umgebungen sind klassische Aufgaben von KI-Solutions-Architekt:innen in Banken-IT.
Dieses Projekt schärft
- llm-inference-optimization
- vllm
- speculative-decoding
Noch eine Sache