Skip to contentSkip to content
Verifizierte Zertifikate. On-Chain. Für immer.Mehr erfahren
Cover image for Inferenz-Optimierung für ein Schweizer Bank-Pilotprojekt
Code

Inferenz-Optimierung für ein Schweizer Bank-Pilotprojekt

FreeVerified credential3 WochenExpert

Übersicht

Worum es bei diesem Projekt geht.

Du erhältst Zugang zu einer Test-Instanz (A100 80GB) mit Llama-3-8B-Instruct und einen Trace von 1.000 anonymisierten Anfragen mit Längen- und Concurrency-Verteilung. Vergleiche systematisch: (1) Vanilla Hugging Face Transformers; (2) vLLM mit PagedAttention; (3) vLLM mit AWQ-/GPTQ-Quantisierung; (4) vLLM mit Speculative Decoding (kleines Draft-Modell). Miss Throughput (Tokens/Sekunde), Time-to-First-Token, Per-Request-Latenz bei Concurrency 10/50/100. Liefere Benchmark-Pipeline, beste Konfiguration und 6-seitiger Bericht.

CredentialBlockchain-anchored
ShareableLinkedIn-ready
LanguageEnglish
PaceSelf-paced

Das Briefing

Was Du tust und was Du zeigst.

Welche Inferenz-Konfiguration maximiert Throughput und hält Per-Request-Latenz im Budget für 200 gleichzeitige Berater:innen auf einer einzigen A100?

Earning criteria — what you'll demonstrate

  • Modernes LLM-Serving (vLLM, PagedAttention) verstehen und konfigurieren
  • Quantisierungs-Trade-offs (Qualität vs. Throughput) ehrlich messen
  • Speculative Decoding korrekt einsetzen
  • Inferenz-Argumente für regulierte On-Prem-Umgebungen entwickeln

Studienpassung

Wo dies in Dein Studium passt.

Schärft dieselben Fähigkeiten, die Dein Studium von Dir erwartet.

Fähigkeiten

Fähigkeiten, die Du unter Beweis stellst.

Jede taucht auf Deinem verifizierten Zertifikat auf.

Karrieren

Berufe, auf die dies Dich vorbereitet.

Echte Berufsbezeichnungen. Echte Skill-Brücken. Wähle die, die Deinem Werdegang am nächsten kommt.

Karrierewege, die das aufbaut

Kanonische Rollen

MLOps-Ingenieur:in

Inferenz-Optimierung mit vLLM und Quantisierung ist die Senior-typische Aufgabe von MLOps-Ingenieur:innen in LLM-betreibenden Teams, besonders in regulierten Branchen.

Dieses Projekt schärft

  • llm-inference-optimization
  • vllm
  • quantization

Machine-Learning-Ingenieur:in

Saubere Benchmark-Methodik und Qualitätskontrolle für Modell-Inferenz sind direkte ML-Engineering-Verantwortlichkeiten in produktnahen Teams.

Dieses Projekt schärft

  • benchmarking
  • gpu-optimization
  • quantization

KI-Solutions-Architekt:in

Inferenz-Architektur und Roll-out-Empfehlungen in regulierten On-Prem-Umgebungen sind klassische Aufgaben von KI-Solutions-Architekt:innen in Banken-IT.

Dieses Projekt schärft

  • llm-inference-optimization
  • vllm
  • speculative-decoding

Noch eine Sache

Du kannst ein Zertifikat bis Freitag in Deinem Lebenslauf haben.