Skip to contentSkip to content
Verifizierte Zertifikate. On-Chain. Für immer.Mehr erfahren
Cover image for Belohnungsmodell und DPO für ein Berliner Schreibassistenz-Startup
Research

Belohnungsmodell und DPO für ein Berliner Schreibassistenz-Startup

FreeVerified credential3 WochenAdvanced

Übersicht

Worum es bei diesem Projekt geht.

Du erhältst 3.000 Präferenz-Paare (gewünschte vs. unerwünschte Antwort) sowie 200 Hold-out-Prompts. Baue eine Pipeline mit (1) Aufbau eines Belohnungsmodells aus den Präferenz-Paaren ODER direktem DPO-Training auf einem offenen 7B/8B-Modell; (2) Vergleich gegen das Basis-Modell mit (a) automatischer Bewertung durch GPT-4o + Claude als Judges; (b) Human-Stichprobe mit 5 Nutzer:innen. Liefere Trainingscode, getuntes Modell, Evaluations-Skripte, Auswertung und ein 4-seitiges Empfehlungs-Memo.

CredentialBlockchain-anchored
ShareableLinkedIn-ready
LanguageEnglish
PaceSelf-paced

Das Briefing

Was Du tust und was Du zeigst.

Verbessert DPO auf Präferenz-Paaren die wahrgenommene Stil- und Korrektheitsqualität eines deutschen Schreibassistenten messbar?

Earning criteria — what you'll demonstrate

  • Direct Preference Optimization praktisch implementieren
  • Stil- und Korrektheitsqualität neben automatischen Metriken auch human auswerten
  • Disagreement zwischen Judge-Modellen ernsthaft analysieren
  • Alignment-Entscheidungen für ein Produkt-Team kommunizieren

Studienpassung

Wo dies in Dein Studium passt.

Schärft dieselben Fähigkeiten, die Dein Studium von Dir erwartet.

Fähigkeiten

Fähigkeiten, die Du unter Beweis stellst.

Jede taucht auf Deinem verifizierten Zertifikat auf.

Karrieren

Berufe, auf die dies Dich vorbereitet.

Echte Berufsbezeichnungen. Echte Skill-Brücken. Wähle die, die Deinem Werdegang am nächsten kommt.

Karrierewege, die das aufbaut

Kanonische Rollen

ML-Forscher:in

DPO-Training mit sauberer Evaluation und Disagreement-Analyse ist eine Kerntätigkeit von ML-Forscher:innen in KI-Startups, die Alignment-Arbeit produktiv einsetzen.

Dieses Projekt schärft

  • alignment
  • dpo
  • rlhf

Machine-Learning-Ingenieur:in

Reproduzierbare Trainingspipelines und Modellkarten gehören direkt zur Tagesarbeit von ML-Ingenieur:innen in produktnahen LLM-Teams.

Dieses Projekt schärft

  • transformers
  • hugging-face
  • evaluation

KI-Sicherheitsforscher:in

Alignment-Methoden zu bewerten und Risiken wie Overfitting auf Präferenz-Verteilungen zu benennen, ist die Tagesarbeit von KI-Sicherheitsforscher:innen.

Dieses Projekt schärft

  • alignment
  • evaluation
  • dpo

Noch eine Sache

Du kannst ein Zertifikat bis Freitag in Deinem Lebenslauf haben.