Belohnungsmodell und DPO für ein Berliner Schreibassistenz-Startup
Übersicht
Worum es bei diesem Projekt geht.
Du erhältst 3.000 Präferenz-Paare (gewünschte vs. unerwünschte Antwort) sowie 200 Hold-out-Prompts. Baue eine Pipeline mit (1) Aufbau eines Belohnungsmodells aus den Präferenz-Paaren ODER direktem DPO-Training auf einem offenen 7B/8B-Modell; (2) Vergleich gegen das Basis-Modell mit (a) automatischer Bewertung durch GPT-4o + Claude als Judges; (b) Human-Stichprobe mit 5 Nutzer:innen. Liefere Trainingscode, getuntes Modell, Evaluations-Skripte, Auswertung und ein 4-seitiges Empfehlungs-Memo.
Das Briefing
Was Du tust und was Du zeigst.
Verbessert DPO auf Präferenz-Paaren die wahrgenommene Stil- und Korrektheitsqualität eines deutschen Schreibassistenten messbar?
Earning criteria — what you'll demonstrate
- Direct Preference Optimization praktisch implementieren
- Stil- und Korrektheitsqualität neben automatischen Metriken auch human auswerten
- Disagreement zwischen Judge-Modellen ernsthaft analysieren
- Alignment-Entscheidungen für ein Produkt-Team kommunizieren
Studienpassung
Wo dies in Dein Studium passt.
Schärft dieselben Fähigkeiten, die Dein Studium von Dir erwartet.
Fähigkeiten
Fähigkeiten, die Du unter Beweis stellst.
Jede taucht auf Deinem verifizierten Zertifikat auf.
Karrieren
Berufe, auf die dies Dich vorbereitet.
Echte Berufsbezeichnungen. Echte Skill-Brücken. Wähle die, die Deinem Werdegang am nächsten kommt.
Karrierewege, die das aufbaut
Kanonische RollenML-Forscher:in
DPO-Training mit sauberer Evaluation und Disagreement-Analyse ist eine Kerntätigkeit von ML-Forscher:innen in KI-Startups, die Alignment-Arbeit produktiv einsetzen.
Dieses Projekt schärft
- alignment
- dpo
- rlhf
Machine-Learning-Ingenieur:in
Reproduzierbare Trainingspipelines und Modellkarten gehören direkt zur Tagesarbeit von ML-Ingenieur:innen in produktnahen LLM-Teams.
Dieses Projekt schärft
- transformers
- hugging-face
- evaluation
KI-Sicherheitsforscher:in
Alignment-Methoden zu bewerten und Risiken wie Overfitting auf Präferenz-Verteilungen zu benennen, ist die Tagesarbeit von KI-Sicherheitsforscher:innen.
Dieses Projekt schärft
- alignment
- evaluation
- dpo
Noch eine Sache