Reward-Modell aus Praeferenzdaten fuer Berliner Schreibassistenten
Übersicht
Worum es bei diesem Projekt geht.
Du erhaeltst die 12.000 Praeferenzpaare (Prompt, Response A, Response B, Praeferenz, Annotator-ID) plus Demographie-Tags der Annotatorinnen. Trainiere ein Reward Model nach Bradley-Terry-Loss auf einem mittelgrossen Sprachmodell als Backbone. Validiere: (1) Holdout-Accuracy auf Praeferenzpaaren, (2) Inter-Annotator-Agreement-Konsistenz, (3) Kalibrierung der Reward-Werte (Reliability-Diagramm). Liefere ein Reward-Modell als API-Endpunkt plus eine Methodennotiz, die der PM erklaert, wie sie zukuenftige Modellversionen mit dem Reward-Modell scoren kann.
Das Briefing
Was Du tust und was Du zeigst.
Trainiere und kalibriere ein Reward Model aus paarweisen Praeferenzdaten und stelle es als wiederverwendbares Eval-Werkzeug bereit.
Earning criteria — what you'll demonstrate
- Bradley-Terry-Loss fuer paarweise Praeferenzen verstehen und implementieren
- Reward Modeling als Bruecke zwischen menschlicher Bewertung und automatisierter Eval einsetzen
- Kalibrierung von Reward-Werten gegen menschliches Urteil pruefen
- Annotator-Bias und Inter-Annotator-Disagreement bewusst behandeln
Studienpassung
Wo dies in Dein Studium passt.
Schärft dieselben Fähigkeiten, die Dein Studium von Dir erwartet.
Fähigkeiten
Fähigkeiten, die Du unter Beweis stellst.
Jede taucht auf Deinem verifizierten Zertifikat auf.
Karrieren
Berufe, auf die dies Dich vorbereitet.
Echte Berufsbezeichnungen. Echte Skill-Brücken. Wähle die, die Deinem Werdegang am nächsten kommt.
Karrierewege, die das aufbaut
Kanonische RollenML Researcher
Reward Modeling aus realen Praeferenzdaten ist die zentrale Faehigkeit von ML Researchers in RLHF-Teams und an US-amerikanischen Foundation-Modell-Laboren mit Fokus auf Alignment.
Dieses Projekt schärft
- reward-modeling
- preference-learning
- bradley-terry
AI Safety Researcher
Reward-Kalibrierung und Annotator-Bias-Analyse sind Kerngebiet von AI Safety Researchers, die LLMs an menschliche Werte ausrichten.
Dieses Projekt schärft
- model-calibration
- preference-learning
- evaluation-design
Applied AI Scientist
Ein Reward-Modell als wiederverwendbares Produkt-Eval einzusetzen ist eine direkte Bruecke zwischen Forschung und Produkt-Iterations-Workflow.
Dieses Projekt schärft
- reward-modeling
- model-calibration
- evaluation-design
Noch eine Sache