DPO-Finetuning fuer Tonalitaets-Anpassung eines mehrsprachigen Modells
Übersicht
Worum es bei diesem Projekt geht.
Du erhaeltst ein Open-Source-Basismodell (rund 8B Parameter), 4.000 Praeferenzpaare und 200 Holdout-Prompts. Implementiere: (1) SFT-Baseline auf den 'chosen'-Antworten, (2) DPO-Training auf den vollen Praeferenzpaaren, (3) eine LLM-as-Judge-Eval auf den Holdout-Prompts mit 4-Kriterien-Rubrik (Tonalitaet, Praezision, Hoeflichkeit, Geschaefts-Angemessenheit). Berichte: Win-Rate gegen Basismodell, gegen SFT, und Token-Effizienz pro Trainingsphase. Liefere die gefinetunten Adapter (LoRA) plus eine Architekturnotiz fuer das Kundenteam.
Das Briefing
Was Du tust und was Du zeigst.
Implementiere Direct Preference Optimization und vergleiche gegen Supervised Fine-Tuning fuer Tonalitaets-Anpassung eines Open-Source-LLMs.
Earning criteria — what you'll demonstrate
- DPO als reward-freie Alternative zu RLHF verstehen und korrekt implementieren
- SFT vs. DPO empirisch vergleichen mit ehrlichen Metriken
- LoRA-Finetuning fuer effiziente Iteration einsetzen
- Token-Effizienz als Vergabekriterium kommunizieren
Studienpassung
Wo dies in Dein Studium passt.
Schärft dieselben Fähigkeiten, die Dein Studium von Dir erwartet.
Fähigkeiten
Fähigkeiten, die Du unter Beweis stellst.
Jede taucht auf Deinem verifizierten Zertifikat auf.
Karrieren
Berufe, auf die dies Dich vorbereitet.
Echte Berufsbezeichnungen. Echte Skill-Brücken. Wähle die, die Deinem Werdegang am nächsten kommt.
Karrierewege, die das aufbaut
Kanonische RollenML Researcher
DPO mit Beta-Ablation und ehrlichem Vergleich gegen SFT zu liefern ist Tag-eins-Arbeit eines ML Researchers in AI-Consulting-Firmen und an Foundation-Laboren.
Dieses Projekt schärft
- direct-preference-optimization
- preference-learning
- supervised-finetuning
AI Safety Researcher
Praeferenz-Learning als Alignment-Methode auf ein produktnahes Tonalitaets-Problem anzuwenden bildet die Bruecke zwischen Alignment-Forschung und Industrie-Produkten.
Dieses Projekt schärft
- direct-preference-optimization
- preference-learning
- llm-evaluation
Applied AI Scientist
DPO-Finetuning eines 8B-Modells gegen ein Token-Budget zu validieren und einem B2B-Kundenteam vorzustellen ist Kerngebiet eines Applied AI Scientists.
Dieses Projekt schärft
- lora
- direct-preference-optimization
- llm-evaluation
Noch eine Sache