Skip to contentSkip to content
Verifizierte Zertifikate. On-Chain. Für immer.Mehr erfahren
Cover image for DPO-Finetuning fuer Tonalitaets-Anpassung eines mehrsprachigen Modells
Code

DPO-Finetuning fuer Tonalitaets-Anpassung eines mehrsprachigen Modells

FreeVerified credential3 WochenExpert

Übersicht

Worum es bei diesem Projekt geht.

Du erhaeltst ein Open-Source-Basismodell (rund 8B Parameter), 4.000 Praeferenzpaare und 200 Holdout-Prompts. Implementiere: (1) SFT-Baseline auf den 'chosen'-Antworten, (2) DPO-Training auf den vollen Praeferenzpaaren, (3) eine LLM-as-Judge-Eval auf den Holdout-Prompts mit 4-Kriterien-Rubrik (Tonalitaet, Praezision, Hoeflichkeit, Geschaefts-Angemessenheit). Berichte: Win-Rate gegen Basismodell, gegen SFT, und Token-Effizienz pro Trainingsphase. Liefere die gefinetunten Adapter (LoRA) plus eine Architekturnotiz fuer das Kundenteam.

CredentialBlockchain-anchored
ShareableLinkedIn-ready
LanguageEnglish
PaceSelf-paced

Das Briefing

Was Du tust und was Du zeigst.

Implementiere Direct Preference Optimization und vergleiche gegen Supervised Fine-Tuning fuer Tonalitaets-Anpassung eines Open-Source-LLMs.

Earning criteria — what you'll demonstrate

  • DPO als reward-freie Alternative zu RLHF verstehen und korrekt implementieren
  • SFT vs. DPO empirisch vergleichen mit ehrlichen Metriken
  • LoRA-Finetuning fuer effiziente Iteration einsetzen
  • Token-Effizienz als Vergabekriterium kommunizieren

Studienpassung

Wo dies in Dein Studium passt.

Schärft dieselben Fähigkeiten, die Dein Studium von Dir erwartet.

Fähigkeiten

Fähigkeiten, die Du unter Beweis stellst.

Jede taucht auf Deinem verifizierten Zertifikat auf.

Karrieren

Berufe, auf die dies Dich vorbereitet.

Echte Berufsbezeichnungen. Echte Skill-Brücken. Wähle die, die Deinem Werdegang am nächsten kommt.

Karrierewege, die das aufbaut

Kanonische Rollen

ML Researcher

DPO mit Beta-Ablation und ehrlichem Vergleich gegen SFT zu liefern ist Tag-eins-Arbeit eines ML Researchers in AI-Consulting-Firmen und an Foundation-Laboren.

Dieses Projekt schärft

  • direct-preference-optimization
  • preference-learning
  • supervised-finetuning

AI Safety Researcher

Praeferenz-Learning als Alignment-Methode auf ein produktnahes Tonalitaets-Problem anzuwenden bildet die Bruecke zwischen Alignment-Forschung und Industrie-Produkten.

Dieses Projekt schärft

  • direct-preference-optimization
  • preference-learning
  • llm-evaluation

Applied AI Scientist

DPO-Finetuning eines 8B-Modells gegen ein Token-Budget zu validieren und einem B2B-Kundenteam vorzustellen ist Kerngebiet eines Applied AI Scientists.

Dieses Projekt schärft

  • lora
  • direct-preference-optimization
  • llm-evaluation

Noch eine Sache

Du kannst ein Zertifikat bis Freitag in Deinem Lebenslauf haben.