Instruction-Tuning und DPO für einen Customer-Support-Bot
Übersicht
Worum es bei diesem Projekt geht.
Du bekommst 5.000 idealtypische Instruction-Antwort-Beispiele (kuratiert vom Service-Team) und 600 Präferenz-Paare (gleicher Prompt, zwei Antworten, präferierte Antwort markiert). Setze auf einem Llama-3-8B-Modell zuerst Instruction-Tuning mit LoRA auf, dann DPO. Vergleiche drei Modelle (Basis, Instruction-Tuned, DPO-getuned) auf 100 Holdout-Prompts mit Likert-Bewertung von 5 Service-Mitarbeiter:innen. Liefere reproduzierbare Pipeline und eine 4-seitige Analyse.
Das Briefing
Was Du tust und was Du zeigst.
Verbessere den Konversations-Ton eines Telco-Support-Bots durch Instruction-Tuning + DPO so, dass Service-Mitarbeiter:innen ihn signifikant besser bewerten als Basis und Instruction-only.
Earning criteria — what you'll demonstrate
- Instruction-Tuning als ersten Adaption-Schritt einsetzen
- DPO als Präferenz-Optimierungsmethode ohne Reward-Modell implementieren
- Ablations-Studien sauber aufsetzen, sodass Effekte den Schritten zuordenbar sind
- Konversations-Qualität mit menschlichen Bewertungen statistisch fair messen
Studienpassung
Wo dies in Dein Studium passt.
Schärft dieselben Fähigkeiten, die Dein Studium von Dir erwartet.
Fähigkeiten
Fähigkeiten, die Du unter Beweis stellst.
Jede taucht auf Deinem verifizierten Zertifikat auf.
Karrieren
Berufe, auf die dies Dich vorbereitet.
Echte Berufsbezeichnungen. Echte Skill-Brücken. Wähle die, die Deinem Werdegang am nächsten kommt.
Karrierewege, die das aufbaut
Kanonische RollenML-Forscher:in
Saubere Ablations-Studien an einer Präferenz-Optimierungs-Pipeline zu liefern ist Kernkompetenz von ML-Forschenden in Foundation-Model-Adopters und Industrie-Laboren.
Dieses Projekt schärft
- dpo
- preference-optimization
- instruction-tuning
ML-Ingenieur:in
DPO und Instruction-Tuning als wartbare Trainings-Pipeline aufzusetzen ist eine wachsende Verantwortung von ML-Ingenieurinnen in Foundation-Model-Anwender-Teams.
Dieses Projekt schärft
- lora
- huggingface
- llm-evaluation
NLP-Ingenieur:in
Conversational-Qualität messbar zu verbessern ist genau die Schnittstelle, an der NLP-Ingenieurinnen in Telco-Tech-Teams ihren Wert zeigen.
Dieses Projekt schärft
- instruction-tuning
- llm-evaluation
- dpo
Noch eine Sache