Skip to contentSkip to content
Verifizierte Zertifikate. On-Chain. Für immer.Mehr erfahren
Cover image for Instruction-Tuning und DPO für einen Customer-Support-Bot
Research

Instruction-Tuning und DPO für einen Customer-Support-Bot

FreeVerified credential4 WochenExpert

Übersicht

Worum es bei diesem Projekt geht.

Du bekommst 5.000 idealtypische Instruction-Antwort-Beispiele (kuratiert vom Service-Team) und 600 Präferenz-Paare (gleicher Prompt, zwei Antworten, präferierte Antwort markiert). Setze auf einem Llama-3-8B-Modell zuerst Instruction-Tuning mit LoRA auf, dann DPO. Vergleiche drei Modelle (Basis, Instruction-Tuned, DPO-getuned) auf 100 Holdout-Prompts mit Likert-Bewertung von 5 Service-Mitarbeiter:innen. Liefere reproduzierbare Pipeline und eine 4-seitige Analyse.

CredentialBlockchain-anchored
ShareableLinkedIn-ready
LanguageEnglish
PaceSelf-paced

Das Briefing

Was Du tust und was Du zeigst.

Verbessere den Konversations-Ton eines Telco-Support-Bots durch Instruction-Tuning + DPO so, dass Service-Mitarbeiter:innen ihn signifikant besser bewerten als Basis und Instruction-only.

Earning criteria — what you'll demonstrate

  • Instruction-Tuning als ersten Adaption-Schritt einsetzen
  • DPO als Präferenz-Optimierungsmethode ohne Reward-Modell implementieren
  • Ablations-Studien sauber aufsetzen, sodass Effekte den Schritten zuordenbar sind
  • Konversations-Qualität mit menschlichen Bewertungen statistisch fair messen

Studienpassung

Wo dies in Dein Studium passt.

Schärft dieselben Fähigkeiten, die Dein Studium von Dir erwartet.

Fähigkeiten

Fähigkeiten, die Du unter Beweis stellst.

Jede taucht auf Deinem verifizierten Zertifikat auf.

Karrieren

Berufe, auf die dies Dich vorbereitet.

Echte Berufsbezeichnungen. Echte Skill-Brücken. Wähle die, die Deinem Werdegang am nächsten kommt.

Karrierewege, die das aufbaut

Kanonische Rollen

ML-Forscher:in

Saubere Ablations-Studien an einer Präferenz-Optimierungs-Pipeline zu liefern ist Kernkompetenz von ML-Forschenden in Foundation-Model-Adopters und Industrie-Laboren.

Dieses Projekt schärft

  • dpo
  • preference-optimization
  • instruction-tuning

ML-Ingenieur:in

DPO und Instruction-Tuning als wartbare Trainings-Pipeline aufzusetzen ist eine wachsende Verantwortung von ML-Ingenieurinnen in Foundation-Model-Anwender-Teams.

Dieses Projekt schärft

  • lora
  • huggingface
  • llm-evaluation

NLP-Ingenieur:in

Conversational-Qualität messbar zu verbessern ist genau die Schnittstelle, an der NLP-Ingenieurinnen in Telco-Tech-Teams ihren Wert zeigen.

Dieses Projekt schärft

  • instruction-tuning
  • llm-evaluation
  • dpo

Noch eine Sache

Du kannst ein Zertifikat bis Freitag in Deinem Lebenslauf haben.