Skip to contentSkip to content
Verifizierte Zertifikate. On-Chain. Für immer.Mehr erfahren
Cover image for Evaluations-Framework für ein KI-Suchassistenten-Produkt aufbauen
Code

Evaluations-Framework für ein KI-Suchassistenten-Produkt aufbauen

FreeVerified credential3 WochenIntermediate

Übersicht

Worum es bei diesem Projekt geht.

Du arbeitest mit dem Engineering-Team an einem Eval-Framework auf Basis von OpenAI Evals oder Promptfoo (open-source-Werkzeuge zur strukturierten Bewertung von Sprachmodell-Antworten). Definiere zusammen mit drei juristischen Pilotnutzer:innen ein Set aus 80 repräsentativen Anfragen plus Goldantworten. Implementiere mindestens fünf Metriken: Antwortrelevanz, Faktentreue (gestützt auf Quellenverweise), Halluzinations-Rate, Bearbeitungszeit pro Anfrage und Nutzer-Präferenz (paarweise Bewertung gegen ein Baseline-Modell). Liefere ein lauffähiges Repository, einen Wochenbericht-Prototyp und eine Anleitung, mit der die Produktmanagerin nach deinem Weggang das Framework eigenständig betreibt.

CredentialBlockchain-anchored
ShareableLinkedIn-ready
LanguageEnglish
PaceSelf-paced

Das Briefing

Was Du tust und was Du zeigst.

Wie sieht ein wöchentlich automatisiertes Eval-Framework aus, das Modellwechsel im juristischen Suchassistenten datenbasiert absichert und die Halluzinations-Rate sichtbar macht?

Earning criteria — what you'll demonstrate

  • Ein produktreifes Eval-Framework für ein LLM-Produkt entwerfen und implementieren
  • Metriken jenseits der Genauigkeit definieren — insbesondere Halluzinations-Rate und Nutzerpräferenz
  • Goldsatz-Kuration mit Domänen-Expert:innen organisieren und nachvollziehbar halten
  • Modellwechsel-Entscheidungen als reproduzierbaren Prozess statt Bauchentscheidung verankern

Studienpassung

Wo dies in Dein Studium passt.

Schärft dieselben Fähigkeiten, die Dein Studium von Dir erwartet.

Fähigkeiten

Fähigkeiten, die Du unter Beweis stellst.

Jede taucht auf Deinem verifizierten Zertifikat auf.

Karrieren

Berufe, auf die dies Dich vorbereitet.

Echte Berufsbezeichnungen. Echte Skill-Brücken. Wähle die, die Deinem Werdegang am nächsten kommt.

Karrierewege, die das aufbaut

Kanonische Rollen

KI-Produktmanager:in

Evals als wöchentliche Disziplin im LLM-Produktbetrieb zu verankern, ist die Schlüsselfähigkeit, die KI-Produktmanager:innen von klassischen Produktmanager:innen unterscheidet — diese Challenge übt genau dieses Handwerk.

Dieses Projekt schärft

  • llm-evaluation
  • ai-product-strategy
  • metric-design

Prompt Engineer

Ein 80-Anfragen-Goldsatz plus paarweise Präferenzbewertung gegen Baselines ist die Kernarbeit, die Prompt Engineers in seriösen Produktteams verantworten.

Dieses Projekt schärft

  • prompt-engineering
  • test-set-curation
  • llm-evaluation

Applied AI Scientist

Metrik-Design jenseits der Genauigkeit und die Trennung zwischen Modell- und Daten-Effekten sind die analytische Seite der Applied-AI-Scientist-Arbeit in jungen KI-Unternehmen.

Dieses Projekt schärft

  • metric-design
  • llm-evaluation
  • python

Noch eine Sache

Du kannst ein Zertifikat bis Freitag in Deinem Lebenslauf haben.