Evaluations-Framework für ein KI-Suchassistenten-Produkt aufbauen
Übersicht
Worum es bei diesem Projekt geht.
Du arbeitest mit dem Engineering-Team an einem Eval-Framework auf Basis von OpenAI Evals oder Promptfoo (open-source-Werkzeuge zur strukturierten Bewertung von Sprachmodell-Antworten). Definiere zusammen mit drei juristischen Pilotnutzer:innen ein Set aus 80 repräsentativen Anfragen plus Goldantworten. Implementiere mindestens fünf Metriken: Antwortrelevanz, Faktentreue (gestützt auf Quellenverweise), Halluzinations-Rate, Bearbeitungszeit pro Anfrage und Nutzer-Präferenz (paarweise Bewertung gegen ein Baseline-Modell). Liefere ein lauffähiges Repository, einen Wochenbericht-Prototyp und eine Anleitung, mit der die Produktmanagerin nach deinem Weggang das Framework eigenständig betreibt.
Das Briefing
Was Du tust und was Du zeigst.
Wie sieht ein wöchentlich automatisiertes Eval-Framework aus, das Modellwechsel im juristischen Suchassistenten datenbasiert absichert und die Halluzinations-Rate sichtbar macht?
Earning criteria — what you'll demonstrate
- Ein produktreifes Eval-Framework für ein LLM-Produkt entwerfen und implementieren
- Metriken jenseits der Genauigkeit definieren — insbesondere Halluzinations-Rate und Nutzerpräferenz
- Goldsatz-Kuration mit Domänen-Expert:innen organisieren und nachvollziehbar halten
- Modellwechsel-Entscheidungen als reproduzierbaren Prozess statt Bauchentscheidung verankern
Studienpassung
Wo dies in Dein Studium passt.
Schärft dieselben Fähigkeiten, die Dein Studium von Dir erwartet.
Fähigkeiten
Fähigkeiten, die Du unter Beweis stellst.
Jede taucht auf Deinem verifizierten Zertifikat auf.
Karrieren
Berufe, auf die dies Dich vorbereitet.
Echte Berufsbezeichnungen. Echte Skill-Brücken. Wähle die, die Deinem Werdegang am nächsten kommt.
Karrierewege, die das aufbaut
Kanonische RollenKI-Produktmanager:in
Evals als wöchentliche Disziplin im LLM-Produktbetrieb zu verankern, ist die Schlüsselfähigkeit, die KI-Produktmanager:innen von klassischen Produktmanager:innen unterscheidet — diese Challenge übt genau dieses Handwerk.
Dieses Projekt schärft
- llm-evaluation
- ai-product-strategy
- metric-design
Prompt Engineer
Ein 80-Anfragen-Goldsatz plus paarweise Präferenzbewertung gegen Baselines ist die Kernarbeit, die Prompt Engineers in seriösen Produktteams verantworten.
Dieses Projekt schärft
- prompt-engineering
- test-set-curation
- llm-evaluation
Applied AI Scientist
Metrik-Design jenseits der Genauigkeit und die Trennung zwischen Modell- und Daten-Effekten sind die analytische Seite der Applied-AI-Scientist-Arbeit in jungen KI-Unternehmen.
Dieses Projekt schärft
- metric-design
- llm-evaluation
- python
Noch eine Sache