Evaluations-Framework für ein RAG-System eines E-Commerce-Suchstartups
Übersicht
Worum es bei diesem Projekt geht.
Du erhältst die bestehende RAG-Pipeline (LangChain + OpenAI), 250 kuratierte Testanfragen mit Goldstandard-Antworten und ein vom Team gewünschtes Mindestmaß an Faithfulness. Baue ein Evaluations-Framework mit (1) Retrieval-Metriken (Recall@5, MRR); (2) Antwort-Metriken (Faithfulness, Answer Relevancy via Ragas + LLM-as-judge mit Anthropic Claude als zweite Meinung); (3) Regressions-CI (GitHub Actions) mit klaren Akzeptanz-Schwellen; (4) Bericht-Generator (Markdown), der pro Release abgelegt wird. Liefere Repository, CI-Workflow und Runbook.
Das Briefing
Was Du tust und was Du zeigst.
Wie sieht ein reproduzierbares Evaluations-Framework aus, das RAG-Releases zuverlässig genug bewertet, um sie produktiv freizugeben?
Earning criteria — what you'll demonstrate
- RAG-Systeme jenseits von Bauchgefühl reproduzierbar evaluieren
- Faithfulness und Answer Relevancy als harte Release-Tore einsetzen
- LLM-as-judge mit Cross-Modell-Validierung verantwortungsvoll nutzen
- CI-Integration als Qualitätsgarantie für KI-Produkte verankern
Studienpassung
Wo dies in Dein Studium passt.
Schärft dieselben Fähigkeiten, die Dein Studium von Dir erwartet.
Fähigkeiten
Fähigkeiten, die Du unter Beweis stellst.
Jede taucht auf Deinem verifizierten Zertifikat auf.
Karrieren
Berufe, auf die dies Dich vorbereitet.
Echte Berufsbezeichnungen. Echte Skill-Brücken. Wähle die, die Deinem Werdegang am nächsten kommt.
Karrierewege, die das aufbaut
Kanonische RollenKI-Engineer
Ein produktreifes Evaluations-Framework für RAG-Systeme zu bauen, ist die Senior-typische Aufgabe, die KI-Engineers in AI-Startups in den ersten Monaten erwartet.
Dieses Projekt schärft
- llm-evaluation
- retrieval-augmented-generation
- ci-cd
MLOps-Ingenieur:in
CI-Tore, Regressionsschutz und Run-Reports sind klassische MLOps-Verantwortlichkeiten in Teams, die LLM-Pipelines produktiv betreiben.
Dieses Projekt schärft
- ci-cd
- regression-testing
- langsmith
KI-Sicherheitsforscher:in
Disagreement-Detektion zwischen Judge-Modellen und Faithfulness-Schwellen sind eine direkte Anwendung von Sicherheitsforschung in produktnahem Kontext.
Dieses Projekt schärft
- llm-evaluation
- ragas
- regression-testing
Noch eine Sache