Capability- und Safety-Evaluation für ein Open-Source-LLM
Übersicht
Worum es bei diesem Projekt geht.
Du erhältst Zugang zum Modell und zu einer Liste etablierter Benchmark-Suites (z. B. MMLU für allgemeines Wissen — Massive Multitask Language Understanding — mit deutschsprachiger Übersetzung, BBQ für gesellschaftliche Verzerrungen, ToxiGen für toxische Inhalte, einfache Jailbreak-Test-Sets). Führe die Benchmarks systematisch durch, dokumentiere Setup und Konfiguration und vergleiche die Ergebnisse mit zwei Referenzmodellen ähnlicher Größe. Erstelle einen Modell-Karten-Anhang im EU-AI-Act-Stil mit klaren Limitierungs-Hinweisen. Diskutiere ehrlich, welche Benchmarks für deutschsprachige Modelle aussagekräftig sind und welche nicht.
Das Briefing
Was Du tust und was Du zeigst.
Wie führt man eine reproduzierbare, kombinierte Capability- und Safety-Evaluation für ein deutschsprachiges Open-Source-LLM durch — und welche Benchmarks sind dafür wirklich tauglich?
Earning criteria — what you'll demonstrate
- Etablierte LLM-Benchmark-Suites praktisch durchführen und kritisch einordnen
- Capability- und Safety-Evaluation in ein gemeinsames Reporting integrieren
- Sprachspezifische Limitierungen englischsprachiger Benchmarks erkennen und kommunizieren
- Modell-Karten-Standards der EU für Open-Source-Modelle anwenden
Studienpassung
Wo dies in Dein Studium passt.
Schärft dieselben Fähigkeiten, die Dein Studium von Dir erwartet.
Fähigkeiten
Fähigkeiten, die Du unter Beweis stellst.
Jede taucht auf Deinem verifizierten Zertifikat auf.
Karrieren
Berufe, auf die dies Dich vorbereitet.
Echte Berufsbezeichnungen. Echte Skill-Brücken. Wähle die, die Deinem Werdegang am nächsten kommt.
AI Safety Researcher
Safety-Evaluations sind das Tagesgeschäft von AI Safety Researchern in offenen Modell-Communities. Die Challenge übt das volle Repertoire von Benchmark-Wahl bis zur Modell-Karte.
Dieses Projekt schärft
- safety-evaluation
- responsible-disclosure
- benchmark-design
ML Researcher
Die kritische Diskussion der Benchmark-Tauglichkeit ist eine zentrale ML-Researcher-Tätigkeit. Diese Challenge bietet einen sehr realistischen Einstieg in genau diese Diskussion.
Dieses Projekt schärft
- capability-evaluation
- llm-evaluation
- benchmark-design
NLP Engineer
NLP Engineers, die deutschsprachige Modelle in Produktion bringen, müssen die Benchmark-Limitierungen verstehen. Die Challenge baut diese Kompetenz konkret auf.
Dieses Projekt schärft
- llm-evaluation
- model-cards
- capability-evaluation
Noch eine Sache