Capability- und Safety-Evaluation für ein Open-Source-LLM

FreeVerified credential3 WochenAdvanced

Übersicht

Worum es bei diesem Projekt geht.

Teste ein Open-Source-LLM mit MMLU und ToxiGen, dokumentiere die Ergebnisse und erstelle eine Modellkarte. Du erhältst ein verifizierbares Zertifikat.

CredentialBlockchain-anchored

ShareableLinkedIn-ready

LanguageEnglish

PaceSelf-paced

Das Briefing

Was Du tust und was Du zeigst.

Wie führt man eine reproduzierbare, kombinierte Capability- und Safety-Evaluation für ein deutschsprachiges Open-Source-LLM durch — und welche Benchmarks sind dafür wirklich tauglich?

Earning criteria — what you'll demonstrate

Etablierte LLM-Benchmark-Suites praktisch durchführen und kritisch einordnen
Capability- und Safety-Evaluation in ein gemeinsames Reporting integrieren
Sprachspezifische Limitierungen englischsprachiger Benchmarks erkennen und kommunizieren
Modell-Karten-Standards der EU für Open-Source-Modelle anwenden

Studienpassung

Wo dies in Dein Studium passt.

Schärft dieselben Fähigkeiten, die Dein Studium von Dir erwartet.

AI Measurement and Evaluation

Master · Ai Ml

Fit score: 1

Fähigkeiten

Fähigkeiten, die Du unter Beweis stellst.

Jede taucht auf Deinem verifizierten Zertifikat auf.

Research

Karrieren

Berufe, auf die dies Dich vorbereitet.

Echte Berufsbezeichnungen. Echte Skill-Brücken. Wähle die, die Deinem Werdegang am nächsten kommt.

AI Safety Researcher

Safety-Evaluations sind das Tagesgeschäft von AI Safety Researchern in offenen Modell-Communities. Die Challenge übt das volle Repertoire von Benchmark-Wahl bis zur Modell-Karte.

Dieses Projekt schärft

safety-evaluation
responsible-disclosure
benchmark-design

ML Researcher

Die kritische Diskussion der Benchmark-Tauglichkeit ist eine zentrale ML-Researcher-Tätigkeit. Diese Challenge bietet einen sehr realistischen Einstieg in genau diese Diskussion.

Dieses Projekt schärft

capability-evaluation
llm-evaluation
benchmark-design

NLP Engineer

NLP Engineers, die deutschsprachige Modelle in Produktion bringen, müssen die Benchmark-Limitierungen verstehen. Die Challenge baut diese Kompetenz konkret auf.

Dieses Projekt schärft

llm-evaluation
model-cards
capability-evaluation

Noch eine Sache

Du kannst ein Zertifikat bis Freitag in Deinem Lebenslauf haben.

Dieses Projekt starten