Skip to contentSkip to content
Verifizierte Zertifikate. On-Chain. Für immer.Mehr erfahren
Cover image for Capability- und Safety-Evaluation für ein Open-Source-LLM
Research

Capability- und Safety-Evaluation für ein Open-Source-LLM

FreeVerified credential3 WochenAdvanced

Übersicht

Worum es bei diesem Projekt geht.

Du erhältst Zugang zum Modell und zu einer Liste etablierter Benchmark-Suites (z. B. MMLU für allgemeines Wissen — Massive Multitask Language Understanding — mit deutschsprachiger Übersetzung, BBQ für gesellschaftliche Verzerrungen, ToxiGen für toxische Inhalte, einfache Jailbreak-Test-Sets). Führe die Benchmarks systematisch durch, dokumentiere Setup und Konfiguration und vergleiche die Ergebnisse mit zwei Referenzmodellen ähnlicher Größe. Erstelle einen Modell-Karten-Anhang im EU-AI-Act-Stil mit klaren Limitierungs-Hinweisen. Diskutiere ehrlich, welche Benchmarks für deutschsprachige Modelle aussagekräftig sind und welche nicht.

CredentialBlockchain-anchored
ShareableLinkedIn-ready
LanguageEnglish
PaceSelf-paced

Das Briefing

Was Du tust und was Du zeigst.

Wie führt man eine reproduzierbare, kombinierte Capability- und Safety-Evaluation für ein deutschsprachiges Open-Source-LLM durch — und welche Benchmarks sind dafür wirklich tauglich?

Earning criteria — what you'll demonstrate

  • Etablierte LLM-Benchmark-Suites praktisch durchführen und kritisch einordnen
  • Capability- und Safety-Evaluation in ein gemeinsames Reporting integrieren
  • Sprachspezifische Limitierungen englischsprachiger Benchmarks erkennen und kommunizieren
  • Modell-Karten-Standards der EU für Open-Source-Modelle anwenden

Studienpassung

Wo dies in Dein Studium passt.

Schärft dieselben Fähigkeiten, die Dein Studium von Dir erwartet.

Fähigkeiten

Fähigkeiten, die Du unter Beweis stellst.

Jede taucht auf Deinem verifizierten Zertifikat auf.

Karrieren

Berufe, auf die dies Dich vorbereitet.

Echte Berufsbezeichnungen. Echte Skill-Brücken. Wähle die, die Deinem Werdegang am nächsten kommt.

AI Safety Researcher

Safety-Evaluations sind das Tagesgeschäft von AI Safety Researchern in offenen Modell-Communities. Die Challenge übt das volle Repertoire von Benchmark-Wahl bis zur Modell-Karte.

Dieses Projekt schärft

  • safety-evaluation
  • responsible-disclosure
  • benchmark-design

ML Researcher

Die kritische Diskussion der Benchmark-Tauglichkeit ist eine zentrale ML-Researcher-Tätigkeit. Diese Challenge bietet einen sehr realistischen Einstieg in genau diese Diskussion.

Dieses Projekt schärft

  • capability-evaluation
  • llm-evaluation
  • benchmark-design

NLP Engineer

NLP Engineers, die deutschsprachige Modelle in Produktion bringen, müssen die Benchmark-Limitierungen verstehen. Die Challenge baut diese Kompetenz konkret auf.

Dieses Projekt schärft

  • llm-evaluation
  • model-cards
  • capability-evaluation

Noch eine Sache

Du kannst ein Zertifikat bis Freitag in Deinem Lebenslauf haben.