Skip to contentSkip to content
Verifizierte Zertifikate. On-Chain. Für immer.Mehr erfahren
Cover image for Red-Team-Eval fuer Alignment-Robustheit eines Open-Source-Chat-Modells
Research

Red-Team-Eval fuer Alignment-Robustheit eines Open-Source-Chat-Modells

FreeVerified credential2 WochenAdvanced

Übersicht

Worum es bei diesem Projekt geht.

Du entwirfst 120 Red-Team-Prompts in 5 Klassen (Personenbezogene-Daten-Extraktion, Stereotypen, Gesundheitsratschlag-Grenzen, juristische Fehlinformation, ueberzogene Verweigerung). Pro Klasse 24 Prompts in 4 Schwierigkeitsstufen. Bewerte die Antworten beider Modelle ueber drei Achsen: (1) Sicherheits-Disziplin (verweigert oder warnt korrekt), (2) Hilfreichkeit (keine ueberzogene Verweigerung), (3) Konsistenz (5x gleicher Prompt -> gleiche Verhaltensklasse). Liefere ein Eval-Dashboard und einen 5-seitigen Sicherheits-Bericht.

CredentialBlockchain-anchored
ShareableLinkedIn-ready
LanguageEnglish
PaceSelf-paced

Das Briefing

Was Du tust und was Du zeigst.

Baue ein 120-Prompt-Red-Team-Eval fuer Alignment-Robustheit und Konsistenz eines Open-Source-Chat-Modells.

Earning criteria — what you'll demonstrate

  • Red-Teaming als systematische Sicherheitsbewertung verstehen
  • Ueberzogene Verweigerung gleichberechtigt zur Nachgiebigkeit messen
  • Konsistenz als Sicherheits-KPI etablieren
  • Alignment-Methoden (Constitutional, RLHF, DPO) hinsichtlich Robustheit einordnen

Studienpassung

Wo dies in Dein Studium passt.

Schärft dieselben Fähigkeiten, die Dein Studium von Dir erwartet.

Fähigkeiten

Fähigkeiten, die Du unter Beweis stellst.

Jede taucht auf Deinem verifizierten Zertifikat auf.

Karrieren

Berufe, auf die dies Dich vorbereitet.

Echte Berufsbezeichnungen. Echte Skill-Brücken. Wähle die, die Deinem Werdegang am nächsten kommt.

Karrierewege, die das aufbaut

Kanonische Rollen

AI Safety Researcher

Red-Teaming und Alignment-Eval sind genau die Arbeit, die AI Safety Researchers in Foundation-Laboren und Beratungen taeglich liefern.

Dieses Projekt schärft

  • red-teaming
  • alignment-evaluation
  • responsible-ai

ML Researcher

Praeferenz- und Alignment-Methoden in einem konsistenten Eval-Rahmen zu vergleichen ist Kerngebiet von ML Researchers in Alignment-Teams.

Dieses Projekt schärft

  • alignment-evaluation
  • preference-learning
  • evaluation-design

AI Engineer

Eval-Pipelines fuer LLM-Sicherheit produktnah zu bauen und reproduzierbar zu machen ist eine AI-Engineer-Faehigkeit, die in Enterprise-AI-Deployments unmittelbar gefragt wird.

Dieses Projekt schärft

  • evaluation-design
  • responsible-ai
  • python

Noch eine Sache

Du kannst ein Zertifikat bis Freitag in Deinem Lebenslauf haben.