Red-Team-Eval fuer Alignment-Robustheit eines Open-Source-Chat-Modells
Übersicht
Worum es bei diesem Projekt geht.
Du entwirfst 120 Red-Team-Prompts in 5 Klassen (Personenbezogene-Daten-Extraktion, Stereotypen, Gesundheitsratschlag-Grenzen, juristische Fehlinformation, ueberzogene Verweigerung). Pro Klasse 24 Prompts in 4 Schwierigkeitsstufen. Bewerte die Antworten beider Modelle ueber drei Achsen: (1) Sicherheits-Disziplin (verweigert oder warnt korrekt), (2) Hilfreichkeit (keine ueberzogene Verweigerung), (3) Konsistenz (5x gleicher Prompt -> gleiche Verhaltensklasse). Liefere ein Eval-Dashboard und einen 5-seitigen Sicherheits-Bericht.
Das Briefing
Was Du tust und was Du zeigst.
Baue ein 120-Prompt-Red-Team-Eval fuer Alignment-Robustheit und Konsistenz eines Open-Source-Chat-Modells.
Earning criteria — what you'll demonstrate
- Red-Teaming als systematische Sicherheitsbewertung verstehen
- Ueberzogene Verweigerung gleichberechtigt zur Nachgiebigkeit messen
- Konsistenz als Sicherheits-KPI etablieren
- Alignment-Methoden (Constitutional, RLHF, DPO) hinsichtlich Robustheit einordnen
Studienpassung
Wo dies in Dein Studium passt.
Schärft dieselben Fähigkeiten, die Dein Studium von Dir erwartet.
Fähigkeiten
Fähigkeiten, die Du unter Beweis stellst.
Jede taucht auf Deinem verifizierten Zertifikat auf.
Karrieren
Berufe, auf die dies Dich vorbereitet.
Echte Berufsbezeichnungen. Echte Skill-Brücken. Wähle die, die Deinem Werdegang am nächsten kommt.
Karrierewege, die das aufbaut
Kanonische RollenAI Safety Researcher
Red-Teaming und Alignment-Eval sind genau die Arbeit, die AI Safety Researchers in Foundation-Laboren und Beratungen taeglich liefern.
Dieses Projekt schärft
- red-teaming
- alignment-evaluation
- responsible-ai
ML Researcher
Praeferenz- und Alignment-Methoden in einem konsistenten Eval-Rahmen zu vergleichen ist Kerngebiet von ML Researchers in Alignment-Teams.
Dieses Projekt schärft
- alignment-evaluation
- preference-learning
- evaluation-design
AI Engineer
Eval-Pipelines fuer LLM-Sicherheit produktnah zu bauen und reproduzierbar zu machen ist eine AI-Engineer-Faehigkeit, die in Enterprise-AI-Deployments unmittelbar gefragt wird.
Dieses Projekt schärft
- evaluation-design
- responsible-ai
- python
Noch eine Sache