Red-Team-Eval fuer Alignment-Robustheit eines Open-Source-Chat-Modells

FreeVerified credential2 WochenAdvanced

Übersicht

Worum es bei diesem Projekt geht.

Erstelle 120 Red-Team-Prompts, bewerte zwei KI-Modelle auf Sicherheit und Konsistenz. Erhalte dein verifizierbares Zertifikat.

CredentialBlockchain-anchored

ShareableLinkedIn-ready

LanguageEnglish

PaceSelf-paced

Das Briefing

Was Du tust und was Du zeigst.

Baue ein 120-Prompt-Red-Team-Eval fuer Alignment-Robustheit und Konsistenz eines Open-Source-Chat-Modells.

Earning criteria — what you'll demonstrate

Red-Teaming als systematische Sicherheitsbewertung verstehen
Ueberzogene Verweigerung gleichberechtigt zur Nachgiebigkeit messen
Konsistenz als Sicherheits-KPI etablieren
Alignment-Methoden (Constitutional, RLHF, DPO) hinsichtlich Robustheit einordnen

Studienpassung

Wo dies in Dein Studium passt.

Schärft dieselben Fähigkeiten, die Dein Studium von Dir erwartet.

Machine Learning from Human Preferences (RLHF and Alignment)

Master · Ai Ml

Fit score: 1

Fähigkeiten

Fähigkeiten, die Du unter Beweis stellst.

Jede taucht auf Deinem verifizierten Zertifikat auf.

Karrieren

Berufe, auf die dies Dich vorbereitet.

Echte Berufsbezeichnungen. Echte Skill-Brücken. Wähle die, die Deinem Werdegang am nächsten kommt.

Karrierewege, die das aufbaut

Kanonische Rollen

KI-Sicherheits-Forschung
AI Research

AI Safety Researcher

Red-Teaming und Alignment-Eval sind genau die Arbeit, die AI Safety Researchers in Foundation-Laboren und Beratungen taeglich liefern.

Dieses Projekt schärft

red-teaming
alignment-evaluation
responsible-ai

ML Researcher

Praeferenz- und Alignment-Methoden in einem konsistenten Eval-Rahmen zu vergleichen ist Kerngebiet von ML Researchers in Alignment-Teams.

Dieses Projekt schärft

alignment-evaluation
preference-learning
evaluation-design

AI Engineer

Eval-Pipelines fuer LLM-Sicherheit produktnah zu bauen und reproduzierbar zu machen ist eine AI-Engineer-Faehigkeit, die in Enterprise-AI-Deployments unmittelbar gefragt wird.

Dieses Projekt schärft

evaluation-design
responsible-ai
python

Noch eine Sache

Du kannst ein Zertifikat bis Freitag in Deinem Lebenslauf haben.

Dieses Projekt starten