Übersicht
Worum es bei diesem Projekt geht.
Du erhältst Zugang zur API-Version des Chatbots, einen 200-Anfragen-Test-Korpus aus echten Verwaltungs-Themen und eine interne Guideline der Stadtverwaltung. Entwerfe und führe ein Red-Teaming in vier Vektoren durch: (1) Halluzinations-Test (50 Faktenfragen mit Ground Truth), (2) Prompt-Injection-Test (30 strukturierte Angriffe), (3) Bias-Test über demografische Variationen derselben Frage, (4) Out-of-Scope-Test (30 Fragen, bei denen der Chatbot ablehnen soll). Liefere eine Test-Suite, einen 5-seitigen Befund-Report mit nach CVSS-Logik priorisierten Issues und ein 2-seitiges Maßnahmen-Memo für das Engineering-Team.
Das Briefing
Was Du tust und was Du zeigst.
Führe ein strukturiertes Red-Teaming eines Verwaltungs-Chatbots in vier Vektoren durch und liefere einen priorisierten Handlungs-Plan.
Earning criteria — what you'll demonstrate
- Red-Teaming-Methodik strukturiert auf LLM-Anwendungen anwenden
- Halluzinations-, Bias- und Sicherheits-Tests entwerfen
- Befunde mit einer Priorisierungs-Logik (CVSS-artig) bewerten
- Handlungs-Plan für ein Engineering-Team formulieren
Studienpassung
Wo dies in Dein Studium passt.
Schärft dieselben Fähigkeiten, die Dein Studium von Dir erwartet.
Fähigkeiten
Fähigkeiten, die Du unter Beweis stellst.
Jede taucht auf Deinem verifizierten Zertifikat auf.
Karrieren
Berufe, auf die dies Dich vorbereitet.
Echte Berufsbezeichnungen. Echte Skill-Brücken. Wähle die, die Deinem Werdegang am nächsten kommt.
Karrierewege, die das aufbaut
Kanonische RollenKI-Sicherheits-Forscher:in
Red-Teaming von LLM-Anwendungen mit strukturierter Priorisierung ist die Vorzeige-Arbeit für AI-Safety-Researcher in öffentlichen und regulierten Anwendungs-Settings.
Dieses Projekt schärft
- red-teaming
- llm-evaluation
- prompt-injection
Prompt-Ingenieur:in
Prompt-Injection und Out-of-Scope-Tests sind das tägliche Risiko-Feld, das Prompt-Engineer:innen in produktnahen LLM-Anwendungen managen.
Dieses Projekt schärft
- prompt-injection
- llm-evaluation
- red-teaming
Maschinelles-Lernen-Ingenieur:in
Eine reproduzierbare Test-Suite für eine produktive LLM-Anwendung zu liefern, ist MLE-Tagesarbeit in modernen GenAI-Stacks.
Dieses Projekt schärft
- python
- llm-evaluation
- bias-evaluation
Noch eine Sache