Übersicht
Worum es bei diesem Projekt geht.
Du erhältst 500 historische Pull-Request-Vorschläge mit menschlichen Sicherheits-Bewertungen ('sicher', 'grenzwertig', 'kritisch'). Entwirf eine Pipeline mit drei Stufen: 1) Vorab-Filter mit einem leichtgewichtigen Klassifikator, 2) Debate-Stufe — zwei LLM-Instanzen argumentieren pro/contra Sicherheit eines PR-Vorschlags, 3) menschliche Aufsicht nur auf den 5 Prozent strittigsten Fällen. Implementiere die Pipeline als funktionierenden Prototyp. Vergleiche die Erkennungsrate kritischer PRs mit einer einstufigen Klassifikator-Baseline. Diskutiere die Skalierungseigenschaften und benenne, wann die Pipeline an ihre Grenzen stößt.
Das Briefing
Was Du tust und was Du zeigst.
Wie kombiniert man Vorab-Klassifikation, Debate-Argumentation und gezielte menschliche Aufsicht zu einer Pipeline, die täglich 10.000 PR-Vorschläge sicher bewertet?
Earning criteria — what you'll demonstrate
- Scalable-Oversight-Ansätze konkret in eine Pipeline überführen
- Debate-Mechaniken als Bewertungs-Werkzeug nutzen
- Skalierungs-Eigenschaften menschlicher Aufsicht quantitativ erfassen
- Pipeline-Empfehlungen mit klarer Grenz-Diskussion formulieren
Studienpassung
Wo dies in Dein Studium passt.
Schärft dieselben Fähigkeiten, die Dein Studium von Dir erwartet.
Fähigkeiten
Fähigkeiten, die Du unter Beweis stellst.
Jede taucht auf Deinem verifizierten Zertifikat auf.
Karrieren
Berufe, auf die dies Dich vorbereitet.
Echte Berufsbezeichnungen. Echte Skill-Brücken. Wähle die, die Deinem Werdegang am nächsten kommt.
AI Safety Researcher
Scalable Oversight ist eines der zentralen Forschungs- und Anwendungsfelder moderner AI Safety. Die Challenge übt die direkte Umsetzung von Forschungs-Ideen in einer Engineering-Pipeline.
Dieses Projekt schärft
- scalable-oversight
- debate-methods
- iterated-distillation
AI Engineer
AI Engineers, die produktive LLM-Pipelines betreuen, brauchen genau diese Art von Mehrstufen-Architektur. Die Challenge baut die Werkzeug- und Bewertungs-Kompetenz dafür auf.
Dieses Projekt schärft
- pipeline-design
- llm-evaluation
- python
MLOps Engineer
MLOps Engineers im Sicherheits-Kontext verantworten die Skalierungs-Eigenschaften und das Monitoring solcher Pipelines. Die Skalierungs-Analyse dieser Challenge ist die direkte Brücke.
Dieses Projekt schärft
- pipeline-design
- safety-evaluation
- scalable-oversight
Noch eine Sache