Interpretierbarkeits-Analyse eines fein-justierten Sprachmodells
Übersicht
Worum es bei diesem Projekt geht.
Du erhältst Zugang zum Basismodell und zum fein-justierten Modell sowie zu einem kuratierten Probing-Datensatz (etwa 200 sorgfältig konstruierte Prompts pro Verhaltens-Kategorie). Führe drei Analysen durch: a) Activation Patching (Aktivierungs-Vertauschung — gezielter Austausch interner Aktivierungen zwischen den beiden Modellen, um zu lokalisieren, wo das Verhalten kodiert ist), b) Logit Lens (Projektion intermediärer Schicht-Aktivierungen auf die Vokabular-Verteilung, um die schichtweise Entwicklung der Vorhersage zu verfolgen), c) Attention-Pattern-Analyse auf ausgewählten Köpfen. Liefere eine Forschungs-Notiz mit konkreten Befunden und einer ehrlichen Diskussion, was diese Methoden NICHT zeigen können.
Das Briefing
Was Du tust und was Du zeigst.
Welche internen Veränderungen lassen sich zwischen einem Basismodell und seiner fein-justierten Variante mit etablierten Interpretierbarkeits-Methoden nachweisen — und wo enden diese Methoden?
Earning criteria — what you'll demonstrate
- Mechanistische Interpretierbarkeits-Methoden praktisch anwenden
- Activation Patching als Lokalisierungs-Werkzeug für Verhaltens-Unterschiede einsetzen
- Interpretierbarkeits-Befunde mit klarer methodischer Disziplin kommunizieren
- Grenzen der eigenen Werkzeuge ehrlich benennen
Studienpassung
Wo dies in Dein Studium passt.
Schärft dieselben Fähigkeiten, die Dein Studium von Dir erwartet.
Fähigkeiten
Fähigkeiten, die Du unter Beweis stellst.
Jede taucht auf Deinem verifizierten Zertifikat auf.
Karrieren
Berufe, auf die dies Dich vorbereitet.
Echte Berufsbezeichnungen. Echte Skill-Brücken. Wähle die, die Deinem Werdegang am nächsten kommt.
AI Safety Researcher
Mechanistische Interpretierbarkeit ist eines der aktivsten Forschungs-Felder der AI Safety. Diese Challenge übt die zentralen Methoden mit der methodischen Disziplin, die in der Community erwartet wird.
Dieses Projekt schärft
- mechanistic-interpretability
- activation-patching
- logit-lens
ML Researcher
Die saubere Methodik, ehrliche Limitierungs-Diskussion und reproduzierbare Veröffentlichung entsprechen den Standards aktueller ML-Konferenz-Papers.
Dieses Projekt schärft
- research-methodology
- scientific-writing
- attention-analysis
Research Scientist
Research Scientists in akademischen Alignment-Gruppen und in Foundation-Model-Laboren verbinden Methodenkenntnis und Forschungs-Disziplin — die Challenge ist ein realistischer Einstieg in diese Rolle.
Dieses Projekt schärft
- mechanistic-interpretability
- research-methodology
- scientific-writing
Noch eine Sache