Interpretierbarkeits-Analyse eines fein-justierten Sprachmodells

FreeVerified credential4 WochenExpert

Übersicht

Worum es bei diesem Projekt geht.

Du erhältst Zugang zum Basismodell und zum fein-justierten Modell sowie zu einem kuratierten Probing-Datensatz (etwa 200 sorgfältig konstruierte Prompts pro Verhaltens-Kategorie). Führe drei Analysen durch: a) Activation Patching (Aktivierungs-Vertauschung — gezielter Austausch interner Aktivierungen zwischen den beiden Modellen, um zu lokalisieren, wo das Verhalten kodiert ist), b) Logit Lens (Projektion intermediärer Schicht-Aktivierungen auf die Vokabular-Verteilung, um die schichtweise Entwicklung der Vorhersage zu verfolgen), c) Attention-Pattern-Analyse auf ausgewählten Köpfen. Liefere eine Forschungs-Notiz mit konkreten Befunden und einer ehrlichen Diskussion, was diese Methoden NICHT zeigen können.

CredentialBlockchain-anchored

ShareableLinkedIn-ready

LanguageEnglish

PaceSelf-paced

Das Briefing

Was Du tust und was Du zeigst.

Welche internen Veränderungen lassen sich zwischen einem Basismodell und seiner fein-justierten Variante mit etablierten Interpretierbarkeits-Methoden nachweisen — und wo enden diese Methoden?

Earning criteria — what you'll demonstrate

Mechanistische Interpretierbarkeits-Methoden praktisch anwenden
Activation Patching als Lokalisierungs-Werkzeug für Verhaltens-Unterschiede einsetzen
Interpretierbarkeits-Befunde mit klarer methodischer Disziplin kommunizieren
Grenzen der eigenen Werkzeuge ehrlich benennen

Studienpassung

Wo dies in Dein Studium passt.

Schärft dieselben Fähigkeiten, die Dein Studium von Dir erwartet.

AI Safety and Alignment

Master · Ai Ml

Fit score: 1

Fähigkeiten

Fähigkeiten, die Du unter Beweis stellst.

Jede taucht auf Deinem verifizierten Zertifikat auf.

Research

Karrieren

Berufe, auf die dies Dich vorbereitet.

Echte Berufsbezeichnungen. Echte Skill-Brücken. Wähle die, die Deinem Werdegang am nächsten kommt.

AI Safety Researcher

Mechanistische Interpretierbarkeit ist eines der aktivsten Forschungs-Felder der AI Safety. Diese Challenge übt die zentralen Methoden mit der methodischen Disziplin, die in der Community erwartet wird.

Dieses Projekt schärft

mechanistic-interpretability
activation-patching
logit-lens

ML Researcher

Die saubere Methodik, ehrliche Limitierungs-Diskussion und reproduzierbare Veröffentlichung entsprechen den Standards aktueller ML-Konferenz-Papers.

Dieses Projekt schärft

research-methodology
scientific-writing
attention-analysis

Research Scientist

Research Scientists in akademischen Alignment-Gruppen und in Foundation-Model-Laboren verbinden Methodenkenntnis und Forschungs-Disziplin — die Challenge ist ein realistischer Einstieg in diese Rolle.

Dieses Projekt schärft

mechanistic-interpretability
research-methodology
scientific-writing

Noch eine Sache

Du kannst ein Zertifikat bis Freitag in Deinem Lebenslauf haben.

Dieses Projekt starten