Análisis interpretabilidad mecánica de un modelo pequeño
Visión general
De qué trata este proyecto.
Elige una tarea sencilla bien estudiada (por ejemplo predicción del último token de una secuencia aritmética o resolución de pronombres en frases cortas). Sobre un Transformer pequeño open-source, aplica técnicas estándar de interpretabilidad (activation patching, attention pattern analysis, logit lens) para identificar al menos un circuito interno responsable de la tarea. Documenta cada decisión, valida con intervenciones causales y compara con resultados publicados. Cierra con un tutorial reproducible de ocho páginas con notebooks anexos.
El Briefing
Lo que harás y lo que demostrarás.
Replicar un experimento clásico de interpretabilidad mecánica sobre un Transformer pequeño, identificar al menos un circuito y producir un tutorial reproducible.
Earning criteria — what you'll demonstrate
- Aplicar técnicas estándar de interpretabilidad mecánica
- Validar hipótesis sobre circuitos con intervenciones causales
- Reproducir hallazgos publicados con rigor
- Producir material reproducible que un nuevo investigador pueda seguir
Encaje académico
Dónde encaja esto en tus estudios.
Afina las mismas habilidades que tu titulación espera de ti.
Habilidades
Habilidades que demostrarás.
Cada una aparece en tu credencial verificada.
Carreras
Roles para los que esto te prepara.
Títulos reales. Puentes de habilidades reales. Elige el que más se acerque a tu trayectoria.
Trayectorias profesionales que esto construye
Roles canónicosInvestigador de Machine Learning
Replicar experimentos de interpretabilidad mecánica y producir material reproducible es trabajo directo de un ML Researcher en safety y alineamiento.
Este proyecto afina
- mechanistic-interpretability
- transformer-internals
- experimental-design
Investigador de Seguridad de IA
La interpretabilidad para safety conecta directamente con el rol de AI Safety Researcher en laboratorios de modelos foundation.
Este proyecto afina
- mechanistic-interpretability
- deep-learning
- scientific-communication
Investigador Científico
Producir tutoriales reproducibles que escalen el conocimiento a nuevas cohortes es competencia diferencial del rol de Research Scientist.
Este proyecto afina
- scientific-communication
- experimental-design
- transformer-internals