Visión general
De qué trata este proyecto.
Entrenarás transformers GPT-style desde cero en 3 tamaños (1M, 10M, 100M parámetros) sobre subsets de OpenWebText o C4 en 3 tamaños (100M, 1B, 10B tokens). Ejecutarás los 9 cruces con cómputo limitado (una L4 o A10G por experimento). Reportarás curva loss vs. cómputo (FLOPs) y discutirás si tu evidencia se alinea con Chinchilla/Hoffmann o no. Eres honesto sobre los límites de un experimento a esta escala.
El Briefing
Lo que harás y lo que demostrarás.
Producir evidencia empírica honesta sobre cómo escala la pérdida de transformers pequeños con datos, parámetros y cómputo a escala accesible.
Earning criteria — what you'll demonstrate
- Implementar y depurar el bucle de pre-entrenamiento de transformers desde cero
- Diseñar experimentos controlados de scaling con presupuesto limitado
- Interpretar curvas de loss vs. cómputo y dialogar con la literatura existente
- Reportar limitaciones de un estudio académico de baja escala
Encaje académico
Dónde encaja esto en tus estudios.
Afina las mismas habilidades que tu titulación espera de ti.
Habilidades
Habilidades que demostrarás.
Cada una aparece en tu credencial verificada.
Carreras
Roles para los que esto te prepara.
Títulos reales. Puentes de habilidades reales. Elige el que más se acerque a tu trayectoria.
Ingeniera de Investigación en IA
Reproducir scaling experiments a escala accesible es el músculo central de cualquier ML researcher que quiera publicar trabajo empírico sólido.
Este proyecto afina
- scaling-laws
- transformers
- experiment-design
Investigadora de Ciencias
Diseñar experimentos controlados y reportar honestamente limitaciones es trabajo cotidiano de research scientists en grupos académicos e industriales.
Este proyecto afina
- experiment-design
- evaluation
- pretraining
Ingeniera de Investigación Aplicada en IA
Dominar el bucle de pre-entrenamiento conecta con applied AI scientists en laboratorios industriales con cómputo limitado.
Este proyecto afina
- pytorch
- pretraining
- transformers