Skip to contentSkip to content
Certificados verificados. En cadena. Para siempre.Más información
Cover image for DPO vs. PPO sobre un modelo base abierto
Research

DPO vs. PPO sobre un modelo base abierto

FreeVerified credential4 semanasExpert

Visión general

De qué trata este proyecto.

En equipo de 2-3, recibes un modelo base abierto pequeño (Qwen2.5-1.5B o Phi-3-mini) y un dataset de preferencias PT-BR de ~8.000 pares construido en una iteración anterior. Entrena: (A) PPO con Reward Model + KL penalty, (B) DPO directo. Evalúa con: win rate sobre 200 prompts comparando A vs. B vs. base, accuracy en bench educativo PT (puede ser un subset de ENEM o equivalente). Mide también complejidad operativa (líneas de código, tiempo wall-clock, picos de memoria). Éxito = comparación honesta con recomendación defendible y reporte de trade-offs.

CredentialBlockchain-anchored
ShareableLinkedIn-ready
LanguageEnglish
PaceSelf-paced

El Briefing

Lo que harás y lo que demostrarás.

Comparar PPO y DPO sobre el mismo modelo base y dataset PT-BR, midiendo calidad, costo y complejidad para recomendar método interno.

Earning criteria — what you'll demonstrate

  • Implementar PPO con Reward Model + KL penalty
  • Implementar DPO como alternativa directa sin RM separado
  • Comparar métodos de alineación honestamente (calidad + costo)
  • Comunicar decisiones de plataforma con trade-offs explícitos

Encaje académico

Dónde encaja esto en tus estudios.

Afina las mismas habilidades que tu titulación espera de ti.

Habilidades

Habilidades que demostrarás.

Cada una aparece en tu credencial verificada.

Carreras

Roles para los que esto te prepara.

Títulos reales. Puentes de habilidades reales. Elige el que más se acerque a tu trayectoria.

Trayectorias profesionales que esto construye

Roles canónicos

Investigador/a de Machine Learning

Comparar métodos de alineación con rigor y producir un memo de plataforma es exactamente el trabajo de un ML researcher en labs internos de empresas LLM.

Este proyecto afina

  • rlhf
  • dpo
  • ppo

Científico/a de Investigación

Diseñar comparación controlada de PPO vs. DPO con análisis de fallos cualitativos emula la rigurosidad esperada de un research scientist.

Este proyecto afina

  • preference-learning
  • rlhf
  • evaluation

Ingeniero/a de Machine Learning

Llevar PPO y DPO a producción con análisis de costo y memoria es trabajo nuclear del MLE en infraestructura LLM.

Este proyecto afina

  • fine-tuning
  • rlhf
  • dpo

Investigador/a en Seguridad de IA

Evaluar alineación con prompts difíciles y analizar fallos cualitativos es competencia central del AI safety researcher.

Este proyecto afina

  • rlhf
  • evaluation
  • preference-learning

Una cosa más

Puedes tener una credencial en tu CV para el viernes.