DPO vs. PPO sobre un modelo base abierto

FreeVerified credential4 semanasExpert

Visión general

De qué trata este proyecto.

Entrena PPO y DPO sobre un modelo base abierto con datos PT-BR, evalúa resultados educativos y obtén un certificado verificable.

CredentialBlockchain-anchored

ShareableLinkedIn-ready

LanguageEnglish

PaceSelf-paced

El Briefing

Lo que harás y lo que demostrarás.

Comparar PPO y DPO sobre el mismo modelo base y dataset PT-BR, midiendo calidad, costo y complejidad para recomendar método interno.

Earning criteria — what you'll demonstrate

Implementar PPO con Reward Model + KL penalty
Implementar DPO como alternativa directa sin RM separado
Comparar métodos de alineación honestamente (calidad + costo)
Comunicar decisiones de plataforma con trade-offs explícitos

Encaje académico

Dónde encaja esto en tus estudios.

Afina las mismas habilidades que tu titulación espera de ti.

Machine Learning from Human Preferences (RLHF and Alignment)

Master · Ai Ml

Fit score: 1

Habilidades

Habilidades que demostrarás.

Cada una aparece en tu credencial verificada.

Carreras

Roles para los que esto te prepara.

Títulos reales. Puentes de habilidades reales. Elige el que más se acerque a tu trayectoria.

Trayectorias profesionales que esto construye

Roles canónicos

Investigador/a de Machine Learning
AI Research

Investigador/a de Machine Learning

Comparar métodos de alineación con rigor y producir un memo de plataforma es exactamente el trabajo de un ML researcher en labs internos de empresas LLM.

Este proyecto afina

rlhf
dpo
ppo

Científico/a de Investigación

Diseñar comparación controlada de PPO vs. DPO con análisis de fallos cualitativos emula la rigurosidad esperada de un research scientist.

Este proyecto afina

preference-learning
rlhf
evaluation

Ingeniero/a de Machine Learning

Llevar PPO y DPO a producción con análisis de costo y memoria es trabajo nuclear del MLE en infraestructura LLM.

Este proyecto afina

fine-tuning
rlhf
dpo

Investigador/a en Seguridad de IA

Evaluar alineación con prompts difíciles y analizar fallos cualitativos es competencia central del AI safety researcher.

Este proyecto afina

rlhf
evaluation
preference-learning

Una cosa más

Puedes tener una credencial en tu CV para el viernes.

Empezar este proyecto