Diseño de evaluaciones de capacidad para un modelo open-source

FreeVerified credential3 semanasAdvanced

Start free

Start this challenge

Visión general

De qué trata este proyecto.

Diseña evaluaciones de 5 capacidades para un modelo open-source, mide resultados y recibe un certificado verificable.

CredentialBlockchain-anchored

ShareableLinkedIn-ready

LanguageEnglish

PaceSelf-paced

El Briefing

Lo que harás y lo que demostrarás.

Diseñar y ejecutar evaluaciones de cinco capacidades sobre un LLM open-source y producir una ficha de capacidades defendible para uso interno y comercial.

Earning criteria — what you'll demonstrate

Diseñar evaluaciones de capacidad para LLMs con niveles de dificultad
Reportar resultados con honestidad estadística
Conectar capacidades con afirmaciones aceptables en marketing
Anticipar fallos esperables y limitaciones documentadas

Encaje académico

Dónde encaja esto en tus estudios.

Afina las mismas habilidades que tu titulación espera de ti.

AI Safety and Alignment

Master · Ai Ml

Fit score: 1

Habilidades

Habilidades que demostrarás.

Cada una aparece en tu credencial verificada.

Carreras

Roles para los que esto te prepara.

Títulos reales. Puentes de habilidades reales. Elige el que más se acerque a tu trayectoria.

Trayectorias profesionales que esto construye

Roles canónicos

Científico/a Aplicado/a de IA
AI Research

Científico de Datos Aplicado a IA

Diseñar y ejecutar evaluaciones de capacidad sobre LLMs en producción es trabajo nuclear del rol aplicado en empresas que integran modelos open-source.

Este proyecto afina

capability-evaluation
experimental-design
llm-agents

Investigador de Seguridad de IA

La evaluación de rechazos correctos y la conexión con cumplimiento es palanca directa del rol de AI Safety Researcher en empresas con clientes regulados.

Este proyecto afina

capability-evaluation
ai-governance
model-evaluation

Ingeniero de Prompts

Diseñar casos de evaluación de capacidad y diagnosticar dónde el modelo falla por instrucción y dónde por capacidad es ejercicio directo de un Prompt Engineer senior.

Este proyecto afina

prompt-engineering
llm-agents
capability-evaluation

Una cosa más

Puedes tener una credencial en tu CV para el viernes.

Empezar este proyecto