Diseño de evaluaciones de capacidad para un modelo open-source
Visión general
De qué trata este proyecto.
Elige uno de los tres modelos open-source proporcionados. Diseña un conjunto de evaluaciones que cubra cinco capacidades: razonamiento numérico, generación y depuración de código, uso de herramientas estructurado, instrucciones largas complejas y rechazos correctos ante peticiones peligrosas. Para cada capacidad, define tres niveles de dificultad y al menos 20 casos por nivel. Ejecuta y reporta resultados con intervalos de confianza. Cierra con una ficha de capacidades de cinco páginas adecuada para uso interno y comercial.
El Briefing
Lo que harás y lo que demostrarás.
Diseñar y ejecutar evaluaciones de cinco capacidades sobre un LLM open-source y producir una ficha de capacidades defendible para uso interno y comercial.
Earning criteria — what you'll demonstrate
- Diseñar evaluaciones de capacidad para LLMs con niveles de dificultad
- Reportar resultados con honestidad estadística
- Conectar capacidades con afirmaciones aceptables en marketing
- Anticipar fallos esperables y limitaciones documentadas
Encaje académico
Dónde encaja esto en tus estudios.
Afina las mismas habilidades que tu titulación espera de ti.
Habilidades
Habilidades que demostrarás.
Cada una aparece en tu credencial verificada.
Carreras
Roles para los que esto te prepara.
Títulos reales. Puentes de habilidades reales. Elige el que más se acerque a tu trayectoria.
Trayectorias profesionales que esto construye
Roles canónicosCientífico de Datos Aplicado a IA
Diseñar y ejecutar evaluaciones de capacidad sobre LLMs en producción es trabajo nuclear del rol aplicado en empresas que integran modelos open-source.
Este proyecto afina
- capability-evaluation
- experimental-design
- llm-agents
Investigador de Seguridad de IA
La evaluación de rechazos correctos y la conexión con cumplimiento es palanca directa del rol de AI Safety Researcher en empresas con clientes regulados.
Este proyecto afina
- capability-evaluation
- ai-governance
- model-evaluation
Ingeniero de Prompts
Diseñar casos de evaluación de capacidad y diagnosticar dónde el modelo falla por instrucción y dónde por capacidad es ejercicio directo de un Prompt Engineer senior.
Este proyecto afina
- prompt-engineering
- llm-agents
- capability-evaluation