Diseña un eval set adversarial para un LLM de consejero financiero
Visión general
De qué trata este proyecto.
Diseñarás un eval set de 200 casos adversariales categorizados (consejo riesgoso, sesgo, filtración de información, idioma no estándar, jailbreak). Para cada caso definirás respuesta aceptable y rúbrica binaria de juicio. Probarás el modelo (GPT-4o-mini o Claude Haiku) en su prompt actual y reportarás tasas de fallo por categoría. Propondrás guardrails: cambios en system prompt + filtros pre/post. Re-evaluarás tras los cambios y entregarás el reporte con la tasa de mejora.
El Briefing
Lo que harás y lo que demostrarás.
Construir un eval set adversarial para un LLM de educación financiera y demostrar mejora medible tras la introducción de guardrails.
Earning criteria — what you'll demonstrate
- Diseñar eval sets adversariales para LLMs en dominio sensible
- Aplicar técnicas básicas de red-teaming a un asistente conversacional
- Construir guardrails de prompt y filtros pre/post
- Medir mejora honestamente y reportar a un comité no técnico
Encaje académico
Dónde encaja esto en tus estudios.
Afina las mismas habilidades que tu titulación espera de ti.
Habilidades
Habilidades que demostrarás.
Cada una aparece en tu credencial verificada.
Carreras
Roles para los que esto te prepara.
Títulos reales. Puentes de habilidades reales. Elige el que más se acerque a tu trayectoria.
Trayectorias profesionales que esto construye
Roles canónicosInvestigadora de Seguridad de IA
Construir eval sets adversariales y demostrar mejora antes/después es el trabajo más solicitado para safety researchers en producto regulado.
Este proyecto afina
- red-teaming
- llm-evaluation
- alignment
Ingeniera de Prompts
Iterar guardrails de system prompt y validarlos contra eval set adversarial es el día a día de una prompt engineer sénior en fintech.
Este proyecto afina
- prompt-engineering
- llm-evaluation
- evaluation
Ingeniera de IA
Empaquetar evaluaciones y guardrails como pipeline automatizado es el trabajo de plomería que AI engineers entregan para sostener LLMs en producción.
Este proyecto afina
- python
- llm-evaluation
- prompt-engineering