Evaluación adversarial de un agente con herramientas peligrosas
Visión general
De qué trata este proyecto.
Recibirás acceso al agente de pruebas con 6 herramientas (mocks pero realistas) y un perfil de uso esperado. Construirás (1) una suite automatizada de 200 ataques generados por LLM agresor (prompt injection, jailbreak, herramientas concatenadas peligrosamente), (2) un red-team manual donde dos personas pasan 8 horas intentando romperlo y (3) un informe de severidad y mitigación. Evaluarás (a) tasa de éxito de cada categoría de ataque, (b) severidad (impacto real si pasara a producción), (c) coste de detectar cada fallo. El éxito es identificar y categorizar al menos 15 vulnerabilidades distintas con propuesta de mitigación accionable para cada una.
El Briefing
Lo que harás y lo que demostrarás.
Construir una suite de red-teaming automatizada y manual sobre un agente con herramientas peligrosas y entregar un informe de severidad con mitigaciones.
Earning criteria — what you'll demonstrate
- Diseñar ataques sistemáticos contra agentes con tool use
- Distinguir vulnerabilidades severidad alta vs. severidad baja con criterios claros
- Combinar evaluación automática y manual de forma complementaria
- Comunicar riesgos a un comité de seguridad con lenguaje accionable
Encaje académico
Dónde encaja esto en tus estudios.
Afina las mismas habilidades que tu titulación espera de ti.
Habilidades
Habilidades que demostrarás.
Cada una aparece en tu credencial verificada.
Carreras
Roles para los que esto te prepara.
Títulos reales. Puentes de habilidades reales. Elige el que más se acerque a tu trayectoria.
Trayectorias profesionales que esto construye
Roles canónicosInvestigador en Seguridad de IA
Red-teaming sistemático con clasificación de severidad y mitigaciones es el oficio nuclear de quien ejerce de AI Safety Researcher en producto.
Este proyecto afina
- red-teaming
- agent-safety
- adversarial-evaluation
AI Engineer
Cualquier AI Engineer que despliegue agentes con herramientas peligrosas necesita haber pasado por este ejercicio antes de release.
Este proyecto afina
- llm-agents
- agent-safety
- python
Prompt Engineer
Diseñar prompts agresores y mitigaciones a nivel sistema es trabajo Prompt Engineer aplicado a seguridad.
Este proyecto afina
- prompt-injection
- adversarial-evaluation
- llm-agents