Red-teaming sistemático de un asistente conversacional regulado
Visión general
De qué trata este proyecto.
Recibes acceso a un asistente equivalente open-source y una lista priorizada de categorías de daño (información peligrosa, manipulación, contenido sexualizado, sesgos, fuga de datos). Diseña una taxonomía de ataques (jailbreaks directos, indirectos vía instrucciones embebidas, escalado de privilegios conversacional). Ejecuta al menos 200 intentos documentados, con plantillas reusables. Reporta tasa de éxito por categoría, severidad estimada y patrones recurrentes. Cierra con una memoria de ocho páginas que proponga el protocolo interno y diez salvaguardas concretas en orden de prioridad.
El Briefing
Lo que harás y lo que demostrarás.
Diseñar y ejecutar un protocolo de red-teaming reproducible sobre un asistente conversacional con taxonomía, severidad y propuesta de salvaguardas priorizadas.
Earning criteria — what you'll demonstrate
- Diseñar campañas de red-teaming sistemático y reproducible
- Construir taxonomías útiles de modos de fallo en LLMs
- Estimar severidad con criterios trazables
- Conectar hallazgos con salvaguardas concretas en producto
Encaje académico
Dónde encaja esto en tus estudios.
Afina las mismas habilidades que tu titulación espera de ti.
Habilidades
Habilidades que demostrarás.
Cada una aparece en tu credencial verificada.
Carreras
Roles para los que esto te prepara.
Títulos reales. Puentes de habilidades reales. Elige el que más se acerque a tu trayectoria.
Trayectorias profesionales que esto construye
Roles canónicosInvestigador de Seguridad de IA
Diseñar protocolos de red-teaming reproducibles y proponer salvaguardas es trabajo nuclear del rol de AI Safety Researcher en laboratorios de modelos foundation.
Este proyecto afina
- red-teaming
- jailbreak-defense
- ai-governance
Ingeniero de IA
La implementación técnica de las salvaguardas propuestas cae sobre el rol de AI Engineer y exige la taxonomía clara producida en este reto.
Este proyecto afina
- llm-agents
- jailbreak-defense
- risk-assessment
Investigador de Machine Learning
Construir baterías de evaluación reproducibles para LLMs es ejercicio directo del rol de ML Researcher en seguridad y alineamiento.
Este proyecto afina
- experimental-design
- red-teaming
- ai-governance