A/B test de chain-of-thought para soporte técnico
Visión general
De qué trata este proyecto.
Recibes 200 consultas reales del soporte telco (anonimizadas) clasificadas en simples (n=120) y complejas (n=80), con respuestas-oro escritas por un ingeniero senior. Implementa dos variantes del asistente: (A) prompt directo, (B) prompt con CoT explícito ('piensa paso a paso, luego responde'). Mide calidad con un LLM-as-judge calibrado contra 30 evaluaciones humanas, y latencia con 5 corridas por consulta. Reporta resultados estratificados (simples vs. complejas) con intervalos de confianza. Éxito = recomendación clara y defendible con análisis de costo-beneficio (calidad ganada vs. latencia y tokens extra).
El Briefing
Lo que harás y lo que demostrarás.
Decidir si chain-of-thought mejora un asistente de soporte telco, estratificando por dificultad de consulta y considerando latencia y coste.
Earning criteria — what you'll demonstrate
- Aplicar chain-of-thought y comprender cuándo ayuda y cuándo no
- Diseñar A/B tests honestos con estratificación apropiada
- Construir y calibrar un LLM-as-judge
- Comunicar trade-offs de latencia, coste y calidad a producto
Encaje académico
Dónde encaja esto en tus estudios.
Afina las mismas habilidades que tu titulación espera de ti.
Habilidades
Habilidades que demostrarás.
Cada una aparece en tu credencial verificada.
Carreras
Roles para los que esto te prepara.
Títulos reales. Puentes de habilidades reales. Elige el que más se acerque a tu trayectoria.
Trayectorias profesionales que esto construye
Roles canónicosIngeniero/a de Prompts
A/B testing riguroso de variantes de prompt con métricas estratificadas es exactamente el trabajo senior de un prompt engineer en consultoría AI.
Este proyecto afina
- prompt-engineering
- chain-of-thought
- evaluation
Gerente de Producto IA
Convertir un experimento técnico en una recomendación de producto con trade-off claro es competencia central del AI PM.
Este proyecto afina
- evaluation
- experiment-design
- chain-of-thought
Ingeniero/a de IA
Construir harnesses de evaluación con LLM-judge calibrado es competencia transversal de los AI engineers que sostienen sistemas LLM en producción.
Este proyecto afina
- llm-judge
- evaluation
- python