Diseña una evaluación honesta de un LLM generativo para una EdTech
Visión general
De qué trata este proyecto.
Recibirás un dataset propio de 800 problemas de matemáticas de 7º a 10º grado etiquetados por tema (álgebra, geometría, estadística) y dificultad. Diseña una evaluación multi-dimensional: (1) accuracy final, (2) accuracy de pasos intermedios (con LLM-as-judge separado), (3) tasa de alucinación (afirmaciones falsas en explicaciones), (4) consistencia (mismo problema, 5 corridas distintas). Ejecuta sobre Llama 3 8B y Llama 3 70B con prompting baseline y few-shot. Reporta por dimensión y por tema. Entrega también recomendaciones concretas: qué temas habilitar al lanzamiento, qué temas bloquear, qué guardrails añadir.
El Briefing
Lo que harás y lo que demostrarás.
Diseña y ejecuta evaluación multi-dimensional de un LLM generativo para tutorización matemática, con recomendaciones de lanzamiento.
Earning criteria — what you'll demonstrate
- Diseñar evaluación multi-dimensional de LLMs (no solo accuracy ciega)
- Aplicar LLM-as-judge correctamente (con sesgos identificados y mitigados)
- Detectar alucinaciones de forma sistemática
- Producir recomendaciones de lanzamiento defendibles basadas en evidencia
Encaje académico
Dónde encaja esto en tus estudios.
Afina las mismas habilidades que tu titulación espera de ti.
Habilidades
Habilidades que demostrarás.
Cada una aparece en tu credencial verificada.
Carreras
Roles para los que esto te prepara.
Títulos reales. Puentes de habilidades reales. Elige el que más se acerque a tu trayectoria.
Trayectorias profesionales que esto construye
Roles canónicosIngeniero de IA
Evaluación honesta de LLMs antes de lanzar es exactamente el trabajo del AI engineer en empresas que toman producto LLM en serio.
Este proyecto afina
- llm-evaluation
- prompt-engineering
- hallucination-detection
Ingeniero de Prompts
Diseñar prompting baseline + few-shot y medir consistencia es habilidad central del prompt engineer.
Este proyecto afina
- prompt-engineering
- llm-evaluation
- transformers
Investigador de Seguridad en IA
Detectar alucinaciones sistemáticamente y proponer guardrails es trabajo cotidiano del AI safety researcher en producto.
Este proyecto afina
- hallucination-detection
- llm-evaluation
- llm-as-judge