Skip to contentSkip to content
Certificados verificados. En cadena. Para siempre.Más información
Cover image for Diseña una evaluación honesta de un LLM generativo para una EdTech
Research

Diseña una evaluación honesta de un LLM generativo para una EdTech

FreeVerified credential3 semanasAdvanced

Visión general

De qué trata este proyecto.

Recibirás un dataset propio de 800 problemas de matemáticas de 7º a 10º grado etiquetados por tema (álgebra, geometría, estadística) y dificultad. Diseña una evaluación multi-dimensional: (1) accuracy final, (2) accuracy de pasos intermedios (con LLM-as-judge separado), (3) tasa de alucinación (afirmaciones falsas en explicaciones), (4) consistencia (mismo problema, 5 corridas distintas). Ejecuta sobre Llama 3 8B y Llama 3 70B con prompting baseline y few-shot. Reporta por dimensión y por tema. Entrega también recomendaciones concretas: qué temas habilitar al lanzamiento, qué temas bloquear, qué guardrails añadir.

CredentialBlockchain-anchored
ShareableLinkedIn-ready
LanguageEnglish
PaceSelf-paced

El Briefing

Lo que harás y lo que demostrarás.

Diseña y ejecuta evaluación multi-dimensional de un LLM generativo para tutorización matemática, con recomendaciones de lanzamiento.

Earning criteria — what you'll demonstrate

  • Diseñar evaluación multi-dimensional de LLMs (no solo accuracy ciega)
  • Aplicar LLM-as-judge correctamente (con sesgos identificados y mitigados)
  • Detectar alucinaciones de forma sistemática
  • Producir recomendaciones de lanzamiento defendibles basadas en evidencia

Encaje académico

Dónde encaja esto en tus estudios.

Afina las mismas habilidades que tu titulación espera de ti.

Carreras

Roles para los que esto te prepara.

Títulos reales. Puentes de habilidades reales. Elige el que más se acerque a tu trayectoria.

Trayectorias profesionales que esto construye

Roles canónicos

Ingeniero de IA

Evaluación honesta de LLMs antes de lanzar es exactamente el trabajo del AI engineer en empresas que toman producto LLM en serio.

Este proyecto afina

  • llm-evaluation
  • prompt-engineering
  • hallucination-detection

Ingeniero de Prompts

Diseñar prompting baseline + few-shot y medir consistencia es habilidad central del prompt engineer.

Este proyecto afina

  • prompt-engineering
  • llm-evaluation
  • transformers

Investigador de Seguridad en IA

Detectar alucinaciones sistemáticamente y proponer guardrails es trabajo cotidiano del AI safety researcher en producto.

Este proyecto afina

  • hallucination-detection
  • llm-evaluation
  • llm-as-judge

Una cosa más

Puedes tener una credencial en tu CV para el viernes.