Skip to contentSkip to content
Certificados verificados. En cadena. Para siempre.Más información
Cover image for Construye benchmark de razonamiento jurídico en español
Research

Construye benchmark de razonamiento jurídico en español

FreeVerified credential4 semanasAdvanced

Visión general

De qué trata este proyecto.

Trabajarás con 2 personas juristas colaboradoras del consorcio para co-curar 150 preguntas opción múltiple (con distractores plausibles) y 30 problemas largos con rúbrica de razonamiento. Los problemas cubren derecho civil de Argentina, España y México con énfasis en diferencias jurisdiccionales. Evaluarás 4 LLMs (GPT-4o, Claude Sonnet, Gemini 1.5 Pro, Llama-3 70B en HF). Para opción múltiple, accuracy automatizado; para problemas largos, juicios pareados por 2 juristas. Publicas resultados con metodología pública.

CredentialBlockchain-anchored
ShareableLinkedIn-ready
LanguageEnglish
PaceSelf-paced

El Briefing

Lo que harás y lo que demostrarás.

Producir un benchmark público y reproducible de razonamiento jurídico iberoamericano en español sobre 4 LLMs comerciales y abiertos.

Earning criteria — what you'll demonstrate

  • Co-diseñar benchmarks con personas expertas de dominio
  • Evaluar LLMs comerciales y abiertos con metodología pública
  • Combinar evaluación automática con juicios humanos pareados
  • Comunicar resultados a una comunidad profesional no técnica

Encaje académico

Dónde encaja esto en tus estudios.

Afina las mismas habilidades que tu titulación espera de ti.

Habilidades

Habilidades que demostrarás.

Cada una aparece en tu credencial verificada.

Carreras

Roles para los que esto te prepara.

Títulos reales. Puentes de habilidades reales. Elige el que más se acerque a tu trayectoria.

Ingeniera de Investigación Aplicada en IA

Construir benchmarks públicos y evaluar LLMs comerciales con rigor es el portafolio que diferencia a una applied AI scientist en legal-tech o sectores especializados.

Este proyecto afina

  • llm-evaluation
  • benchmarking
  • experiment-design

Investigadora de Ciencias

Co-diseño con expertas de dominio y publicación con licencia abierta es trabajo cotidiano de research scientists en colaboraciones academia-industria.

Este proyecto afina

  • annotation-design
  • evaluation
  • benchmarking

Ingeniera de Procesamiento de Lenguaje Natural

Construir pipelines de evaluación reproducibles es competencia central de NLP engineers que sostienen LLMs en producto.

Este proyecto afina

  • python
  • llm-evaluation
  • evaluation

Una cosa más

Puedes tener una credencial en tu CV para el viernes.