Construye benchmark de razonamiento jurídico en español
Visión general
De qué trata este proyecto.
Trabajarás con 2 personas juristas colaboradoras del consorcio para co-curar 150 preguntas opción múltiple (con distractores plausibles) y 30 problemas largos con rúbrica de razonamiento. Los problemas cubren derecho civil de Argentina, España y México con énfasis en diferencias jurisdiccionales. Evaluarás 4 LLMs (GPT-4o, Claude Sonnet, Gemini 1.5 Pro, Llama-3 70B en HF). Para opción múltiple, accuracy automatizado; para problemas largos, juicios pareados por 2 juristas. Publicas resultados con metodología pública.
El Briefing
Lo que harás y lo que demostrarás.
Producir un benchmark público y reproducible de razonamiento jurídico iberoamericano en español sobre 4 LLMs comerciales y abiertos.
Earning criteria — what you'll demonstrate
- Co-diseñar benchmarks con personas expertas de dominio
- Evaluar LLMs comerciales y abiertos con metodología pública
- Combinar evaluación automática con juicios humanos pareados
- Comunicar resultados a una comunidad profesional no técnica
Encaje académico
Dónde encaja esto en tus estudios.
Afina las mismas habilidades que tu titulación espera de ti.
Habilidades
Habilidades que demostrarás.
Cada una aparece en tu credencial verificada.
Carreras
Roles para los que esto te prepara.
Títulos reales. Puentes de habilidades reales. Elige el que más se acerque a tu trayectoria.
Ingeniera de Investigación Aplicada en IA
Construir benchmarks públicos y evaluar LLMs comerciales con rigor es el portafolio que diferencia a una applied AI scientist en legal-tech o sectores especializados.
Este proyecto afina
- llm-evaluation
- benchmarking
- experiment-design
Investigadora de Ciencias
Co-diseño con expertas de dominio y publicación con licencia abierta es trabajo cotidiano de research scientists en colaboraciones academia-industria.
Este proyecto afina
- annotation-design
- evaluation
- benchmarking
Ingeniera de Procesamiento de Lenguaje Natural
Construir pipelines de evaluación reproducibles es competencia central de NLP engineers que sostienen LLMs en producto.
Este proyecto afina
- python
- llm-evaluation
- evaluation