Extrae cláusulas críticas de contratos con NLP supervisado
Visión general
De qué trata este proyecto.
Recibirás 1.500 contratos comerciales en español anonimizados con cláusulas anotadas por jurista (spans con tipo de cláusula). Entrenarás un modelo de extracción tipo BERT (RoBERTa-base en español o XLM-RoBERTa) afinado para token classification (BIO). Reportarás F1 por tipo de cláusula, errores típicos y umbral de confianza para enviar a revisión humana. Diseñarás una pequeña interfaz Streamlit para que la persona jurista corrija extracciones y ese feedback alimente futuras iteraciones.
El Briefing
Lo que harás y lo que demostrarás.
Construir un extractor supervisado de cláusulas críticas con F1 macro >= 0.80 y umbral operativo de envío a revisión humana.
Earning criteria — what you'll demonstrate
- Aplicar token classification (BIO) a un dominio jurídico real
- Trabajar con datasets anotados por personas expertas y agreement
- Calibrar umbrales de confianza para flujos human-in-the-loop
- Comunicar errores típicos a personas usuarias no técnicas
Encaje académico
Dónde encaja esto en tus estudios.
Afina las mismas habilidades que tu titulación espera de ti.
Habilidades
Habilidades que demostrarás.
Cada una aparece en tu credencial verificada.
Carreras
Roles para los que esto te prepara.
Títulos reales. Puentes de habilidades reales. Elige el que más se acerque a tu trayectoria.
Trayectorias profesionales que esto construye
Roles canónicosIngeniera de Procesamiento de Lenguaje Natural
Token classification supervisado en dominio jurídico es el portafolio canónico de NLP engineers en legal-tech.
Este proyecto afina
- token-classification
- information-extraction
- transformers
Ingeniera de Aprendizaje Automático
Calibrar umbrales y empaquetar el modelo para integración human-in-the-loop es competencia central de ML engineers que cierran el bucle a producto.
Este proyecto afina
- pytorch
- evaluation
- human-in-the-loop
Ingeniera de IA
Construir la interfaz de revisión es la clase de glue work que AI engineers entregan al integrar IA en flujos profesionales.
Este proyecto afina
- human-in-the-loop
- information-extraction
- evaluation