Curación de Dataset y Recipe-tuning para Modelo Médico-Educativo Anonimizado
Visión general
De qué trata este proyecto.
Recibirás un dump bruto de ~80.000 preguntas y respuestas educativas en castellano (calidad heterogénea) y un modelo base 7B. Diseña la receta de curación: deduplicación por hashing semántico, filtrado por longitud y toxicidad, balanceo por especialidad, y un sample 5% de revisión manual con plantilla. Aplica SFT con LoRA al dataset curado y compara con un baseline entrenado sobre el dump bruto. Mide perplejidad, accuracy en un mini-benchmark médico y, crucialmente, tasa de respuestas no contestables marcadas con ‘no lo sé’. Entrega playbook, notebook y memo.
El Briefing
Lo que harás y lo que demostrarás.
Diseña una receta de curación de datos reproducible y demuestra su impacto sobre un fine-tuning controlado.
Earning criteria — what you'll demonstrate
- Diseñar curación de datos para SFT con deduplicación, filtrado y balanceo
- Aplicar SFT con LoRA y comparar contra baseline ruidoso
- Medir el impacto de calidad de datos sobre métricas de modelo
- Documentar un proceso para que otra persona del equipo lo repita
Encaje académico
Dónde encaja esto en tus estudios.
Afina las mismas habilidades que tu titulación espera de ti.
Habilidades
Habilidades que demostrarás.
Cada una aparece en tu credencial verificada.
Carreras
Roles para los que esto te prepara.
Títulos reales. Puentes de habilidades reales. Elige el que más se acerque a tu trayectoria.
Trayectorias profesionales que esto construye
Roles canónicosIngeniero NLP
Curación de datos para SFT es trabajo cotidiano del NLP Engineer en foundation labs y enterprise.
Este proyecto afina
- dataset-curation
- supervised-fine-tuning
- data-quality
Ingeniero de Datos
Diseñar playbooks reproducibles de procesamiento masivo es trabajo del Data Engineer en proyectos LLM.
Este proyecto afina
- dataset-curation
- data-quality
- huggingface
Científico en IA Aplicada
Cuantificar el impacto de calidad de datos sobre métricas es trabajo del Applied AI Scientist.
Este proyecto afina
- evaluation
- lora
- dataset-curation