Skip to contentSkip to content
Certificados verificados. En cadena. Para siempre.Más información
Cover image for Curación de Dataset y Recipe-tuning para Modelo Médico-Educativo Anonimizado
Analysis

Curación de Dataset y Recipe-tuning para Modelo Médico-Educativo Anonimizado

FreeVerified credential3 semanasAdvanced

Visión general

De qué trata este proyecto.

Recibirás un dump bruto de ~80.000 preguntas y respuestas educativas en castellano (calidad heterogénea) y un modelo base 7B. Diseña la receta de curación: deduplicación por hashing semántico, filtrado por longitud y toxicidad, balanceo por especialidad, y un sample 5% de revisión manual con plantilla. Aplica SFT con LoRA al dataset curado y compara con un baseline entrenado sobre el dump bruto. Mide perplejidad, accuracy en un mini-benchmark médico y, crucialmente, tasa de respuestas no contestables marcadas con ‘no lo sé’. Entrega playbook, notebook y memo.

CredentialBlockchain-anchored
ShareableLinkedIn-ready
LanguageEnglish
PaceSelf-paced

El Briefing

Lo que harás y lo que demostrarás.

Diseña una receta de curación de datos reproducible y demuestra su impacto sobre un fine-tuning controlado.

Earning criteria — what you'll demonstrate

  • Diseñar curación de datos para SFT con deduplicación, filtrado y balanceo
  • Aplicar SFT con LoRA y comparar contra baseline ruidoso
  • Medir el impacto de calidad de datos sobre métricas de modelo
  • Documentar un proceso para que otra persona del equipo lo repita

Encaje académico

Dónde encaja esto en tus estudios.

Afina las mismas habilidades que tu titulación espera de ti.

Habilidades

Habilidades que demostrarás.

Cada una aparece en tu credencial verificada.

Carreras

Roles para los que esto te prepara.

Títulos reales. Puentes de habilidades reales. Elige el que más se acerque a tu trayectoria.

Trayectorias profesionales que esto construye

Roles canónicos

Ingeniero NLP

Curación de datos para SFT es trabajo cotidiano del NLP Engineer en foundation labs y enterprise.

Este proyecto afina

  • dataset-curation
  • supervised-fine-tuning
  • data-quality

Ingeniero de Datos

Diseñar playbooks reproducibles de procesamiento masivo es trabajo del Data Engineer en proyectos LLM.

Este proyecto afina

  • dataset-curation
  • data-quality
  • huggingface

Científico en IA Aplicada

Cuantificar el impacto de calidad de datos sobre métricas es trabajo del Applied AI Scientist.

Este proyecto afina

  • evaluation
  • lora
  • dataset-curation

Una cosa más

Puedes tener una credencial en tu CV para el viernes.