Augmenta datasets escasos con VAEs para clasificación médica
Visión general
De qué trata este proyecto.
Trabajarás con un dataset público (BloodMNIST o similar de MedMNIST, alrededor de 17.000 imágenes en 8 clases). Reduce artificialmente a 500 imágenes por clase para simular escasez. Entrena un beta-VAE, genera 500 imágenes adicionales por clase, y entrena un clasificador (ResNet18) sobre: (a) baseline 500 reales, (b) 500 reales + 500 generadas, (c) 1000 reales (oracle). Reporta accuracy, F1 macro y matriz de confusión. Analiza también la calidad de las muestras generadas con FID y visualización del espacio latente. Entrega notebook + reporte de 5 páginas.
El Briefing
Lo que harás y lo que demostrarás.
Evalúa si beta-VAE augmentation cierra la brecha entre dataset escaso (500/clase) y dataset oráculo (1000/clase) en clasificación médica.
Earning criteria — what you'll demonstrate
- Implementar VAE y beta-VAE desde principios + librerías
- Diseñar experimento controlado de data augmentation
- Evaluar generative models con métricas downstream, no solo FID
- Reportar resultados con honestidad estadística (semillas, intervalos)
Encaje académico
Dónde encaja esto en tus estudios.
Afina las mismas habilidades que tu titulación espera de ti.
Habilidades
Habilidades que demostrarás.
Cada una aparece en tu credencial verificada.
Carreras
Roles para los que esto te prepara.
Títulos reales. Puentes de habilidades reales. Elige el que más se acerque a tu trayectoria.
Trayectorias profesionales que esto construye
Roles canónicosInvestigador de ML
Investigar augmentation con generative models y reportar estilo paper es exactamente el trabajo de un ML researcher junior.
Este proyecto afina
- vae
- generative-models
- data-augmentation
Científico de Investigación
Diseñar experimento controlado con seeds y reportar honestamente es el estándar del research scientist en cualquier lab.
Este proyecto afina
- evaluation
- latent-space-analysis
- vae