Entrenamiento distribuido del scoring de riesgo en banca minorista
Visión general
De qué trata este proyecto.
Recibes un subconjunto anonimizado de 20 millones de operaciones y un cluster Spark con 8 nodos para los experimentos. Diseña la pipeline en dos fases: ingeniería de features distribuida con Spark y entrenamiento distribuido del modelo (gradient boosting con XGBoost en modo distribuido o un Multilayer Perceptron con Horovod). Mide tiempo total, escalabilidad (curva de aceleración al pasar de 1 a 8 nodos) y consistencia del modelo final frente a la versión actual sobre la misma métrica de discriminación (área bajo la curva ROC). El éxito es aceleración ≥ 5x con cambio del área bajo la curva ROC dentro de ±0,005.
El Briefing
Lo que harás y lo que demostrarás.
Migrar el entrenamiento del scoring de riesgo a una pipeline distribuida que entregue 5x de aceleración manteniendo trazabilidad regulatoria y consistencia del modelo.
Earning criteria — what you'll demonstrate
- Diseñar pipelines de datos distribuidos a escala con Spark
- Aplicar entrenamiento distribuido (XGBoost distribuido o Horovod)
- Medir escalabilidad real y curvas de aceleración
- Documentar modelos para validación regulatoria interna
Encaje académico
Dónde encaja esto en tus estudios.
Afina las mismas habilidades que tu titulación espera de ti.
Habilidades
Habilidades que demostrarás.
Cada una aparece en tu credencial verificada.
Carreras
Roles para los que esto te prepara.
Títulos reales. Puentes de habilidades reales. Elige el que más se acerque a tu trayectoria.
Trayectorias profesionales que esto construye
Roles canónicosIngeniero/a de Aprendizaje Automático
Diseñar entrenamiento distribuido con métricas de aceleración y consistencia del modelo, todo bajo restricciones regulatorias, es el trabajo central de una persona MLE en banca.
Este proyecto afina
- distributed-training
- xgboost
- mlops
Ingeniero/a de Datos
La parte de ingeniería de features distribuida sobre Spark a esta escala es trabajo cotidiano de personas data engineers en bancos y aseguradoras.
Este proyecto afina
- spark
- data-engineering
- distributed-training
Ingeniero/a de MLOps
Reproducibilidad, trazabilidad y validación interna es exactamente lo que una persona MLOps en sector regulado entrega cada cuatrimestre.
Este proyecto afina
- mlops
- distributed-training
- model-evaluation