Procesamiento por lotes de logs energéticos en una utility del IBEX
Visión general
De qué trata este proyecto.
Recibes un mes de eventos (cerca de 135.000 millones de registros) en formato Parquet y acceso a un cluster Spark. Diseña la arquitectura objetivo: ingesta unificada en Delta Lake, capas Bronze/Silver/Gold (datos crudos / limpios y normalizados / agregados de negocio), particionado por fecha y subestación, y compactación automática. Prototipa la transformación Bronze a Silver para un día completo y mide tiempo, coste y cobertura de calidad de datos (Data Quality, DQ — porcentaje de registros que pasan validaciones de esquema y rango). Entrega la propuesta de migración con plan por fases.
El Briefing
Lo que harás y lo que demostrarás.
Diseñar y prototipar una arquitectura unificada en Delta Lake que reduzca el coste operativo y simplifique la trazabilidad regulatoria del procesamiento por lotes.
Earning criteria — what you'll demonstrate
- Diseñar arquitecturas Lakehouse con Delta Lake
- Implementar capas de transformación con tests de calidad de datos
- Razonar sobre particionado y compactación a escala
- Planificar migraciones por fases en sistemas regulados
Encaje académico
Dónde encaja esto en tus estudios.
Afina las mismas habilidades que tu titulación espera de ti.
Habilidades
Habilidades que demostrarás.
Cada una aparece en tu credencial verificada.
Carreras
Roles para los que esto te prepara.
Títulos reales. Puentes de habilidades reales. Elige el que más se acerque a tu trayectoria.
Trayectorias profesionales que esto construye
Roles canónicosIngeniero/a de Datos
Diseñar arquitecturas Lakehouse con Delta Lake y migrar pipelines productivos por fases es el trabajo central de una persona data engineer en empresas reguladas.
Este proyecto afina
- spark
- delta-lake
- data-engineering
Ingeniero/a de MLOps
Trazabilidad, calidad de datos y monitorización son habilidades transferibles directamente a equipos MLOps que sirven modelos sobre estos datos.
Este proyecto afina
- data-quality
- monitoring
- batch-processing
Ingeniero/a de Aprendizaje Automático
Entender el origen y la calidad de los datos sobre los que se entrenan modelos es habilidad fundamental de una persona MLE en sectores energéticos.
Este proyecto afina
- data-quality
- spark
- batch-processing