Construye un pipeline de eventos de checkout para un marketplace LATAM
Visión general
De qué trata este proyecto.
Recibirás un dataset de muestra con 5 millones de eventos crudos en formato JSON (pago, web, móvil) más el esquema objetivo de la tabla de hechos checkout_fact. Construye un pipeline en Apache Spark Structured Streaming para el flujo continuo y un job batch diario en Airflow para reproceso. Usa un esquema medallón (bronze/silver/gold) sobre almacenamiento de objetos compatible con S3 (MinIO local sirve). El éxito significa idempotencia comprobable (rerun produce el mismo resultado), reconciliación automática entre las tres fuentes con tolerancia menor al 0,1 por ciento y un README que un ingeniero junior pueda seguir para reproducir todo en local en menos de una hora.
El Briefing
Lo que harás y lo que demostrarás.
Diseña un pipeline batch + streaming idempotente que unifique eventos de checkout de tres fuentes con menos de 0,1 por ciento de discrepancia.
Earning criteria — what you'll demonstrate
- Aplicar el patrón medallón (bronze/silver/gold) sobre datos transaccionales reales
- Diseñar transformaciones idempotentes que toleren reproceso sin duplicar filas
- Implementar tests de calidad de datos como parte del pipeline, no como afterthought
- Comunicar trade-offs entre latencia streaming y consistencia batch
Encaje académico
Dónde encaja esto en tus estudios.
Afina las mismas habilidades que tu titulación espera de ti.
Habilidades
Habilidades que demostrarás.
Cada una aparece en tu credencial verificada.
Carreras
Roles para los que esto te prepara.
Títulos reales. Puentes de habilidades reales. Elige el que más se acerque a tu trayectoria.
Trayectorias profesionales que esto construye
Roles canónicosIngeniero de Datos
Construir un pipeline batch + streaming idempotente con tests de calidad automatizados es exactamente el trabajo diario de un ingeniero de datos en cualquier marketplace o fintech.
Este proyecto afina
- apache-spark
- airflow
- streaming-pipelines
Ingeniero de MLOps
La disciplina de idempotencia y data quality sobre object storage transfiere directamente a las feature pipelines que los MLOps engineers operan en producción.
Este proyecto afina
- idempotency
- data-quality
- airflow
Arquitecto de Soluciones de IA
Diseñar la arquitectura medallón y comunicar trade-offs streaming vs batch es el lenguaje cotidiano del arquitecto que diseña plataformas de datos para casos de IA.
Este proyecto afina
- data-modeling
- streaming-pipelines
- apache-spark