Visión general
De qué trata este proyecto.
Recibes el script Pandas actual (1.800 LOC), 14 noches de datos reales (cerca de 180 GB CSV anonimizado) y una máquina con 32 cores y 256 GB RAM. Perfila el pipeline e identifica las top-3 transformaciones más costosas. Implementa dos prototipos: uno con Polars (lazy) y otro con Pandas + multiprocessing usando particionado por clave. Mide tiempo total, uso de memoria pico y mantenibilidad subjetiva (LOC, claridad). Recomienda la estrategia ganadora y produce una guía de migración. Entrega los dos prototipos, el reporte de perfilado, la recomendación y un plan de despliegue con riesgo identificado.
El Briefing
Lo que harás y lo que demostrarás.
Paralelizar un ETL Pandas de 7 horas con Polars o Pandas particionado y recomendar la estrategia con mejor relación rendimiento/mantenibilidad.
Earning criteria — what you'll demonstrate
- Aplicar paralelismo a un ETL real con metodología honesta
- Comparar runtimes de DataFrame con criterios técnicos y de mantenibilidad
- Diseñar particionado por clave para Pandas
- Producir recomendaciones que ponderen complejidad vs ganancia
Encaje académico
Dónde encaja esto en tus estudios.
Afina las mismas habilidades que tu titulación espera de ti.
Habilidades
Habilidades que demostrarás.
Cada una aparece en tu credencial verificada.
Carreras
Roles para los que esto te prepara.
Títulos reales. Puentes de habilidades reales. Elige el que más se acerque a tu trayectoria.
Trayectorias profesionales que esto construye
Roles canónicosIngeniero de Backend
Reescribir ETL críticos con datos reales y mantener corrección es habilidad backend muy demandada en fintech de microfinanzas.
Este proyecto afina
- data-pipelines
- pandas
- parallel-programming
Ingeniero de Software
Quien sabe perfilar Python y aplicar paralelismo correcto resuelve problemas que para equipos junior son cajas negras.
Este proyecto afina
- performance-engineering
- parallel-programming
- benchmarking