Parallele Datenverarbeitung für ein Berliner E-Commerce-Reporting bauen
Übersicht
Worum es bei diesem Projekt geht.
Lade die anonymisierte Verkaufsdaten-Pipeline (rund 1.200 Zeilen Python) und identifiziere die drei parallelisierbaren Stufen (typisch: Daten-Laden je Bestell-Datei, Aggregation je Kategorie, Export je Empfänger). Parallelisiere mit concurrent.futures.ProcessPoolExecutor je nach Stufe. Berücksichtige GIL-Beschränkungen und CPU-/I/O-Charakteristik je Stufe. Miss Skalierung auf 4, 8, 16 Kernen und identifiziere die Amdahl-Grenze (welcher serieller Rest bleibt). Abgaben: Parallelisierte Pipeline, Skalierungs-Mess-Bericht, Amdahl-Analyse, 6-seitiges Memo mit Empfehlung zur Ziel-Maschinengröße.
Das Briefing
Was Du tust und was Du zeigst.
Wie parallelisiert man eine 90-Minuten-Reporting-Pipeline in Python so, dass sie sicher unter 20 Minuten bleibt — und welche Maschinengröße ist die wirtschaftlich beste?
Earning criteria — what you'll demonstrate
- Parallele Verarbeitungs-Stufen aus einer sequenziellen Pipeline ableiten
- GIL-Beschränkungen verstehen und mit Multiprocessing umgehen
- Skalierungs-Verhalten bis zur Amdahl-Grenze messen
- Maschinengrößen-Empfehlungen wirtschaftlich begründen
Studienpassung
Wo dies in Dein Studium passt.
Schärft dieselben Fähigkeiten, die Dein Studium von Dir erwartet.
Fähigkeiten
Fähigkeiten, die Du unter Beweis stellst.
Jede taucht auf Deinem verifizierten Zertifikat auf.
Karrieren
Berufe, auf die dies Dich vorbereitet.
Echte Berufsbezeichnungen. Echte Skill-Brücken. Wähle die, die Deinem Werdegang am nächsten kommt.
Daten-Ingenieur:in
Parallelisierung von Python-Pipelines mit Skalierungs-Belegen ist eine direkte Junior-Daten-Engineering-Demonstration für E-Commerce- und SaaS-Teams.
Dieses Projekt schärft
- parallel-programming
- multiprocessing
- python
Software-Ingenieur:in
Engineers, die GIL-Effekte und Amdahls Gesetz auf reale Workloads anwenden können, treffen die richtigen Parallelisierungs-Entscheidungen sofort.
Dieses Projekt schärft
- parallel-programming
- amdahls-law
- performance-profiling
Noch eine Sache