Spark-Pipeline für Risiko-Scoring bei einem Frankfurter B2B-Fintech
Übersicht
Worum es bei diesem Projekt geht.
Du erhältst die bestehende pandas-Pipeline (Feature-Aggregation über 30/90/180-Tage-Fenster pro Geschäftskund:in plus ein bereits trainiertes XGBoost-Modell als PMML-Export), eine repräsentative Datenextraktion von 50 Millionen anonymisierten Transaktionen und Zugang zu einem 8-Knoten-Spark-Cluster auf Databricks. Portiere Feature-Aggregation und Batch-Scoring auf Spark, validiere die Scores per Stichprobe (10.000 Kund:innen) byte-identisch zur pandas-Baseline und reduziere die End-to-End-Laufzeit auf unter 90 Minuten. Liefere die Pipeline, einen Performance-Report und ein 2-seitiges Memo für die Engineering-Leitung.
Das Briefing
Was Du tust und was Du zeigst.
Portiere eine pandas-basierte Risiko-Scoring-Pipeline auf Spark, reduziere die Laufzeit drastisch und halte die Score-Identität zur Baseline.
Earning criteria — what you'll demonstrate
- Spark-Pipelines für tatsächlich verteilte Aggregationen schreiben
- Performance-Engpässe in Spark-Jobs systematisch identifizieren und beheben
- Score-Identität zwischen zwei Implementierungen rigoros validieren
- Migrations-Empfehlungen für ein Engineering-Team schreiben
Studienpassung
Wo dies in Dein Studium passt.
Schärft dieselben Fähigkeiten, die Dein Studium von Dir erwartet.
Fähigkeiten
Fähigkeiten, die Du unter Beweis stellst.
Jede taucht auf Deinem verifizierten Zertifikat auf.
Karrieren
Berufe, auf die dies Dich vorbereitet.
Echte Berufsbezeichnungen. Echte Skill-Brücken. Wähle die, die Deinem Werdegang am nächsten kommt.
Karrierewege, die das aufbaut
Kanonische RollenData Engineer
Eine pandas-Pipeline auf Spark zu portieren und die Score-Identität zur Baseline zu beweisen, ist die häufigste Tagesarbeit für Data Engineers in Fintech-Umgebungen.
Dieses Projekt schärft
- apache-spark
- distributed-computing
- data-validation
MLOps-Ingenieur:in
Performance-Tuning und reproduzierbare Batch-Pipelines sind Kern-MLOps-Aufgaben in Enterprise-Stacks.
Dieses Projekt schärft
- performance-tuning
- python
- data-validation
Maschinelles-Lernen-Ingenieur:in
Feature-Engineering verteilt sauber zu rechnen und gegen eine Referenz zu validieren ist Brückenkompetenz zwischen Data Engineering und ML-Engineering.
Dieses Projekt schärft
- feature-engineering
- apache-spark
- python
Noch eine Sache