DSGVO-Konformes Synthetic-Data-Lab für Hamburger Healthtech
Übersicht
Worum es bei diesem Projekt geht.
Sie erhalten einen anonymisierten realen Datensatz (15.000 Datensätze, 22 Variablen, gemischt numerisch/kategorisch). Generieren Sie synthetische Versionen mit drei Methoden: (1) klassisches CTGAN, (2) DP-CTGAN (CTGAN mit DP-SGD-Training), (3) statistische Marginal-Modellierung (privbayes-Stil). Vergleichen Sie: statistische Treue (Marginal-Verteilungen, paarweise Korrelationen), ML-Utility (Modell auf synthetisch trainiert vs. real trainiert), Re-Identification-Risiko via Nearest-Neighbour-Attack. Definieren Sie zusätzlich einen 5-Schritt-Audit-Workflow, den das Datenschutz-Team auf jedes generierte Datenset anwenden kann.
Das Briefing
Was Du tust und was Du zeigst.
Welche Synthetic-Data-Methode liefert für medizinische Tabellen-Daten die beste Balance aus statistischer Treue, ML-Utility und Re-Identification-Schutz?
Earning criteria — what you'll demonstrate
- Drei Synthetic-Data-Methoden praktisch implementieren und vergleichen
- Utility-vs-Privacy-Trade-off als methodisches Kernproblem verstehen
- Re-Identification-Risiko mit standardisierten Audit-Methoden quantifizieren
- Einen Audit-Workflow so designen, dass ein nicht-ML-Team ihn ausführen kann
Studienpassung
Wo dies in Dein Studium passt.
Schärft dieselben Fähigkeiten, die Dein Studium von Dir erwartet.
Fähigkeiten
Fähigkeiten, die Du unter Beweis stellst.
Jede taucht auf Deinem verifizierten Zertifikat auf.
Karrieren
Berufe, auf die dies Dich vorbereitet.
Echte Berufsbezeichnungen. Echte Skill-Brücken. Wähle die, die Deinem Werdegang am nächsten kommt.
Karrierewege, die das aufbaut
Kanonische RollenAngewandte:r KI-Wissenschaftler:in
Synthetic Data + Audit-Workflow ist ein direkt produktrelevantes Profil in europäischen Healthtech-, Fintech- und Versicherungs-Startups.
Dieses Projekt schärft
- synthetic-data
- ctgan
- data-utility
KI-Sicherheits-Forscher:in
Re-Identification-Risiko-Audits sind ein Kerntätigkeitsfeld von Privacy-Engineers; diese Erfahrung qualifiziert für Security-Track-Rollen in regulierten Industrien.
Dieses Projekt schärft
- re-identification-risk
- differential-privacy
- dsgvo-compliance
Data Engineer:in
Wer Synthetic-Data-Pipelines mit Audit-Workflow baut, übt die Daten-Operations-Disziplin, die Data-Engineering-Teams in regulierten Industrien dringend brauchen.
Dieses Projekt schärft
- synthetic-data
- data-utility
- dsgvo-compliance
Noch eine Sache