Semantische Vertragssuche für eine Legal-Tech-Kanzlei aufbauen
Übersicht
Worum es bei diesem Projekt geht.
Du erhältst 5.000 anonymisierte deutsche Vertragsklauseln (Mustertexte) plus 20 gelabelte Suchanfragen mit jeweils 5-10 erwarteten Treffern. Wende zwei Embedding-Modelle an (ein deutsches Sentence-Transformer-Modell wie 'paraphrase-multilingual-mpnet-base-v2' plus ein OpenAI-Modell 'text-embedding-3-small' als Vergleich), speichere die Vektoren in Qdrant oder pgvector (Postgres-Erweiterung für Vektorsuche) und baue ein einfaches Streamlit-Frontend. Erfolg heißt: Recall@10 über 0,75 auf den gelabelten Anfragen und eine 2-seitige Memo für die IT-Leitung mit Empfehlung Modell + Datenbank + Kostenschätzung pro 100.000 Klauseln.
Das Briefing
Was Du tust und was Du zeigst.
Baue eine semantische Klauselsuche, die auf deutschen M&A-Verträgen mindestens Recall@10 von 0,75 erreicht und in der gesamten Pipeline pro Klausel unter 0,005 Euro Kosten erzeugt.
Earning criteria — what you'll demonstrate
- Embedding-Modelle für deutsche Fachtexte auswählen und gegeneinander benchmarken
- Vektor-Indizes (HNSW, IVF) hinsichtlich Recall-Latenz-Kompromiss verstehen
- Eine semantische Suche end-to-end mit reproduzierbarem Evaluations-Setup aufbauen
- Modell- und Infrastrukturkosten ehrlich auf Anwendungsfall-Ebene durchrechnen
Studienpassung
Wo dies in Dein Studium passt.
Schärft dieselben Fähigkeiten, die Dein Studium von Dir erwartet.
Fähigkeiten
Fähigkeiten, die Du unter Beweis stellst.
Jede taucht auf Deinem verifizierten Zertifikat auf.
Karrieren
Berufe, auf die dies Dich vorbereitet.
Echte Berufsbezeichnungen. Echte Skill-Brücken. Wähle die, die Deinem Werdegang am nächsten kommt.
Karrierewege, die das aufbaut
Kanonische RollenKI-Ingenieur:in
End-to-end-Bau einer Retrieval-Anwendung mit Embedding-Auswahl, Vektor-DB-Betrieb und Eval-Setup ist exakt die Arbeit, die KI-Ingenieur:innen in den ersten 12 Monaten bei B2B-SaaS-Anbietern leisten — vom Prototyp bis zum Kostenmodell.
Dieses Projekt schärft
- vector-search
- embeddings
- rag
Maschinelles-Lernen-Ingenieur:in
Den Recall-Latenz-Kostenkompromiss systematisch zu vermessen und in einer Pipeline reproduzierbar zu machen, spiegelt das tägliche Geschäft eines:r MLE — Modelle in Produktion nicht nur einmal funktionsfähig, sondern dauerhaft messbar zu machen.
Dieses Projekt schärft
- evaluation
- vector-search
- python
Daten-Ingenieur:in
Embedding-Pipelines sind Daten-Pipelines mit einem ML-Schritt in der Mitte — diese Challenge übt die Ingestion-, Index- und Refresh-Logik, die Daten-Ingenieur:innen in semantischen Such-Plattformen halten müssen.
Dieses Projekt schärft
- embeddings
- vector-search
- python
Noch eine Sache