Semantische Suche für ein Kölner Rechtsverlags-Portal aufbauen
Übersicht
Worum es bei diesem Projekt geht.
Sie erhalten 50.000 anonymisierte Urteile und ein Test-Set von 80 Anwältinnen-Suchanfragen mit redaktionell gelabelten relevanten Dokumenten (Recall@10 als Hauptmetrik). Bauen Sie einen Embedding-basierten Suchindex (FAISS oder pgvector) auf einem deutschsprachigen Satzembedding-Modell (z. B. multilingual-e5 oder ein Domain-Fine-tuning). Vergleichen Sie die Embedding-Suche mit der heutigen BM25-Baseline und einer hybriden Variante (BM25 plus Reranking). Liefern Sie ein reproduzierbares Notebook, einen Bewertungsreport und eine ehrliche Diskussion der Domain-Anpassung.
Das Briefing
Was Du tust und was Du zeigst.
Wie viel verbessert eine Embedding-basierte semantische Suche die Top-10-Trefferqualität für Anwältinnen-Suchanfragen gegenüber einer BM25-Baseline?
Earning criteria — what you'll demonstrate
- Distributionelle Semantik in einer realen Information-Retrieval-Aufgabe nutzen
- Sparse- und Dense-Retrieval ehrlich vergleichen
- Domain-Anpassung von Embedding-Modellen einschätzen
- Ergebnisse für eine Verlagsentscheidung kommunizieren
Studienpassung
Wo dies in Dein Studium passt.
Schärft dieselben Fähigkeiten, die Dein Studium von Dir erwartet.
Fähigkeiten
Fähigkeiten, die Du unter Beweis stellst.
Jede taucht auf Deinem verifizierten Zertifikat auf.
Karrieren
Berufe, auf die dies Dich vorbereitet.
Echte Berufsbezeichnungen. Echte Skill-Brücken. Wähle die, die Deinem Werdegang am nächsten kommt.
Karrierewege, die das aufbaut
Kanonische RollenNLP Engineer
Semantische Suche in einer hochwertigen Fachsprache zu bauen und sauber zu bewerten ist eine sehr gefragte Spezialisierung von NLP Engineers in Fachverlagen.
Dieses Projekt schärft
- embeddings
- information-retrieval
- distributional-semantics
Applied AI Scientist
Domain-Anpassung von Embedding-Modellen mit ehrlicher Bewertung ist Kernarbeit von Applied AI Scientists in Verlagen und KMU mit eigenen Fachsprachen.
Dieses Projekt schärft
- domain-adaptation
- model-evaluation
- embeddings
Machine Learning Engineer
Ein Retrieval-System reproduzierbar aufzusetzen ist die Vorstufe zur produktiven ML-Engineering-Arbeit an semantischen Such-Pipelines.
Dieses Projekt schärft
- python
- information-retrieval
- model-evaluation
Noch eine Sache