Information-Retrieval-Index für ein Versicherungs-Wissensportal
Übersicht
Worum es bei diesem Projekt geht.
Du erhältst den Dokumenten-Korpus (anonymisiert, juristische Texte) und ein Test-Set mit 250 Suchanfragen plus erwarteten Treffern. Baue eine Pipeline: (1) Dokument-Preprocessing (Sentence-Splitting, Stopword-Filterung für Deutsch), (2) BM25-Index mit Elasticsearch oder OpenSearch, (3) Embedding-Index mit Sentence-Transformers (multilinguales Modell), (4) Hybrid-Ranking. Evaluiere mit nDCG@10, MRR und Recall@5. Liefere eine REST-API (FastAPI), Evaluations-Bericht und Vergleichstabelle gegen die Baseline.
Das Briefing
Was Du tust und was Du zeigst.
Wie ersetzt man eine veraltete Volltextsuche in einem juristischen Versicherungs-Korpus durch ein modernes Hybrid-IR-System mit nachweisbar besserer Relevanz?
Earning criteria — what you'll demonstrate
- BM25 und Embedding-Retrieval kombiniert (Hybrid) korrekt einsetzen
- Standard-IR-Metriken (nDCG, MRR, Recall) implementieren und interpretieren
- Sentence-Embeddings für deutsche juristische Texte auswählen
- Search-API mit performanter Re-Ranking-Stufe produktiv bauen
Studienpassung
Wo dies in Dein Studium passt.
Schärft dieselben Fähigkeiten, die Dein Studium von Dir erwartet.
Fähigkeiten
Fähigkeiten, die Du unter Beweis stellst.
Jede taucht auf Deinem verifizierten Zertifikat auf.
Karrieren
Berufe, auf die dies Dich vorbereitet.
Echte Berufsbezeichnungen. Echte Skill-Brücken. Wähle die, die Deinem Werdegang am nächsten kommt.
Karrierewege, die das aufbaut
Kanonische RollenBackend-Entwickler:in
Hybrid-Search-Backends sind eines der gefragtesten Backend-Profile in deutschen Konzernen, die ihre internen Wissensportale modernisieren — Elasticsearch + Embeddings ist die Standard-Stack-Kombination.
Dieses Projekt schärft
- information-retrieval
- elasticsearch
- fastapi
Data Scientist
Data Scientists mit IR-Evaluations-Erfahrung sind die Brücke zwischen Modell-Forschung und produktiver Suche — eine seltene und gut bezahlte Spezialisierung.
Dieses Projekt schärft
- embeddings
- evaluation-metrics
- information-retrieval
AI Engineer
RAG-Systeme (Retrieval-Augmented Generation) basieren auf genau dieser Pipeline — wer Hybrid-Retrieval beherrscht, hat einen direkten Übergang in LLM-Integrations-Rollen.
Dieses Projekt schärft
- embeddings
- bm25
- information-retrieval
Noch eine Sache