Informationsextraktion aus deutschen Verträgen für ein Kölner LegalTech
Übersicht
Worum es bei diesem Projekt geht.
Du erhältst 1.500 anonymisierte deutschsprachige Verträge mit Span-Annotationen für 8 Feldtypen plus 300 Hold-out-Verträge. Implementiere (1) eine regelbasierte Vorverarbeitung (Section-Erkennung, Datum-Normalisierung); (2) Fine-Tuning eines deutschen BERT-Modells (z. B. gbert-large) für Span-Extraktion; (3) eine LLM-Eskalations-Schicht (OpenAI oder Claude) für unsichere Spans. Evaluiere mit Per-Feld-F1 plus einem 50-Verträge-Human-Review. Liefere Pipeline, Auswertung, einen FastAPI-Endpoint und ein 5-seitiges Memo.
Das Briefing
Was Du tust und was Du zeigst.
Wie weit hebt eine hybride Pipeline aus Regeln, NER und LLM-Eskalation die Extraktionsqualität deutscher B2B-Verträge gegenüber einem rein regelbasierten Stand?
Earning criteria — what you'll demonstrate
- Regelbasierte und neuronale NLP-Komponenten sinnvoll kombinieren
- Deutsche NER mit BERT-Modellen feinjustieren
- LLM-Eskalation als ehrliche Reserve-Lösung einsetzen
- Extraktionsqualität auf einem Domänen-Goldstandard sauber messen
Studienpassung
Wo dies in Dein Studium passt.
Schärft dieselben Fähigkeiten, die Dein Studium von Dir erwartet.
Fähigkeiten
Fähigkeiten, die Du unter Beweis stellst.
Jede taucht auf Deinem verifizierten Zertifikat auf.
Karrieren
Berufe, auf die dies Dich vorbereitet.
Echte Berufsbezeichnungen. Echte Skill-Brücken. Wähle die, die Deinem Werdegang am nächsten kommt.
Karrierewege, die das aufbaut
Kanonische RollenNLP-Ingenieur:in
Hybride Extraktions-Pipelines für deutsche Verträge sind die direkte Aufgabenfläche von NLP-Ingenieur:innen in LegalTech und Enterprise-Dokumenten-Teams.
Dieses Projekt schärft
- information-extraction
- ner
- german-nlp
Machine-Learning-Ingenieur:in
Fine-Tuning, FastAPI-Endpoint und Per-Feld-Evaluation sind Standardarbeit von ML-Ingenieur:innen in produktnahen Teams.
Dieses Projekt schärft
- fine-tuning
- hybrid-systems
- evaluation
KI-Engineer
LLM-Eskalations-Schichten zu kontrollieren und Kosten transparent zu halten ist Kernarbeit von KI-Engineers in produktnahen LLM-Teams.
Dieses Projekt schärft
- hybrid-systems
- ner
- information-extraction
Noch eine Sache