LLM-Evaluations-Suite für ein Wiener KI-Beratungshaus
Übersicht
Worum es bei diesem Projekt geht.
Du baust eine Python-Suite mit (1) Aufgaben-Definitionen je Klasse; (2) Standard-Datensätzen (MMLU für Wissen, GSM8K für Mathe, deutsche Aufgaben aus z. B. dem GermanBenchmark); (3) automatischer Auswertung mit klaren Metriken; (4) Kosten- und Latenz-Tracking; (5) Berichts-Generator (Markdown + Charts). Lass die Suite auf den drei oben genannten Modellen gegen die Aufgabenklassen laufen, dokumentiere Ergebnisse und liefere Beispielbericht, Engagement-Playbook (5 Seiten) und ein Open-Source-Repository (MIT).
Das Briefing
Was Du tust und was Du zeigst.
Wie sieht eine wiederverwendbare Evaluations-Suite aus, die LLM-Anbieter-Vergleiche reproduzierbar, kostenbewusst und mehrsprachig bewertet?
Earning criteria — what you'll demonstrate
- Eine wiederverwendbare LLM-Benchmark-Suite designen und implementieren
- Mehrsprachige Evaluation als gleichberechtigte Aufgabenklasse integrieren
- Kosten- und Latenz-Tracking als Standard-Output verankern
- Beratungs-Werkzeuge mit klarer Doku und Playbook ausliefern
Studienpassung
Wo dies in Dein Studium passt.
Schärft dieselben Fähigkeiten, die Dein Studium von Dir erwartet.
Fähigkeiten
Fähigkeiten, die Du unter Beweis stellst.
Jede taucht auf Deinem verifizierten Zertifikat auf.
Karrieren
Berufe, auf die dies Dich vorbereitet.
Echte Berufsbezeichnungen. Echte Skill-Brücken. Wähle die, die Deinem Werdegang am nächsten kommt.
Karrierewege, die das aufbaut
Kanonische RollenKI-Engineer
Wiederverwendbare Evaluations-Suites für LLM-Anbieter-Vergleiche zu bauen, ist Tagesarbeit von KI-Engineers in Beratungs- und Plattform-Teams.
Dieses Projekt schärft
- llm-evaluation
- benchmarking
- open-source
Applied AI Scientist
Standardisierte Vergleiche mehrerer Anbieter mit ehrlicher Methodik sind eine zentrale Tätigkeit von Applied AI Scientists in Beratungs-Engagements.
Dieses Projekt schärft
- benchmarking
- multilingual-evaluation
- cost-tracking
KI-Solutions-Architekt:in
Architektur-Empfehlungen auf Basis vergleichender LLM-Benchmarks zu treffen, ist Kernkompetenz von KI-Solutions-Architekt:innen in Beratungs-Rollen.
Dieses Projekt schärft
- llm-evaluation
- cost-tracking
- documentation
Noch eine Sache