Lernen aus Nutzerfeedback für einen Pflegeassistenz-Roboter
Übersicht
Worum es bei diesem Projekt geht.
Du erhältst eine Habitat-2.0-Simulationsumgebung mit einem mobilen Roboter, drei Räumen und einem virtuellen Nutzer-Agent, der unterschiedliche Komfort-Profile simuliert (z. B. mag keine Annäherung von hinten, möchte ruhige Annäherung). Implementiere einen Reinforcement-Learning-aus-menschlichem-Feedback-Loop (Reinforcement Learning from Human Feedback, RLHF, hier vereinfacht): Sammele Präferenz-Paare, trainiere ein Belohnungsmodell, optimiere die Bewegungspolitik. Vergleiche gegen eine heuristische Baseline auf zwei Metriken: Aufgaben-Erfolg und Komfort-Score. Liefere Code, Trainingskurven, einen Vergleichsbericht und eine Empfehlung, ob der Ansatz in den nächsten Feldtest gehen sollte.
Das Briefing
Was Du tust und was Du zeigst.
Kann ein Reinforcement-Learning-aus-Feedback-Ansatz die Bewegungspolitik eines Assistenzroboters schneller an Komfort-Präferenzen anpassen als heuristische Regeln?
Earning criteria — what you'll demonstrate
- Reinforcement Learning aus menschlichem Feedback praktisch implementieren
- Komfort-Metriken neben klassischen Aufgaben-Metriken aufbauen
- Trainings- und Evaluations-Pipelines in einer Robotersimulation umsetzen
- Forschungsergebnisse in eine Produkt-Empfehlung übersetzen
Studienpassung
Wo dies in Dein Studium passt.
Schärft dieselben Fähigkeiten, die Dein Studium von Dir erwartet.
Fähigkeiten
Fähigkeiten, die Du unter Beweis stellst.
Jede taucht auf Deinem verifizierten Zertifikat auf.
Karrieren
Berufe, auf die dies Dich vorbereitet.
Echte Berufsbezeichnungen. Echte Skill-Brücken. Wähle die, die Deinem Werdegang am nächsten kommt.
Karrierewege, die das aufbaut
Kanonische RollenML-Forscher:in
Reinforcement Learning aus Feedback auf eine realweltliche Robotik-Aufgabe anzuwenden ist genau die Art von Arbeit, die ML-Forscher:innen in Robotik-Startups in den ersten Quartalen leisten.
Dieses Projekt schärft
- reinforcement-learning
- rlhf
- evaluation
Machine-Learning-Ingenieur:in
Die Implementierung der vollen Pipeline von Datensammlung bis Trainings-Run entspricht der täglichen Praxis von ML-Ingenieur:innen, die Modelle aus Forschung in die Simulation und später in die Realität bringen.
Dieses Projekt schärft
- pytorch
- simulation
- reinforcement-learning
Applied AI Scientist
Den Bogen von Forschungsmethode zu Produktempfehlung zu schlagen, ist die Kernrolle des Applied AI Scientist in einem produktorientierten Robotik-Team.
Dieses Projekt schärft
- rlhf
- evaluation
- human-aware-robotics
Noch eine Sache