Roboter erhalten Training, um sich vom Ansehen von Videos zu bewegen

Tool-as-Interface, eine Zwei-Kamera-Methode mit nur Video, die Roboter Tool-Verwendung unterrichtet, mit einer hohen durchschnittlichen Erfolgsrate und senkt die Datenerfassungszeit.

Ein Forschungsteam der University of Illinois in Zusammenarbeit mit der Columbia University und UT Austin hat einen Rahmen vorgestellt, in dem Roboter für Tools ausgebildet werden, indem sie direkt aus gewöhnlichen menschlichen Videos lernen.Die Methode meldet eine höhere Erfolgsrate für die jeweiligen Aufgaben und eine schnellere Datenerfassung als auf Teleoperationsbasis basierende Baselines, was auf eine kostengünstigere Route für das Unterrichten dynamischer Fähigkeiten hinweist.

Der Roboter, der als Tool-as-Schnellgesicht bezeichnet wird, lernt aus Daten, die von zwei RGB-Kameraansichten einer Person gesammelt werden, die eine Aufgabe ausführt.Ein 3D -Rekonstruktionsmodell (MAST3R) baut die Szenengeometrie auf;3D Gaußsche Splating synthetisiert zusätzliche Aussichten, um die Robustheit zu verbessern.

Die wirkliche Magie geschieht mit der Entfernung von Menschen aus dem Video.Mit geerdetem SAM, einem Open-Set-Objektdetektor zum Kombinieren mit dem Segment Any Model (SAM).Das System verfolgt nur das Werkzeug und seine Interaktion mit der Szene und ignoriert den Menschen davon.

Das System schätzt dann das 6-DOF-Taste des Tools, das 6-DOF-Grad der Freiheit nachahmt, und lernt eine Tool-zentrierte Richtlinie, die mit der Übertragung von Cross-Robot-Übertragungen verknüpft ist.

Das Team validierte den Rahmen für fünf Aufgaben, die Geschwindigkeit oder Präzision erfordern: einen Nagel hämmern, einen Fleischbällchen schöpfen, Essen in eine Pfanne umdrehen, eine Weinflasche ausbalancieren und einen Fußball in ein Tor treten.Über diese Aufgaben hinweg erreichte die Methode eine um 71% höhere durchschnittliche Erfolgsrate als Diffusionsrichtlinien, die in Teleoperationsdaten geschult und um 77% verkürzt wurden.Einige Aufgaben wurden nur durch diesen Rahmen in den gemeldeten Tests gelöst.

Die Datenpipeline verwendet Warenkameras und erfordert keine Roboter-Seiten-Operatoren oder Bewegungskapitalgeräte.Dies reduziert die Einstellungskomplexität und kann auf Demonstrationen skalieren, die außerhalb des Labors aufgezeichnet wurden.

Einschränkungen bleiben bestehen.Das aktuelle System setzt ein starres Werkzeug an, das am Greifer festgelegt ist und an Pose-Schätzungsfehlern leiden kann.Die neuartige Ansichtsynthese kann unter großen Sichtwarenänderungen abgebaut werden.Diese Einschränkungen leiten die nächsten technischen Ziele.

Wählen Sie eine Sprache für die Anzeige

Roboter erhalten Training, um sich vom Ansehen von Videos zu bewegen