How to train a robot (using AI and supercomputers)

Informatiker haben eine Deep-Learning-Methode entwickelt, um realistische Objekte für virtuelle Umgebungen zu erstellen, mit denen Roboter trainiert werden können. Die Forscher nutzten den Maverick2-Supercomputer von TACC, um das generative gegnerische Netzwerk zu trainieren. Das Netzwerk ist das erste, das farbige Punktwolken mit feinen Details in mehreren Auflösungen erzeugen kann.

Quelle:University of Texas at Austin, Texas Advanced Computing Center

Bevor William Beksi als Assistenzprofessor an der Fakultät für Informatik und Ingenieurwissenschaften an die University of Texas in Arlington wechselte und dort das Robotic Vision Laboratory gründete, absolvierte er ein Praktikum bei iRobot, dem weltweit größten Hersteller von Verbraucherrobotern (hauptsächlich durch seinen Roomba-Roboterstaubsauger). .

Um in gebauten Umgebungen navigieren zu können, müssen Roboter in der Lage sein, ihren Standort zu erkennen und Entscheidungen darüber zu treffen, wie sie mit ihm interagieren. Die Forscher des Unternehmens waren daran interessiert, ihren Robotern mithilfe von maschinellem und tiefem Lernen das Erlernen von Objekten beizubringen. Dafür ist jedoch ein großer Datensatz an Bildern erforderlich. Obwohl es Millionen von Fotos und Videos von Räumen gibt, wurde keines davon aus der Perspektive eines Roboterstaubsaugers aufgenommen. Versuche, mithilfe von Bildern aus menschenzentrierten Perspektiven zu trainieren, scheiterten.

Beksis Forschungsschwerpunkte liegen in den Bereichen Robotik, Computer Vision und Cyber-Physical Systems. „Ich interessiere mich insbesondere für die Entwicklung von Algorithmen, die es Maschinen ermöglichen, aus ihren Interaktionen mit der physischen Welt zu lernen und sich autonom Fähigkeiten anzueignen, die für die Ausführung anspruchsvoller Aufgaben erforderlich sind“, sagte er.

Jahre später, mittlerweile mit einer Forschungsgruppe bestehend aus sechs Doktoranden der Informatik, erinnerte sich Beksi an das Roomba-Trainingsproblem und begann, nach Lösungen zu suchen. Ein manueller Ansatz, den einige nutzen, besteht darin, eine teure 360-Grad-Kamera zur Aufnahme von Umgebungen (einschließlich gemieteter Airbnb-Häuser) zu verwenden und eine benutzerdefinierte Software zu verwenden, um die Bilder wieder zu einem Ganzen zusammenzufügen. Beksi glaubte jedoch, dass die manuelle Erfassungsmethode zu langsam sein würde, um erfolgreich zu sein.

Stattdessen wandte er sich einer Form des Deep Learning zu, die als „Generative Adversarial Networks“ oder GANs bekannt ist und bei der zwei neuronale Netze in einem Spiel gegeneinander antreten, bis der „Generator“ neuer Daten einen „Diskriminator“ täuschen kann. Einmal trainiert, würde ein solches Netzwerk die Schaffung einer unendlichen Anzahl möglicher Räume oder Außenumgebungen ermöglichen, mit verschiedenen Arten von Stühlen oder Tischen oder Fahrzeugen mit leicht unterschiedlichen Formen, aber dennoch – für eine Person und einen Roboter – identifizierbare Objekte mit erkennbaren Abmessungen und Eigenschaften.

„Sie können diese Objekte stören, sie an neue Positionen bewegen, unterschiedliche Lichter, Farben und Texturen verwenden und sie dann in ein Trainingsbild rendern, das in einem Datensatz verwendet werden könnte“, erklärte er. „Dieser Ansatz würde potenziell unbegrenzte Daten liefern, mit denen ein Roboter trainiert werden kann.“

„Das manuelle Entwerfen dieser Objekte würde eine enorme Menge an Ressourcen und Stunden menschlicher Arbeit erfordern, während die generativen Netzwerke sie bei richtiger Schulung in Sekundenschnelle herstellen können“, sagte Mohammad Samiul Arshad, ein Doktorand in Beksis Gruppe, der an der Forschung beteiligt war.

OBJEKTE FÜR SYNTHETISCHE SZENEN GENERIEREN

Nach einigen ersten Versuchen erkannte Beksi, dass sein Traum, fotorealistische Gesamtszenen zu schaffen, derzeit außer Reichweite war. „Wir sind einen Schritt zurückgetreten und haben uns aktuelle Forschungsergebnisse angesehen, um herauszufinden, wie wir in einem kleineren Maßstab beginnen können – der Generierung einfacher Objekte in Umgebungen.“

Beksi und Arshad stellten auf der International Conference on 3D Vision (3DV) im November 2020 PCGAN vor, das erste bedingte generative gegnerische Netzwerk, das in einem unbeaufsichtigten Modus dichte farbige Punktwolken erzeugt. Ihr Artikel „A Progressive Conditional Generative Adversarial Network for Generating Dense and Colored 3D Point Clouds“ zeigt, dass ihr Netzwerk in der Lage ist, aus einem Trainingssatz (abgeleitet von ShapeNetCore, einer CAD-Modelldatenbank) zu lernen und eine 3D-Datenverteilung nachzuahmen, um farbige Punktwolken mit feinen Details bei mehreren Auflösungen zu erzeugen.

„Es gab einige Arbeiten, mit denen aus diesen CAD-Modelldatensätzen synthetische Objekte generiert werden konnten“, sagte er. „Aber mit Farbe konnte noch niemand umgehen.“

Um ihre Methode an einer Vielzahl von Formen zu testen, wählte Beksis Team Stühle, Tische, Sofas, Flugzeuge und Motorräder für ihr Experiment aus. Das Tool ermöglicht den Forschern den Zugriff auf die nahezu unbegrenzte Anzahl möglicher Versionen der Objektmenge, die das Deep-Learning-System generiert.

„Unser Modell lernt zunächst die Grundstruktur eines Objekts bei niedrigen Auflösungen und baut sich dann schrittweise zu Details auf hoher Ebene auf“, erklärte er. „Die Beziehung zwischen den Objektteilen und ihren Farben – zum Beispiel haben die Beine des Stuhls/Tisches die gleiche Farbe, während Sitz/Oberseite einen Kontrast bilden – wird ebenfalls vom Netzwerk gelernt. Wir fangen klein an, arbeiten mit Objekten und bauen dann eine Hierarchie auf, um eine vollsynthetische Szenengenerierung durchzuführen, die für die Robotik äußerst nützlich wäre.“

Sie generierten für jede Klasse 5.000 Zufallsstichproben und führten eine Auswertung mit verschiedenen Methoden durch. Sie bewerteten sowohl die Geometrie als auch die Farbe der Punktwolke anhand einer Vielzahl gängiger Metriken in der Praxis. Ihre Ergebnisse zeigten, dass PCGAN in der Lage ist, qualitativ hochwertige Punktwolken für eine unterschiedliche Reihe von Objektklassen zu synthetisieren.

SIM2REAL

Ein weiteres Thema, an dem Beksi arbeitet, ist umgangssprachlich als „sim2real“ bekannt. „Es gibt echte Trainingsdaten und synthetische Trainingsdaten, und es kann subtile Unterschiede darin geben, wie ein KI-System oder Roboter daraus lernt“, sagte er. „‚Sim2real‘ untersucht, wie man diese Unterschiede quantifizieren und Simulationen realistischer gestalten kann, indem man die Physik dieser Szene – Reibung, Kollisionen, Schwerkraft – erfasst und Strahlen- oder Photonenverfolgung verwendet.“

Der nächste Schritt für Beksis Team besteht darin, die Software auf einem Roboter bereitzustellen und zu sehen, wie sie im Zusammenhang mit der Lücke zwischen der Simulation und der realen Domäne funktioniert.

Das Training des PCGAN-Modells wurde durch die Deep-Learning-Ressource Maverick 2 von TACC ermöglicht, auf die Beksi und seine Studenten über das Cyberinfrastructure Research (UTRC)-Programm der University of Texas zugreifen konnten, das Forschern an allen UT-Systemen Rechenressourcen zur Verfügung stellt 14 Institutionen.

„Wenn man die Auflösung erhöhen möchte, um mehr Punkte und mehr Details einzubeziehen, geht diese Steigerung mit einem Anstieg der Rechenkosten einher“, bemerkte er. „Da wir in meinem Labor nicht über diese Hardware-Ressourcen verfügen, war es wichtig, dafür TACC zu nutzen.“

Zusätzlich zum Rechenbedarf benötigte Beksi für die Forschung umfangreiche Speicherkapazitäten. „Diese Datensätze sind riesig, insbesondere die 3D-Punktwolken“, sagte er. „Wir erzeugen Hunderte Megabyte an Daten pro Sekunde; Jede Punktwolke besteht aus etwa 1 Million Punkten. Dafür braucht man enorm viel Speicherplatz.“

Während Beksi sagt, dass der Bereich noch weit von wirklich guten, robusten Robotern entfernt ist, die über lange Zeiträume autonom sein können, würde dies mehreren Bereichen zugute kommen, darunter dem Gesundheitswesen, der Fertigung und der Landwirtschaft.

„Die Veröffentlichung ist nur ein kleiner Schritt in Richtung des ultimativen Ziels, synthetische Szenen von Innenräumen zu erzeugen, um die Wahrnehmungsfähigkeiten von Robotern zu verbessern“, sagte er.

Geschichte Quelle:

Materialien zur Verfügung gestellt von University of Texas in Austin, Texas Advanced Computing Center. Original geschrieben von Aaron Dubrow. Hinweis: Der Inhalt kann hinsichtlich Stil und Länge bearbeitet werden.