How to train a robot (using AI and supercomputers)

Les informaticiens ont développé une méthode d'apprentissage en profondeur pour créer des objets réalistes pour des environnements virtuels pouvant être utilisés pour entraîner des robots. Les chercheurs ont utilisé le supercalculateur Maverick2 de TACC pour former le réseau contradictoire génératif. Ce réseau est le premier à pouvoir produire des nuages de points colorés avec des détails fins à plusieurs résolutions.

Source : Université du Texas à Austin, Texas Advanced Computing Center

Avant de rejoindre l'Université du Texas à Arlington en tant que professeur adjoint au Département d'informatique et d'ingénierie et d'y fonder le Robotic Vision Laboratory, William Beksi a effectué un stage chez iRobot, le plus grand producteur mondial de robots grand public (principalement via son aspirateur robot Roomba). .

Pour naviguer dans des environnements bâtis, les robots doivent être capables de détecter et de prendre des décisions sur la manière d'interagir avec leur environnement. Les chercheurs de l’entreprise souhaitaient utiliser l’apprentissage automatique et profond pour entraîner leurs robots à en apprendre davantage sur les objets, mais cela nécessite un vaste ensemble de données d’images. Bien qu’il existe des millions de photos et de vidéos de pièces, aucune n’a été prise depuis le point d’observation d’un aspirateur robotique. Les efforts visant à s’entraîner à l’aide d’images présentant des perspectives centrées sur l’humain ont échoué.

Les recherches de Beksi se concentrent sur la robotique, la vision par ordinateur et les systèmes cyber-physiques. "En particulier, je m'intéresse au développement d'algorithmes qui permettent aux machines d'apprendre de leurs interactions avec le monde physique et d'acquérir de manière autonome les compétences nécessaires pour exécuter des tâches de haut niveau", a-t-il déclaré.

Des années plus tard, avec un groupe de recherche comprenant six doctorants en informatique, Beksi a rappelé le problème de formation du Roomba et a commencé à explorer des solutions. Une approche manuelle, utilisée par certains, consiste à utiliser une caméra coûteuse à 360 degrés pour capturer les environnements (y compris les maisons Airbnb louées) et un logiciel personnalisé pour assembler les images en un tout. Mais Beksi pensait que la méthode de capture manuelle serait trop lente pour réussir.

Au lieu de cela, il s'est tourné vers une forme d'apprentissage profond connue sous le nom de réseaux contradictoires génératifs, ou GAN, dans lesquels deux réseaux de neurones s'affrontent dans un jeu jusqu'à ce que le « générateur » de nouvelles données puisse tromper un « discriminateur ». Une fois formé, un tel réseau permettrait la création d'un nombre infini de pièces ou d'environnements extérieurs possibles, avec différents types de chaises, de tables ou de véhicules aux formes légèrement différentes, mais toujours — pour une personne et un robot — des objets identifiables aux dimensions reconnaissables. et caractéristiques.

"Vous pouvez perturber ces objets, les déplacer dans de nouvelles positions, utiliser différentes lumières, couleurs et textures, puis les restituer en une image d'entraînement qui pourrait être utilisée dans un ensemble de données", a-t-il expliqué. "Cette approche fournirait potentiellement des données illimitées sur lesquelles entraîner un robot."

"La conception manuelle de ces objets nécessiterait une énorme quantité de ressources et d'heures de travail humain, tandis que, s'ils sont formés correctement, les réseaux génératifs peuvent les fabriquer en quelques secondes", a déclaré Mohammad Samiul Arshad, un étudiant diplômé du groupe de Beksi impliqué dans la recherche.

GÉNÉRER DES OBJETS POUR DES SCÈNES SYNTHÉTIQUES

Après quelques tentatives initiales, Beksi a réalisé que son rêve de créer des scènes photoréalistes complètes était désormais hors de portée. "Nous avons pris du recul et examiné les recherches actuelles pour déterminer comment commencer à plus petite échelle, en générant des objets simples dans des environnements."

Beksi et Arshad ont présenté PCGAN, le premier réseau contradictoire génératif conditionnel à générer des nuages de points colorés denses en mode non supervisé, lors de la Conférence internationale sur la vision 3D (3DV) en novembre 2020. Leur article, « Un réseau contradictoire génératif conditionnel progressif pour générer Nuages de points 3D denses et colorés », montre que leur réseau est capable d'apprendre à partir d'un ensemble d'apprentissage (dérivé de ShapeNetCore, une base de données de modèles CAO) et d'imiter une distribution de données 3D pour produire des nuages de points colorés avec des détails fins à plusieurs résolutions.

"Certains travaux pourraient générer des objets synthétiques à partir de ces ensembles de données de modèles CAO", a-t-il déclaré. "Mais personne ne savait encore gérer la couleur."

Afin de tester leur méthode sur une diversité de formes, l'équipe de Beksi a choisi des chaises, des tables, des canapés, des avions et des motos pour leur expérience. L’outil permet aux chercheurs d’accéder au nombre quasi infini de versions possibles de l’ensemble d’objets générés par le système d’apprentissage en profondeur.

"Notre modèle apprend d'abord la structure de base d'un objet à basse résolution et évolue progressivement vers des détails de haut niveau", a-t-il expliqué. « La relation entre les parties de l'objet et leurs couleurs — par exemple, les pieds de la chaise/table sont de la même couleur tandis que l'assise/le plateau sont contrastés — est également apprise par le réseau. Nous commençons petit, en travaillant avec des objets et en construisant une hiérarchie pour générer une scène entièrement synthétique qui serait extrêmement utile pour la robotique.

Ils ont généré 5 000 échantillons aléatoires pour chaque classe et effectué une évaluation en utilisant un certain nombre de méthodes différentes. Ils ont évalué à la fois la géométrie et la couleur des nuages de points à l’aide de diverses mesures courantes dans le domaine. Leurs résultats ont montré que PCGAN est capable de synthétiser des nuages de points de haute qualité pour un éventail disparate de classes d'objets.

SIM2RÉAL

Un autre problème sur lequel Beksi travaille est connu familièrement sous le nom de « sim2real ». "Vous disposez de données d'entraînement réelles et de données d'entraînement synthétiques, et il peut y avoir des différences subtiles dans la façon dont un système d'IA ou un robot en apprend", a-t-il déclaré. "'Sim2real' étudie comment quantifier ces différences et rendre les simulations plus réalistes en capturant la physique de cette scène (friction, collisions, gravité) et en utilisant le traçage de rayons ou de photons."

La prochaine étape pour l'équipe de Beksi consiste à déployer le logiciel sur un robot et à voir comment il fonctionne par rapport à l'écart entre le domaine sim et le domaine réel.

La formation du modèle PCGAN a été rendue possible grâce à la ressource d'apprentissage en profondeur Maverick 2 de TACC, à laquelle Beksi et ses étudiants ont pu accéder via le programme de recherche sur la cyberinfrastructure de l'Université du Texas (UTRC), qui fournit des ressources informatiques aux chercheurs de n'importe lequel des systèmes UT. 14 établissements.

"Si vous souhaitez augmenter la résolution pour inclure plus de points et plus de détails, cette augmentation s'accompagne d'une augmentation du coût de calcul", a-t-il noté. « Nous ne disposons pas de ces ressources matérielles dans mon laboratoire, il était donc essentiel d'utiliser TACC pour y parvenir. »

En plus des besoins informatiques, Beksi avait besoin d'un stockage étendu pour la recherche. « Ces ensembles de données sont énormes, en particulier les nuages de points 3D », a-t-il déclaré. « Nous générons des centaines de mégaoctets de données par seconde ; chaque nuage de points compte environ 1 million de points. Cela nécessite une énorme quantité de stockage.

Même si Beksi affirme que le domaine est encore loin d'avoir de très bons robots robustes capables d'être autonomes pendant de longues périodes, cela profiterait à plusieurs domaines, notamment les soins de santé, l'industrie manufacturière et l'agriculture.

"Cette publication n'est qu'un petit pas vers l'objectif ultime de générer des scènes synthétiques d'environnements intérieurs pour faire progresser les capacités de perception robotique", a-t-il déclaré.

Source de l'histoire :

Matériaux fourni par Université du Texas à Austin, Texas Advanced Computing Center. Original écrit par Aaron Dubrow. Remarque : Le contenu peut être modifié pour le style et la longueur.