Ученые-компьютерщики разработали метод глубокого обучения для создания реалистичных объектов для виртуальных сред, которые можно использовать для обучения роботов. Исследователи использовали суперкомпьютер TACC Maverick2 для обучения генеративно-состязательной сети. Сеть является первой, которая может создавать цветные облака точек с мелкими деталями при различных разрешениях.
Источник: Техасский университет в Остине, Техасский передовой вычислительный центр.
Прежде чем он присоединился к Техасскому университету в Арлингтоне в качестве доцента на факультете компьютерных наук и инженерии и основал там Лабораторию роботизированного зрения, Уильям Бекси проходил стажировку в iRobot, крупнейшем в мире производителе потребительских роботов (в основном благодаря роботизированному пылесосу Roomba). .
Чтобы ориентироваться в искусственных средах, роботы должны иметь возможность чувствовать и принимать решения о том, как взаимодействовать с их местностью. Исследователи компании были заинтересованы в использовании машин и глубокого обучения для обучения своих роботов изучению объектов, но для этого требуется большой набор изображений. Хотя есть миллионы фотографий и видео комнат, ни одна из них не была снята с точки зрения робота-пылесоса. Попытки тренироваться с использованием изображений с ориентированной на человека перспективой не увенчались успехом.
Исследования Бекси сосредоточены на робототехнике, компьютерном зрении и киберфизических системах. «В частности, я заинтересован в разработке алгоритмов, которые позволяют машинам учиться на своем взаимодействии с физическим миром и автономно приобретать навыки, необходимые для выполнения высокоуровневых задач», — сказал он.
Спустя годы, теперь уже с исследовательской группой, включающей шесть аспирантов компьютерных наук, Бекси вспомнил о проблеме обучения Roomba и начал искать решения. Ручной подход, используемый некоторыми, включает в себя использование дорогой 360-градусной камеры для захвата окружающей среды (включая арендованные дома Airbnb) и специального программного обеспечения для объединения изображений в единое целое. Но Бекси считал, что метод ручного захвата будет слишком медленным, чтобы добиться успеха.
Вместо этого он обратился к форме глубокого обучения, известной как генеративно-состязательные сети или GAN, где две нейронные сети соревнуются друг с другом в игре до тех пор, пока «генератор» новых данных не сможет обмануть «дискриминатор». После обучения такая сеть позволит создавать бесконечное количество возможных комнат или наружной среды с различными типами стульев, столов или транспортных средств немного отличающейся формы, но все же — для человека и робота — идентифицируемыми объектами с узнаваемыми размерами. и характеристики.
«Вы можете возмущать эти объекты, перемещать их в новые положения, использовать разные источники света, цвета и текстуры, а затем визуализировать их в обучающее изображение, которое можно использовать в наборе данных», — пояснил он. «Этот подход потенциально может предоставить безграничные данные для обучения робота».
«Ручное проектирование этих объектов потребует огромного количества ресурсов и часов человеческого труда, в то время как при правильной подготовке генеративные сети могут создавать их за считанные секунды», — сказал Мохаммад Самиул Аршад, аспирант группы Бекси, участвовавший в исследовании.
ГЕНЕРАЦИЯ ОБЪЕКТОВ ДЛЯ СИНТЕТИЧЕСКИХ СЦЕН
После нескольких первоначальных попыток Бекси понял, что его мечта о создании фотореалистичных полных сцен в настоящее время недостижима. «Мы сделали шаг назад и рассмотрели текущие исследования, чтобы определить, как начать с меньшего масштаба — создания простых объектов в окружающей среде».
Бекси и Аршад представили PCGAN, первую условную генеративно-состязательную сеть, которая генерирует плотные цветные облака точек в неконтролируемом режиме, на Международной конференции по 3D Vision (3DV) в ноябре 2020 года. Их документ «Прогрессивная условно-генеративно-состязательная сеть для генерации Плотные и цветные 3D-облака точек», показывает, что их сеть способна учиться на обучающем наборе (полученном из ShapeNetCore, базы данных моделей САПР) и имитировать распределение 3D-данных для создания цветных облаков точек с мелкими деталями при различных разрешениях.
«Была некоторая работа, которая могла генерировать синтетические объекты из этих наборов данных CAD-моделей», — сказал он. «Но никто еще не мог справиться с цветом».
Чтобы проверить свой метод на различных формах, команда Бекси выбрала для своего эксперимента стулья, столы, диваны, самолеты и мотоциклы. Инструмент позволяет исследователям получить доступ к почти бесконечному количеству возможных версий набора объектов, генерируемых системой глубокого обучения.
«Наша модель сначала изучает базовую структуру объекта при низком разрешении и постепенно приближается к деталям высокого уровня», — пояснил он. «Взаимосвязь между частями объекта и их цветами — например, ножки стула/стола одного цвета, а сиденье/крышка — контрастного цвета — также изучается сетью. Мы начинаем с малого, работаем с объектами и выстраиваем иерархию для создания полностью синтетической сцены, которая была бы чрезвычайно полезна для робототехники».
Они создали 5000 случайных выборок для каждого класса и провели оценку с использованием ряда различных методов. Они оценили как геометрию, так и цвет облака точек, используя множество распространенных в полевых условиях показателей. Их результаты показали, что PCGAN способна синтезировать высококачественные облака точек для разрозненного массива классов объектов.
SIM2REAL
Еще одна проблема, над которой работает Бекси, в просторечии известна как «sim2real». «У вас есть реальные обучающие данные и синтетические обучающие данные, и могут быть тонкие различия в том, как система ИИ или робот учится на них», — сказал он. «Sim2real» рассматривает, как количественно оценить эти различия и сделать симуляции более реалистичными, фиксируя физику этой сцены — трение, столкновения, гравитацию — и используя трассировку лучей или фотонов».
Следующим шагом для команды Бекси является развертывание программного обеспечения на роботе и проверка того, как оно работает в связи с разрывом между симуляцией и реальным доменом.
Обучение модели PCGAN стало возможным благодаря ресурсу глубокого обучения TACC Maverick 2, к которому Бекси и его студенты смогли получить доступ через программу исследований киберинфраструктуры Техасского университета (UTRC), которая предоставляет вычислительные ресурсы исследователям в любом из UT System. 14 учреждений.
«Если вы хотите увеличить разрешение, чтобы включить больше точек и больше деталей, это увеличение связано с увеличением вычислительных затрат», — отметил он. «У нас нет таких аппаратных ресурсов в моей лаборатории, поэтому для этого было необходимо использовать TACC».
Помимо вычислительных потребностей, Бекси требовалось обширное хранилище для исследований. «Эти наборы данных огромны, особенно трехмерные облака точек», — сказал он. «Мы генерируем сотни мегабайт данных в секунду; каждое облако точек составляет около 1 миллиона точек. Для этого вам понадобится огромный объем памяти».
Хотя Бекси говорит, что в этой области еще далеко до действительно хороших надежных роботов, которые могут быть автономными в течение длительного периода времени, это принесет пользу во многих областях, включая здравоохранение, производство и сельское хозяйство.
«Эта публикация — всего лишь один маленький шаг к конечной цели — созданию синтетических сцен внутренней среды для расширения возможностей восприятия роботов», — сказал он.
Источник истории:
Материалы предоставлено Техасский университет в Остине, Техасский центр передовых вычислений. Оригинал написан Аароном Даброу. Примечание. Содержимое может быть изменено по стилю и длине.