计算机科学家开发了一种深度学习方法,可以为虚拟环境创建逼真的对象,可用于训练机器人。研究人员使用 TACC 的 Maverick2 超级计算机来训练生成对抗网络。该网络是第一个可以在多种分辨率下生成具有精细细节的彩色点云的网络。
来源:德克萨斯大学奥斯汀分校,德克萨斯州高级计算中心
在加入德克萨斯大学阿灵顿分校担任计算机科学与工程系助理教授并在那里创立机器人视觉实验室之前,William Beksi 在 iRobot 实习,该公司是全球最大的消费机器人生产商(主要通过其 Roomba 机器人吸尘器生产) 。
为了在建筑环境中导航,机器人必须能够感知并决定如何与其所在区域进行交互。该公司的研究人员有兴趣使用机器和深度学习来训练他们的机器人了解物体,但这样做需要大量的图像数据集。虽然有数百万张房间照片和视频,但没有一张是从机器人吸尘器的有利位置拍摄的。使用以人为中心的视角的图像进行训练的努力失败了。
Beksi 的研究重点是机器人技术、计算机视觉和网络物理系统。 “我特别感兴趣的是开发算法,使机器能够从与物理世界的交互中学习,并自主获取执行高级任务所需的技能,”他说。
多年后,Beksi 的研究小组由六名计算机科学博士生组成,他回顾了 Roomba 的训练问题,并开始探索解决方案。一些人使用的手动方法包括使用昂贵的 360 度相机来捕捉环境(包括租用的 Airbnb 房屋),并使用定制软件将图像拼接回整体。但贝克西认为,手动捕获方法速度太慢,无法成功。
相反,他研究了一种称为生成对抗网络(GAN)的深度学习形式,其中两个神经网络在游戏中相互竞争,直到新数据的“生成器”可以欺骗“鉴别器”。一旦经过训练,这样的网络将能够创建无限数量的可能的房间或室外环境,其中有不同种类的椅子或桌子或形状略有不同的车辆,但对于人和机器人来说仍然是具有可识别尺寸的可识别物体和特点。
“你可以扰乱这些对象,将它们移动到新的位置,使用不同的灯光、颜色和纹理,然后将它们渲染成可在数据集中使用的训练图像,”他解释道。 “这种方法可能会提供无限的数据来训练机器人。”
“手动设计这些物体需要大量的资源和大量的人力,而如果训练得当,生成网络可以在几秒钟内完成它们,”参与这项研究的 Beksi 小组的研究生 Mohammad Samiul Arshad 说。
为合成场景生成对象
经过一些初步尝试后,贝克西意识到他创造逼真的全场景的梦想目前是遥不可及的。 “我们退后一步,研究了当前的研究,以确定如何从较小的规模开始——在环境中生成简单的物体。”
Beksi 和 Arshad 在 2020 年 11 月的国际 3D 视觉会议 (3DV) 上展示了 PCGAN,这是第一个以无监督模式生成密集彩色点云的条件生成对抗网络。他们的论文“A Progressive Conditional Generative Adversarial Network for Generation密集和彩色 3D 点云”表明他们的网络能够从训练集(源自 CAD 模型数据库 ShapeNetCore)中学习并模仿 3D 数据分布,以生成具有多种分辨率的精细细节的彩色点云。
“有一些工作可以从这些 CAD 模型数据集中生成合成对象,”他说。 “但还没有人能驾驭色彩。”
为了在各种形状上测试他们的方法,Beksi 的团队选择了椅子、桌子、沙发、飞机和摩托车进行实验。该工具允许研究人员访问深度学习系统生成的一组对象的近乎无限数量的可能版本。
“我们的模型首先以低分辨率学习物体的基本结构,然后逐渐构建高级细节,”他解释道。 “物体部分与其颜色之间的关系——例如,椅子/桌子的腿是相同的颜色,而座椅/顶部是对比色——也是由网络学习的。我们从小处开始,处理对象,并构建一个层次结构来生成完整的合成场景,这对于机器人技术来说非常有用。”
他们为每个类别生成 5,000 个随机样本,并使用多种不同的方法进行评估。他们使用现场的各种常见指标来评估点云几何形状和颜色。他们的结果表明,PCGAN 能够为不同的对象类数组合成高质量的点云。
SIM2真实
Beksi 正在研究的另一个问题通俗地称为“sim2real”。 “你有真实的训练数据和合成的训练数据,人工智能系统或机器人从中学习的方式可能存在细微的差异,”他说。 “‘Sim2real’着眼于如何量化这些差异,并通过捕捉场景的物理现象(摩擦、碰撞、重力)以及使用光线或光子追踪来使模拟更加真实。”
Beksi 团队的下一步是在机器人上部署该软件,并了解它如何与模拟与真实领域差距相关。
PCGAN 模型的训练是通过 TACC 的 Maverick 2 深度学习资源实现的,Beksi 和他的学生可以通过德克萨斯大学网络基础设施研究 (UTRC) 项目访问该资源,该项目为 UT 系统的任何研究人员提供计算资源14个机构。
他指出:“如果你想提高分辨率以包含更多点和更多细节,那么这种提高就会伴随着计算成本的增加。” “我们的实验室没有这些硬件资源,因此必须利用 TACC 来做到这一点。”
除了计算需求之外,Beksi 还需要大量存储空间来进行研究。 “这些数据集非常庞大,尤其是 3D 点云,”他说。 “我们每秒生成数百兆字节的数据;每个点云大约有 100 万个点。为此你需要大量的存储空间。”
尽管 Beksi 表示,该领域距离拥有能够长时间自主运行的真正强大的机器人还有很长的路要走,但这样做将使多个领域受益,包括医疗保健、制造和农业。
他说:“该出版物只是朝着生成室内环境合成场景以提高机器人感知能力的最终目标迈出的一小步。”
故事来源:
材料 由...提供 德克萨斯大学奥斯汀分校德克萨斯州高级计算中心。原文由亚伦·杜布罗撰写。 注意:内容可能会根据样式和长度进行编辑。