Cientistas da computação desenvolveram um método de aprendizado profundo para criar objetos realistas para ambientes virtuais que podem ser usados para treinar robôs. Os pesquisadores usaram o supercomputador Maverick2 da TACC para treinar a rede adversária generativa. A rede é a primeira que pode produzir nuvens de pontos coloridas com detalhes finos em várias resoluções.
Fonte:Universidade do Texas em Austin, Texas Advanced Computing Center
Antes de ingressar na Universidade do Texas em Arlington como professor assistente no Departamento de Ciência da Computação e Engenharia e fundar o Robotic Vision Laboratory lá, William Beksi estagiou na iRobot, o maior produtor mundial de robôs de consumo (principalmente através de seu vácuo robótico Roomba) .
Para navegar em ambientes construídos, os robôs devem ser capazes de sentir e tomar decisões sobre como interagir com sua localidade. Pesquisadores da empresa estavam interessados em usar máquina e aprendizado profundo para treinar seus robôs para aprender sobre objetos, mas isso requer um grande conjunto de dados de imagens. Embora existam milhões de fotos e vídeos de quartos, nenhum foi filmado do ponto de vista de um vácuo robótico. Os esforços para treinar usando imagens com perspectivas centradas no ser humano falharam.
A pesquisa de Beksi se concentra em robótica, visão computacional e sistemas ciber-físicos. “Em particular, estou interessado em desenvolver algoritmos que permitam que as máquinas aprendam com suas interações com o mundo físico e adquiram de forma autônoma as habilidades necessárias para executar tarefas de alto nível”, disse ele.
Anos mais tarde, agora com um grupo de pesquisa incluindo seis estudantes de doutorado em ciência da computação, Beksi relembrou o problema de treinamento do Roomba e começou a explorar soluções. Uma abordagem manual, usada por alguns, envolve o uso de uma cara câmera de 360 graus para capturar ambientes (incluindo casas alugadas do Airbnb) e software personalizado para juntar as imagens em um todo. Mas Beksi acreditava que o método de captura manual seria muito lento para ter sucesso.
Em vez disso, ele buscou uma forma de aprendizado profundo conhecida como redes adversárias generativas, ou GANs, onde duas redes neurais competem entre si em um jogo até que o 'gerador' de novos dados possa enganar um 'discriminador'. Uma vez treinada, tal rede permitiria a criação de um número infinito de salas ou ambientes externos possíveis, com diferentes tipos de cadeiras ou mesas ou veículos com formas ligeiramente diferentes, mas ainda – para uma pessoa e um robô – objetos identificáveis com dimensões reconhecíveis e características.
“Você pode perturbar esses objetos, movê-los para novas posições, usar luzes, cores e texturas diferentes e renderizá-los em uma imagem de treinamento que pode ser usada no conjunto de dados”, explicou ele. “Essa abordagem potencialmente forneceria dados ilimitados para treinar um robô”.
“Projetar manualmente esses objetos exigiria uma enorme quantidade de recursos e horas de trabalho humano, enquanto, se treinadas adequadamente, as redes geradoras podem fazê-los em segundos”, disse Mohammad Samiul Arshad, estudante de pós-graduação do grupo de Beksi envolvido na pesquisa.
GERANDO OBJETOS PARA CENAS SINTÉTICAS
Após algumas tentativas iniciais, Beksi percebeu que seu sonho de criar cenas completas fotorrealistas estava fora de alcance. “Demos um passo para trás e analisamos as pesquisas atuais para determinar como começar em uma escala menor – gerando objetos simples em ambientes.”
Beksi e Arshad apresentaram o PCGAN, a primeira rede adversarial generativa condicional a gerar nuvens de pontos coloridas densas em um modo não supervisionado, na Conferência Internacional sobre Visão 3D (3DV) em novembro de 2020. Seu artigo, “A Progressive Conditional Generative Adversarial Network for Generating Nuvens de pontos 3D densas e coloridas”, mostra que sua rede é capaz de aprender com um conjunto de treinamento (derivado do ShapeNetCore, um banco de dados de modelo CAD) e imitar uma distribuição de dados 3D para produzir nuvens de pontos coloridas com detalhes finos em várias resoluções.
“Houve algum trabalho que poderia gerar objetos sintéticos a partir desses conjuntos de dados de modelos CAD”, disse ele. “Mas ninguém ainda conseguia lidar com cores.”
Para testar seu método em uma diversidade de formas, a equipe de Beksi escolheu cadeiras, mesas, sofás, aviões e motocicletas para o experimento. A ferramenta permite que os pesquisadores acessem o número quase infinito de versões possíveis do conjunto de objetos que o sistema de aprendizado profundo gera.
“Nosso modelo primeiro aprende a estrutura básica de um objeto em baixas resoluções e gradualmente constrói detalhes de alto nível”, explicou ele. “A relação entre as partes do objeto e suas cores – por exemplo, as pernas da cadeira/mesa são da mesma cor enquanto o assento/topo são contrastantes – também é aprendida pela rede. Estamos começando pequeno, trabalhando com objetos e construindo uma hierarquia para gerar uma cena sintética completa que seria extremamente útil para a robótica.”
Eles geraram 5.000 amostras aleatórias para cada classe e realizaram uma avaliação usando vários métodos diferentes. Eles avaliaram a geometria e a cor da nuvem de pontos usando uma variedade de métricas comuns no campo. Seus resultados mostraram que o PCGAN é capaz de sintetizar nuvens de pontos de alta qualidade para uma variedade díspar de classes de objetos.
SIM2REAL
Outra questão em que Beksi está trabalhando é conhecida coloquialmente como 'sim2real'. “Você tem dados de treinamento reais e dados de treinamento sintéticos, e pode haver diferenças sutis em como um sistema de IA ou robô aprende com eles”, disse ele. “'Sim2real' analisa como quantificar essas diferenças e tornar as simulações mais realistas, capturando a física dessa cena – atrito, colisões, gravidade – e usando rastreamento de raios ou fótons.”
O próximo passo para a equipe de Beksi é implantar o software em um robô e ver como ele funciona em relação à lacuna de domínio do simulador para o real.
O treinamento do modelo PCGAN foi possibilitado pelo recurso de aprendizado profundo Maverick 2 da TACC, que Beksi e seus alunos puderam acessar por meio do programa de Pesquisa de infraestrutura cibernética (UTRC) da Universidade do Texas, que fornece recursos de computação para pesquisadores em qualquer um dos sistemas do UT System. 14 instituições.
“Se você deseja aumentar a resolução para incluir mais pontos e mais detalhes, esse aumento vem com um aumento no custo computacional”, observou ele. “Não temos esses recursos de hardware em meu laboratório, então foi essencial usar o TACC para fazer isso.”
Além das necessidades de computação, Beksi exigia armazenamento extensivo para a pesquisa. “Esses conjuntos de dados são enormes, especialmente as nuvens de pontos 3D”, disse ele. “Geramos centenas de megabytes de dados por segundo; cada nuvem de pontos é de cerca de 1 milhão de pontos. Você precisa de uma enorme quantidade de armazenamento para isso.”
Embora Beksi diga que o campo ainda está longe de ter robôs realmente bons e robustos que possam ser autônomos por longos períodos de tempo, isso beneficiaria vários domínios, incluindo saúde, manufatura e agricultura.
“A publicação é apenas um pequeno passo em direção ao objetivo final de gerar cenas sintéticas de ambientes internos para o avanço das capacidades de percepção robótica”, disse ele.
Fonte da história:
Materiais fornecido por Universidade do Texas em Austin, Texas Advanced Computing Center. Original escrito por Aaron Dubrow. Nota: o conteúdo pode ser editado quanto ao estilo e comprimento.