As “redes adversárias generativas”, ou GANs, na sigla em inglês, podem fazer muitas coisas — basicamente é o tipo de aprendizado de máquina utilizado para gerar rostos realistas de inteligência artificial e deepfakes. Mas os pesquisadores do MIT estão utilizando a GAN para gerar uma rede neural capaz de ensinar computadores como fazer pizza.

O estudo é intitulado “How to make a pizza: Learning a compositional layer-based GAN model” (Como fazer uma pizza: aprendendo um modelo GAN com base em camadas composicionais, em tradução livre), e foi encontrado pelo pessoal do ZDNet no arxiv.org.



O chamado “Projeto PizzaGAN” é uma tentativa de “ensinar uma máquina como fazer uma pizza ao construir um modo generativo que espelhe esse procedimento passo a passo”. Em português claro, pelo fato de as pizzas ser compostas por camadas, os pesquisadores decidiram ensinar as máquinas a reconhecerem os diferentes passos de se fazer uma pizza ao dissecar imagens da comida e identificar cada ingrediente.

Então, uma pizza lisa tem uma aparência. Ao adicionar recheios e ingredientes, a aparência geral seria outra. Ao identificar as mudanças visuais, teoricamente, a rede neural poderia fazer uma engenharia reversa para entender corretamente a sequência de passos.

Os pesquisadores primeiro criaram um conjunto de dados sintéticos de cerca de 5.500 imagens de pizza em clipart. O próximo passo envolveu varrer a hashtag #pizza no Instagram por fotos de pizza do mundo real. Depois de filtrar imagens “indesejadas”, os pesquisadores ficaram com 9.213 fotos de pizza.

O código do PizzaGAN então faz duas coisas. Primeiro, ele treina a máquina sobre como adicionar ou remover ingredientes individuais, como pepperoni, e então criar uma imagem sintética. Outro modelo então detecta os recheios que aparecem e prevê a ordem em que eles aparecem no processo de preparo ao calcular a profundidade.

Então, se você tem uma foto de uma pizza com cogumelo, pepperoni e azeitonas, o PizzaGAN poderia conseguir identificar os três recheios e visualizar que os cogumelos estavam em cima — e, portanto, deduzir que o ingrediente foi adicionado por último. (Você pode brincar de remover e adicionar ingredientes, bem como preparar e despreparar a pizza no site do projeto).

O PizzaGAN funciona primeiro ao identificar os ingredientes, depois prevendo a profundidade das camadas para fazer uma engenharia reversa sobre o modo de preparo. Imagem: MIT

Os resultados foram bem precisos. Embora, no artigo, os pesquisadores do MIT notaram que eles tiveram resultados melhores a partir do conjunto de dados sintéticos. No geral, eles descobriram que os experimentos mostraram que o PizzaGAN poderia detectar e segmentar os recheios da pizza, supor o que deveria estar por baixo e inferir a ordem com uma supervisão mínima.

No longo prazo, alguém poderia imagem uma rede neural capaz de escanear uma foto e separá-la em uma receita bem precisa baseada nos ingredientes, como ela foi preparada — até mesmo com temperos que mal aparecem na imagem. No estágio atual, os pesquisadores estão mostrando principalmente a habilidade da inteligência artificial de diferenciar itens em uma pilha confusa de ingredientes.

Os pesquisadores concluíram ainda que esse mesmo método do PizzaGAN pode ser aplicado para outras comidas de “camadas” como hambúrgueres, sanduíches e saladas. Em um contexto não alimentar, os pesquisadores apontaram que a ideia poderia ser aplicada em áreas como moda em assistentes digitais de compras. Pense numa versão moderna do smart closet de As Patricinhas de Beverly Hills que Cher usa para escolher o que vai vestir. Estou esperando isso acontecer, inclusive.

[ZDNet]