Já vimos vários sistemas de aprendizagem de máquina criarem estranhas novas frases e imagens oníricas depois de serem treinados com grandes quantidades de dados. Mas um novo site permite que você faça a parte da geração, e os resultados são tão bizarros quanto você esperaria:

“um homem desfrutando de um cupcake”. Imagem: Hudson Hongo/T2i

O applet online, construído pelo pesquisador Cristóbal Valenzuela, é baseado em um novo artigo de uma outra equipe de pesquisadores. Seu algoritmo de aprendizagem de máquina se chama AttnGAN (Attentional Generative Adversarial Network, ou “Rede Adversarial Geradora de Atenção”, em tradução livre). O objetivo é aprimorar outras IAs de texto para imagem, refinando imagens no nível de palavras. Por ora, os resultados estão mais para arte surrealista:

“uma mulher se transformando no minion que tem assombrado seus sonhos”. Imagem: Hudson Hongo/T2i

A aprendizagem de máquina, como você provavelmente já sabe, é o processo que pesquisadores usam para treinar algoritmos com grandes conjuntos de dados, permitindo-lhes resolver problemas complexos como “essa imagem é de que?” por conta própria. Esses algoritmos também podem fazer o oposto, criando novas imagens a partir de palavras. O novo artigo explica que programas mais antigos de texto para imagem formavam imagens usando sentenças inteiras, o que não mostrava bons resultados. Seu método, em vez disso, cria uma imagem geral a partir da sentença inteira, então refinando a imagem usando as subpartes da sentença.

Os pesquisadores treinaram a rede com o conjunto de dados COCO, ou Common Objects in Context (Objetos Comuns Contextualizados, em tradução livre). Ele é uma boa fonte de referência para imagens de objetos comuns, como sinais de pare, animais e… letras de música do Modest Mouse.

“um sinal de pare em um dia nublado”. Imagem: Ryan Mandelbaum/T2i

“não consigo achar meu cavalo estou com tanta saudade dele”. Imagem: Hudson Hongo/T2i

“uma matilha selvagem de cães veio correndo pelo quintal um dia”. Imagem: Ryan Mandelbaum/T2i

A ferramenta de Valenzuela se destacou em criar resultados de sonhos febris em resposta aos pedidos malucos dos funcionários do Gizmodo. Hudson Hongo, mais especificamente, ficou muito bom em conseguir as imagens que queria.

“meus vizinhos estão fazendo molho de espaguete”. Imagem: Kelly Bouret/T2i

“meu pai não responde meus memes de mamma mia”. Imagem: Hudson Hongo/T2i

“um homem molhado namorando a Grimes”. Image: Hudson Hongo/T2i

Sem surpresa alguma, o blog AI Weirdness, da Janelle Shane, foi onde descobrimos sobre o AttnGAN, então perguntamos a ela o que ele dizia sobre o estado atual da inteligência artificial.

“Essa demonstração é um jeito muito interessante de mostrar o quanto um algoritmo moderno de reconhecimento de imagem entende sobre imagem e texto”, disse ao Gizmodo. “O que ele entende sobre o que ‘cão’ significa? Ou ‘humano’?” Mas ela notou que essa estrutura é difícil para esses algoritmos. “Se ele vê um braço humano apontando em direção a ele em vez de para o lado, isso é muito diferente em uma imagem 2D.”

Shane também apontou que o algoritmo desenhava pássaros muito bem quando precisava desenhar apenas pássaros, mas que as coisas pioravam à medida que esperávamos mais do sistema — a versão do AttnGAN no site de Valenzuela tenta desenhar qualquer coisa que um usuário digite. Ela o comparou com carros autônomos, que têm muito mais tarefas a fazer e obstáculos a reconhecer.

Entramos em contato com a primeira autora do estudo, a pós-graduanda Tao Xu, da Universidade Lehigh, e ela explicou que o sistema atual representava uma melhoria significativa em comparação com o melhor resultado anteriormente relatado:

Atualmente, com os avanços recentes em deep learning, os sistemas de visão computacional estão tão poderosos que eles são capazes de, por exemplo, diagnosticar doenças a partir de imagens médicas, identificar humanos e carros para direção autônoma. Entretanto, ainda não podemos concluir que esses sistemas entendem verdadeiramente o mundo visual. Porque, se as máquinas têm tamanha “inteligência”, elas deveriam não só reconhecer imagens, mas também conseguir gerá-las.

Nosso AttnGAN incorpora o mecanismo de Atenção com Generative Adversarial Networks (GANs), o que impulsiona significativamente o desempenho de geração de texto para imagem. Como a atenção é um conceito humano, nosso AttnGAN aprende tal “inteligência” e é capaz de desenhar como humanos, ou seja, repetidamente se referem à descrição de texto e prestam mais atenção em palavras relevantes ao desenhar uma certa região da imagem.

Embora o AttnGAN tenha um desempenho muito melhor que os sistemas mais modernos em termos de síntese de texto para imagem, gerar imagens realistas com objetos de múltiplas categorias ainda é um problema em aberto na comunidade. E gostaríamos de investigar mais nessa direção no futuro.

“o robô vem me ver todas as noites”. Imagem: Jennings Brown/T2i

“nu descendo uma escada”. Imagem: Marina Galperina/T2i

E você? Que imagens conseguiu criar no sistema? E vocês também ficaram com a impressão de que essas imagens serviriam muito bem para ilustrar cartas de Dixit?

[arxiv/T2i via AI Weirdness]

Imagem do topo: Hudson Hongo/T2i