Inteligência Artificial

Esta ferramenta online de IA transforma suas palavras em imagens que mais parecem arte surrealista

Já vimos vários sistemas de aprendizagem de máquina criarem estranhas novas frases e imagens oníricas depois de serem treinados com grandes quantidades de dados. Mas um novo site permite que você faça a parte da geração, e os resultados são tão bizarros quanto você esperaria: “um homem desfrutando de um cupcake”. Imagem: Hudson Hongo/T2i O […]

Por Ryan F. Mandelbaum20 de agosto de 2018 às 12:515 minutos de leitura

“um homem desfrutando de um cupcake”. Imagem: Hudson Hongo/T2i

O applet online, construído pelo pesquisador Cristóbal Valenzuela, é baseado em um novo artigo de uma outra equipe de pesquisadores. Seu algoritmo de aprendizagem de máquina se chama AttnGAN (Attentional Generative Adversarial Network, ou “Rede Adversarial Geradora de Atenção”, em tradução livre). O objetivo é aprimorar outras IAs de texto para imagem, refinando imagens no nível de palavras. Por ora, os resultados estão mais para arte surrealista:

“uma mulher se transformando no minion que tem assombrado seus sonhos”. Imagem: Hudson Hongo/T2i

A aprendizagem de máquina, como você provavelmente já sabe, é o processo que pesquisadores usam para treinar algoritmos com grandes conjuntos de dados, permitindo-lhes resolver problemas complexos como “essa imagem é de que?” por conta própria. Esses algoritmos também podem fazer o oposto, criando novas imagens a partir de palavras. O novo artigo explica que programas mais antigos de texto para imagem formavam imagens usando sentenças inteiras, o que não mostrava bons resultados. Seu método, em vez disso, cria uma imagem geral a partir da sentença inteira, então refinando a imagem usando as subpartes da sentença.

Os pesquisadores treinaram a rede com o conjunto de dados COCO, ou Common Objects in Context (Objetos Comuns Contextualizados, em tradução livre). Ele é uma boa fonte de referência para imagens de objetos comuns, como sinais de pare, animais e… letras de música do Modest Mouse.

“um sinal de pare em um dia nublado”. Imagem: Ryan Mandelbaum/T2i

“não consigo achar meu cavalo estou com tanta saudade dele”. Imagem: Hudson Hongo/T2i

“uma matilha selvagem de cães veio correndo pelo quintal um dia”. Imagem: Ryan Mandelbaum/T2i

A ferramenta de Valenzuela se destacou em criar resultados de sonhos febris em resposta aos pedidos malucos dos funcionários do Gizmodo. Hudson Hongo, mais especificamente, ficou muito bom em conseguir as imagens que queria.

“meus vizinhos estão fazendo molho de espaguete”. Imagem: Kelly Bouret/T2i

“meu pai não responde meus memes de mamma mia”. Imagem: Hudson Hongo/T2i

“um homem molhado namorando a Grimes”. Image: Hudson Hongo/T2i

Sem surpresa alguma, o blog AI Weirdness, da Janelle Shane, foi onde descobrimos sobre o AttnGAN, então perguntamos a ela o que ele dizia sobre o estado atual da inteligência artificial.

“Essa demonstração é um jeito muito interessante de mostrar o quanto um algoritmo moderno de reconhecimento de imagem entende sobre imagem e texto”, disse ao Gizmodo. “O que ele entende sobre o que ‘cão’ significa? Ou ‘humano’?” Mas ela notou que essa estrutura é difícil para esses algoritmos. “Se ele vê um braço humano apontando em direção a ele em vez de para o lado, isso é muito diferente em uma imagem 2D.”

Shane também apontou que o algoritmo desenhava pássaros muito bem quando precisava desenhar apenas pássaros, mas que as coisas pioravam à medida que esperávamos mais do sistema — a versão do AttnGAN no site de Valenzuela tenta desenhar qualquer coisa que um usuário digite. Ela o comparou com carros autônomos, que têm muito mais tarefas a fazer e obstáculos a reconhecer.

Entramos em contato com a primeira autora do estudo, a pós-graduanda Tao Xu, da Universidade Lehigh, e ela explicou que o sistema atual representava uma melhoria significativa em comparação com o melhor resultado anteriormente relatado:

Atualmente, com os avanços recentes em deep learning, os sistemas de visão computacional estão tão poderosos que eles são capazes de, por exemplo, diagnosticar doenças a partir de imagens médicas, identificar humanos e carros para direção autônoma. Entretanto, ainda não podemos concluir que esses sistemas entendem verdadeiramente o mundo visual. Porque, se as máquinas têm tamanha “inteligência”, elas deveriam não só reconhecer imagens, mas também conseguir gerá-las.

Nosso AttnGAN incorpora o mecanismo de Atenção com Generative Adversarial Networks (GANs), o que impulsiona significativamente o desempenho de geração de texto para imagem. Como a atenção é um conceito humano, nosso AttnGAN aprende tal “inteligência” e é capaz de desenhar como humanos, ou seja, repetidamente se referem à descrição de texto e prestam mais atenção em palavras relevantes ao desenhar uma certa região da imagem.

Embora o AttnGAN tenha um desempenho muito melhor que os sistemas mais modernos em termos de síntese de texto para imagem, gerar imagens realistas com objetos de múltiplas categorias ainda é um problema em aberto na comunidade. E gostaríamos de investigar mais nessa direção no futuro.

“o robô vem me ver todas as noites”. Imagem: Jennings Brown/T2i

“nu descendo uma escada”. Imagem: Marina Galperina/T2i

E você? Que imagens conseguiu criar no sistema? E vocês também ficaram com a impressão de que essas imagens serviriam muito bem para ilustrar cartas de Dixit?

[arxiv/T2i via AI Weirdness]

Imagem do topo: Hudson Hongo/T2i

Esta ferramenta online de IA transforma suas palavras em imagens que mais parecem arte surrealista

Ryan F. Mandelbaum

Pipoqueira elétrica que estoura o milho em até 3 minutos sai por menos de R$ 200

Samsung S23 Ultra de 256GB e tela grande de 6,8″ 120Hz sai até R$ 5.000 OFF

Cafeteira de cápsulas da Nespresso faz café em apenas 8 segundos e está 40% OFF

Caixa de som Coca-Cola com IPX6 e bateria de até 15 horas sai 26% OFF

Poco X6 Pro 5G com 512GB e câmera de 64MP sai 22% OFF

Motorola G34 já vem com Android 14 e tem câmera selfie de 16MP sai até R$ 400 OFF

Ar condicionado 9000btus com tecnologia Inverter sai 16% OFF

Relógio Motorola Watch 70 tem bateria de até 10 dias e sai 18% OFF

Motorola Moto G23 com áudio Dolby Atmos sai 38% OFF

Cadeira de presidente revestida em couro sintético e estrutura cromada sai 20% OFF

Esta ferramenta online de IA transforma suas palavras em imagens que mais parecem arte surrealista

fique por dentro das novidades giz Inscreva-se agora para receber em primeira mão todas as notícias sobre tecnologia, ciência e cultura, reviews e comparativos exclusivos de produtos, além de descontos imperdíveis em ofertas exclusivas

fique por dentro
das novidades giz Inscreva-se agora para receber em primeira mão todas as notícias sobre tecnologia, ciência e cultura, reviews e comparativos exclusivos de produtos, além de descontos imperdíveis em ofertas exclusivas