Se você não ficou assustado o suficiente assistindo ao comercial bizarro de uma pizzaria feito por IA (inteligência artificial), espere ver esse anúncio de uma marca de cerveja.
O vídeo de 30 segundos publicado no Instagram mostra o que parece ser uma festa ao som do icônico “All Star”, do Smash Mouth. Tudo seria normal se não fossem as imagens mais do que bizarras, como rostos dismórficos e objetos flutuantes.
A produtora Privateisland.tv, de Londres, responsável pela produção, não divulgou quais programas usou para gerar as imagens. Mas uma experiência recente na publicidade da pizzaria dá algumas dicas.
As imagens parecem ter sido geradas com o Stable Diffusion, que cria clipes sobre imagens estáticas, e o Runway AI, que faz vídeos curtos a partir de comandos de texto.
“Nenhuma pessoa real aparece neste vídeo”, diz a legenda no Instagram. “Não podes lutar contra o futuro – mas provavelmente podes beber”. Assista:
https://www.youtube.com/watch?v=YlY-iNrqFDo
Por que a IA faz vídeos tão bizarros?
Enquanto os geradores de imagens estáticas por comandos de texto têm qualidade cada vez maior, os geradores de vídeo por IA ainda são bastante primitivos.
Isso porque esses sistemas de IA “aprendem” como é um comercial de cerveja, por exemplo, e tentam reproduzi-lo a partir de uma lógica matemática e computacional, sem a intenção de torná-lo bizarro. Como podemos ver, nem sempre sai como o esperado.
Um artigo recente do Runway AI Gen 2 – que ainda está em fase de teste fechados – mostra que o modelo anterior, Gen 1, usou um conjunto de dados internos de 240 milhões de imagens e um conjunto de dados personalizado de 6,4 milhões de videoclipes.
Na comparação, o DALL-E 2, gerador de imagens por comando de texto da OpenAI, usou 650 milhões de pares de imagem-texto extraídos da internet para criar sua base de dados.
Mesmo assim, o vídeo não deixa de ser impressionante. Esses sistemas têm aprendizado de máquina baseado na repetição do seu uso. Isso tende a torná-los mais precisos no futuro, quando outros comerciais e vídeos devem vir da IA.