A Samsung agora consegue criar vídeos fake ultrarrealistas com apenas uma foto

Sistema desenvolvido por pesquisadores da Samsung conseguiu transformar quadros como Mona Lisa em vídeos deepfake ultrarrealistas usando apenas uma imagem.

Melanie Ehrenkranz

5 anos atrás

Os vídeos “fake” estão se tornando cada vez melhores, e agora ficou ainda mais fácil criá-los. Para propósitos inofensivos, como, por exemplo, um avatar em movimento, é uma evolução muito legal. Mas para outros casos, como utilizar a tecnologia para assediar alguém online, pode ser algo preocupante.

Pesquisadores do Centro de Inteligência Artificial da Samsung em Moscou e o Instituto de Ciência e Tecnologia de Skolkovo publicaram um estudo – Few-Shot Adversarial Learning of Realistic Neural Talking Head Models (Aprendizagem Adversarial de Poucas-Imagens de Modelos de Cabeça Neural Falantes Realistas) – nesta semana que ilustra como o sistema deles é capaz de criar uma cabeça falante virtual com poucas imagens. Enquanto pesquisadores têm anunciado no último ano diversas formas de criar deepfakes – em que se utiliza machine learning para criar um vídeo falso ultrarrealista de alguém – ainda há um pré-requisito crucial. É necessário coletar muitas imagens de um indivíduo para gerar um deepfake realista dele.

Claro que isso não é algo impossível de fazer se você tiver uma ferramenta open-source de captura de fotos e a pessoa publicou fotos ou vídeos online suficientes de si própria. Mas isso ainda era um obstáculo e indicou às vítimas que elas precisavam ser mais cuidadosas em relação ao que compartilhavam na internet. Mas esse novo sistema torna essas criações muito mais fáceis e rápidas.

https://gizmodo.uol.com.br/wp-content/blogs.dir/8/files/2019/05/fwiv4ojh9yodrvjlquom.mp4
GIF: YouTube

Os pesquisadores escrevem no estudo que o sistema pode criar “modelos de cabeças falantes a partir de algumas imagens” e “com tempo de treinamento limitado”. Para criar um deepfake, é preciso alimentar uma rede neural com as diversas fotos do indivíduo e ela, então, vai gerar um vídeo manipulado. Os pesquisadores alegam que seu sistema precisa de apenas uma foto, e não leva muito tempo para aprender com os dados de treinamento para criar o vídeo fake.

Segundo eles, para o “realismo perfeito”, o modelo foi treinado com 32 imagens, o que ainda é um número bem pequeno e fácil de coletar nessa era de compartilhamento online excessivo. É difícil não imaginar alguém sendo capaz de coletar essas imagens com uma visita rápida a um perfil no Facebook. Isso mostra como essa tecnologia está se desenvolvendo rápido.

Há alguns exemplos no estudo mostrando modelos de cabeças falantes geradas apenas com uma única imagem, e isso mostra como o sistema consegue colocar algo estático em movimento, com quadros da Mona Lisa e da Moça com Brinco de Pérola fazendo diversas expressões. Esses vídeos são ainda mais perturbadores – com apenas uma imagem, o sistema foi capaz de gerar vídeos bem realistas. E, em muitos dos exemplos, não é tão fácil identificar que eles são completamente falsos.

GIF: YouTube

No estudo, os pesquisadores observam que esse tipo de tecnologia pode ter “aplicações práticas para telepresença, incluindo conferências em vídeo e jogos multi-player, além da indústria de efeitos especiais”. À medida que as empresas de tecnologia investem em avatares animados e realidade virtual, essa tecnologia parece ser um passo natural em direção a visuais cada vez mais personalizados e realistas. Também parece ser um passo natural para áreas como estúdios de cinema que queiram, por exemplo, fazer uma recriação pós-morte de um ator em tempo recorde.

Mas seria irresponsável exaltar essa tecnologia sem apontar para a ameaça muito real que ela representa para vítimas de manipulação de vídeos. Na verdade, quando o deepfake tornou-se público, era apenas questão de tempo até a tecnologia ser utilizada contra mulheres. A triste realidade é que sempre haverá pessoas de mau caráter online que vão explorar esse tipo de tecnologia e, à medida que ela se desenvolve, sempre haverá pessoas tentando torná-la mais fácil e mais eficiente também.