Em poucos anos, as trocas de face automatizadas baseadas em redes neurais deixaram de ser levemente convincentes para assustadoramente críveis. Mas, através de novas pesquisas da Disney, a troca de rostos está pronta para se tornar uma ferramenta legítima e de alta qualidade para estúdios de efeitos visuais que trabalham em grandes sucessos de Hollywood.

Um dos grandes desafios da criação de vídeos deepfake, como eles são conhecidos, é criar um banco de dados gigante de imagens faciais de uma pessoa — milhares de expressões e poses diferentes — que podem ser trocadas em um vídeo.



Quanto maior o banco de dados e quanto maior a qualidade das imagens, melhores serão as trocas de rosto (que na maioria das vezes são fotos de pessoas famosas) e geralmente são tiradas de fontes com resolução limitada. Mesmo um arquivo de vídeo 4K pode produzir imagens de rosto em baixa resolução, dada a aparência de pequenos rostos no enquadramento geral de uma foto.

Portanto, o primeiro passo para gerar bons vídeos deep fake é começar com uma fonte de alta qualidade. Em um novo artigo que está sendo apresentado no Simpósio Eurographics 2020 sobre renderização, intitulado “High-Resolution Neural Face Swapping for Visual Effects” (“Troca de rostos de alta resolução usando redes neurais para efeitos visuais”, em tradução livre), pesquisadores do Instituto Federal de Tecnologia de Zurique e do Disney Research Studios detalham várias novas inovações e abordagens para trocas de face automatizadas que produzem resultados com megapixels com qualidade e resolução suficiente para serem usados na produção de filmes.

O novo algoritmo criado pelos pesquisadores começa modificando o vídeo de destino para facilitar a troca de rostos. O movimento na filmagem da fonte é sutilmente estabilizado e suavizado para eliminar possíveis problemas, como lábio trêmulo que potencialmente poderia desencadear o processo de troca automatizada eu uma etapa posterior.

Os pesquisadores também aprimoraram várias outras etapas ao longo do caminho, incluindo a mistura da nova face no original através de técnicas de composição aprimoradas para melhor corresponder ao contraste geral. O algoritmo faz um trabalho muito melhor na geração de quadros intermediários necessários para criar resultados suaves, para que o novo rosto não parece pular quando a gravação alterada é reproduzida.

Todos os dias parece haver um novo uso de aprendizado de máquina que promete otimizar e acelerar uma tarefa que normalmente leva muito tempo para ser concluída. Desde que os primeiros vídeos de deepfake começaram a chegar à internet, artistas de efeitos visuais viram o potencial do trabalho feito por eles. Trocas de rosto não são incomuns na indústria de cinema e TV; muitas vezes, um dublê olha momentaneamente para a câmera, exigindo uma pós-produção extensa para garantir, mesmo por um breve momento, que a pessoa na tela se pareça exatamente com quem deveria.

A correção desses problemas geralmente requer refilmagens ou uma combinação de computação gráfica e composição, que é algo bem caro. Com essa nova pesquisa, as filmagens existentes poderiam ser usadas para treinar o algoritmo, que resolver esses problemas por conta própria.

Mas, embora artistas sobrecarregados de efeitos visuais e produtos de Hollywood preocupados com o orçamento possam comemorar a nova ferramenta, também tornará muito mais difícil detectar vídeos de deepfake que encontramos por aí. Não demorará muito tempo para as novas abordagens desta pesquisa encontrarem o caminho para as ferramentas de aprendizado de máquina existentes; nesse momento, podemos esperar uma nova onda de deepfakes inundando a internet — e agora há uma boa chance de que nós não saibamos quais são falsos ou não.