Nvidia quer usar inteligência artificial para recriar seu rosto em chamadas de vídeo
Existem milhares de razões para odiar chamadas de vídeo. Entre elas, estão os defeitos causados pela compressão de vídeo, que podem deixar sua cara irreconhecível. Quem quer resolver isso é a Nvidia. A empresa tem uma solução em potencial, só que, em vez de aprimorar os algoritmos de compressão, ela usa redes neurais para recriar sua face em tempo real.
Como acontece com todos os vídeos transmitidos pela Internet, do YouTube ao Netflix, algoritmos de compressão são usados para reduzir a quantidade de largura de banda necessária para que as chamadas de vídeo possam sempre ocorrer em tempo real, independentemente da velocidade da Internet do usuário.
Esses algoritmos usam muitos truques, como reduzir a fidelidade das cores, descartar quadros e reinterpolá-los posteriormente e minimizar a resolução do vídeo, que é o que muitas vezes faz com que as pessoas pareçam estar usando uma webcam do final dos anos 90.
Os algoritmos de compressão de vídeo vão melhorar lentamente com o tempo, oferecendo melhor qualidade com tamanhos de arquivo menores. Mas a Nvidia não quer esperar: ela demonstrou uma solução que oferece melhorias notáveis agora.
Não é nenhum segredo que as ferramentas de processamento de vídeo que usam redes neurais agora são capazes de alguns feitos impressionantes. Em outros tempos, você precisaria de um talentoso artista de efeitos visuais para conseguir resultados semelhantes.
Além de trocas de rosto convincentes, essas ferramentas também são capazes de aprimorar fotos e vídeos, gerando vistas de diferentes ângulos sem que a câmera tenha sido originalmente posicionada ali, ou criar filmagens totalmente originais de uma pessoa fazendo ou dizendo algo que, na verdade, ela não fez ou disse.
Existem bons motivos para se preocupar com os usos nefastos dessas ferramentas, mas também dá para ficar entusiasmado com seus potenciais aplicativos úteis.
A Nvidia chama isso de compressão de vídeo com inteligência artificial. Em vez de enviar um fluxo de vídeo pela Internet a 15 ou 30 quadros por segundo, envia apenas um número menor de quadros de intervalos de tempo específicos, conhecidos como quadros-chave.
Assistir apenas esses quadros-chave reproduzidos do outro lado pareceria uma apresentação de slides fragmentada, então o sistema também analisa, extrai e compartilha dados sobre a posição e o movimento de pontos específicos do rosto. Esses dados são bem mais leves do que as imagens completas.
Na outra ponta, uma rede neural que roda em uma placa gráfica com boa potência usa esses dados pontuais para gerar quadros adicionais entre os quadros-chave, resultando em um suave vídeo full-motion, e sem defeitos visuais feios.
Além dos resultados melhores em qualidade, os pesquisadores da Nvidia estimam que a largura de banda necessária para transmitir vídeo usando compressão de vídeo com inteligência artificial poderia ser reduzida a apenas um décimo da largura de banda necessária para padrões populares, como o H.264.
Isso potencialmente significa que, mesmo se você tivesse que fazer uma chamada de vídeo em seu smartphone com internet ruim, ainda ficaria tão bem como se estivesse sentado no escritório com uma conexão rápida e confiável, tudo isso sem estourar sua franquia de dados.