Após a febre dos vídeos deepfakes, está chegando o VALL-E, um novo recurso de inteligência artificial (IA) capaz de replicar de forma convincente a voz humana.
A nova ferramenta, criada pela Microsoft, foi liberada na última semana na plataforma GitHub. Ela usa um modelo de aprendizado de máquina que usa “linguagem de codec neural”, que cria uma nova abordagem para renderizar vozes.
Vale ressaltar que a replicação de voz não é algo novo: várias startups conseguindo resultados satisfatórios nos últimos anos. É o caso, por exemplo, da Sonantic – recém adquirida pela Spotify –, que desenvolveu um recurso para dar voz ao ator Val Kilmer, no filme “Top Gun: Maverick”. Como você deve ter visto aqui no Giz Brasil, até a voz de Darth Vader passará a ser gerada por uma IA daqui para frente.
O que a VALL-E tem diferente é que ele promete uma melhor naturalidade de fala e similaridade com a voz original. É possível criar uma “fala personalizada de alta qualidade” a partir de um áudio de apenas três segundos da voz de uma pessoa — como uma ligação telefônica gravada ou um vídeo antigo, por exemplo.
Além disso, a ferramenta pode preservar a emoção do locutor, bem como o tom, timbre, sotaque e, até mesmo, o ambiente acústico que o áudio original foi criado.
Abaixo, é possível ter uma amostra da IA em ação, com o segundo áudio tendo sido gerado de forma artificial a partir do primeiro. O resultado impressiona.
Como pontuou o TechCrunch, a VALL-E ainda não é um tipo de modelo IA que você executa no celular ou em um computador comum. Porém, conforme os dispositivos evoluam tecnologicamente, esse tipo de ferramenta poderá estar disponível para mais pessoas em alguns anos.
A Microsoft ressalta que a nova ferramenta pode gerar riscos potenciais de golpes ou falsificações, como criar áudios sintetizados com a voz de qualquer pessoa sem o devido consentimento. Para tal, a empresa recomenda que deve existir um protocolo para garantir que o locutor original aprove formalmente o uso de sua voz na IA, bem como o uso de modelos de detecção dessa fala gerada por computador.
Por outro lado, o recurso IA da Microsoft pode ser usado para aplicações interessantes, como restaurar a voz daquelas pessoas que perderam a capacidade de fala devido a uma doença ou acidente.