Deepfakes de vozes já são realidade e permitem criar falas sintéticas

Por Alyse Stanley18 de maio de 2021 às 08:004 minutos de leitura

Pesquisadores conseguiram utilizar deepfakes para criação de vozes fiéis às falas dos seres humanos, permitindo possibilidades que se estendem para toda uma futura automatização do trabalho em voz.

A novidade foi apresentada pela Veritone, responsável pelo aiWare — primeiro sistema operacional criado especificamente para inteligência artificial. Agora, a empresa lançou uma nova plataforma chamada Marvel.ai (sem relação com a editora de histórias em quadrinhos), que produz clipes de voz sintéticos. Segundo a Veritone, empresas de mídia e personalidades podem produzir conteúdo de áudio monetizado e gerar receita sem nunca precisarem ir fisicamente a um estúdio.

“Com controle total sobre sua voz e seu uso, qualquer influenciador, personalidade ou celebridade pode literalmente estar em vários lugares ao mesmo tempo. Isso abriria a porta para um novo nível de escala que não era humanamente possível antes, permitindo-lhes aumentar o número de projetos e patrocínios”, comentou a Veritone em um comunicado na última sexta-feira (14).

O processo, também conhecido como clonagem de voz, usa IA e algoritmos de aprendizado de máquina para replicar a voz de alguém com base em uma série de amostras de áudio. Os clientes podem enviar solicitações para usar tanto um modelo de voz específico para conteúdo gerado automaticamente quanto uma ferramenta de autoatendimento que se assemelha ao seu leitor de texto para fala mais tradicional. Os usuários então podem escolher opções em um catálogo de vozes pré-geradas para criar um clipe de áudio personalizado.

https://www.youtube.com/watch?v=4WFfm5_nVSQ

Em entrevista ao The Verge, o presidente da Veritone, Ryan Steelberg, explicou que, embora a Veritone se autointitule como desenvolvedora de IA em primeiro lugar, ela também depende da publicidade tradicional e do licenciamento de conteúdo para uma grande parte de sua receita. Sua subsidiária de publicidade, a Veritone One, investe na indústria de podcasting e coloca mais de 75 mil “integrações de anúncios” com influenciadores todos os meses.

Essa expertise em publicidade, juntamente com os avanços tecnológicos em síntese de fala nos últimos anos, motivou a empresa a construir uma solução melhor. Claro, o sucesso da nova vai depender do quão convincentes seus clones de voz são. Mas a tecnologia parece tão real e avançar que o Marvel.ai pode até ressuscitar as vozes dos mortos usando gravações arquivadas para treinar seus sistemas de IA.

Steelberg compartilhou alguns exemplos do produto final da Marvel.ai com o The Verge, que você pode conferir aqui, e a voz de clone humano me pareceu… humana. O tom é um pouco estranho de uma forma que não consigo definir. No entanto, vou ser honesta: é difícil dizer se isso é o meu cérebro me convencendo de algo está errado, porque eu sei que é a voz de um robô e não de uma pessoa.

Em contrapartida, a tecnologia da Marvel.ai reforça questões já existentes quanto ao uso de tecnologias que imitam os seres humanos. Quem possui os direitos legais de uma voz — ou seja, não apenas a pessoa por trás da voz — pode usar a plataforma para criar qualquer mensagem de áudio que desejar. E isso acende o mesmo sinal de alerta de uso indevido de privacidade que tem contribuído para o aumento das deepfaeks.

“Quem quer que tenha os direitos autorais dessas vozes, trabalharemos com eles para trazê-las ao mercado. Isso caberá ao detentor dos direitos e ao que eles acharem apropriado”, ponderou Steelberg.

Do ponto de vista tecnológico, isso é obviamente impressionante. Do ponto de vista moral, é preocupante. O que será que as deepfakes do futuro nos reservam?