Um algoritmo aterrorizante consegue gerar retratos baseado apenas na voz das pessoas

Demonstração de algoritmo que gera retratos a partir da voz das pessoas — Captura de tela: Arxiv

Por Melanie Ehrenkranz10 de junho de 2019 às 11:494 minutos de leitura

A tecnologia pode aprender bastante sobre a gente, independente de gostarmos ou não. Ela pode descobrir o que gostamos, onde estivemos, como nos sentimos e até fazer com que digamos ou façamos coisas que nunca fizemos antes. De acordo com uma nova pesquisa, ela pode começar a perceber como você é baseado simplesmente no som da sua voz.

Pesquisadores do MIT publicaram um estudo no mês passado chamado Speech2Face: Learning the Face Behind a voice, que explora como um algoritmo pode gerar um rosto baseado em um pequeno trecho de áudio da voz desta pessoa. Não é uma representação exata do falante, mas com base nas imagens do artigo, o sistema conseguiu criar uma imagem do rosto voltado para a frente com uma expressão neutra com sexo, raça e idade precisos.

Os pesquisadores treinaram uma rede neural profunda de milhões de clipes educacionais do YouTube com mais de 100 mil falantes distintos, segundo o artigo. Embora os pesquisadores notem que o método deles não geram imagens exatas de uma pessoa baseada neste pequenos clipes de áudio, os exemplos mostrados no estudo indicam que os retratos resultantes se assemelham estranhamente com a aparência real da pessoa.

Não é necessariamente semelhante o suficiente para que você seja capaz de identificar alguém com base na imagem, mas sinaliza a nova realidade que, mesmo em uma forma rudimentar, um algoritmo pode adivinhar — e gerar — uma imagem de uma pessoa baseada apenas na voz.

Os autores do estudo fizeram algumas considerações éticas no artigo, em especial em torno do fato de que seu sistema não revela a “verdadeira identidade de uma pessoa”, mas cria “faces de aparência comum”. Isso é para garantir que não seja uma invasão de privacidade. No entanto, os pesquisadores levantaram algumas questões éticas espinhosas com o tipo de dados que usaram para o modelo criado. Um dos indivíduos incluídos no conjunto de dados disse ao Slate que ele não se lembra de ter assinado um documento autorizando o vídeo do YouTube a ser usado para tal fim (no caso, ser usado no treinamento de um algoritmo). No entanto, os vídeos estão disponíveis publicamente e, legalmente, este tipo de consentimento não foi necessário.

“Como minha imagem e minha voz foram apontados como exemplo no artigo Speech2Face, em vez de ser usada apenas como um ponto de dados em um estudo estatístico, teria sido educado pelo menos entrar em contato para me informar ou pedir minha permissão”, disse Nick Sullivan, chefe de criptografia da Cloudflare, ao Slate, que foi usado no estudo.

Os pesquisadores também indicam no estudo que o conjunto de dados que eles usaram não é uma representação precisa da população mundial, uma vez que estava apenas retirando um subconjunto específico de vídeos no YouTube. É, portanto, tendencioso — o problema comum entre os conjuntos de dados de aprendizado de máquina. Certamente é bom que os pesquisadores tenham apontado as considerações éticas com seu trabalho.

No entanto, à medida que a tecnologia avança, nem sempre serão evoluídos e implantados por equipes ou indivíduos com boas intenções. Existem várias maneiras de explorar este tipo de sistema e, se alguém descobrir uma maneira de criar representações mais realistas de alguém com base em uma gravação de áudio, isso indica um futuro em que o anonimato se torna cada vez mais difícil alcançar. Quer você goste ou não.

Um algoritmo aterrorizante consegue gerar retratos baseado apenas na voz das pessoas

Melanie Ehrenkranz

Motorola Moto G23 com áudio Dolby Atmos sai 38% OFF

Cadeira de presidente revestida em couro sintético e estrutura cromada sai 20% OFF

Ventilador de torre com 4 velocidades e oscilação horizontal sai 22% OFF

iPhone 15 Pro Max 256GB feito em titânio aeroespacial sai até R$ 2.700 OFF

Samsung A35 5G com memória expansível de 256GB e 8GB de RAM sai 41% OFF no Pix

Xbox Series S renderiza gráficos em 8K e proporciona jogo em até 120 FPS sai 14% OFF

5 em 1: fritadeira Elétrica Rita Lobo com 12L sai 31% OFF

Monitor UltraGear com tela de 24″ 180Hz e sRGB 99% sai até R$ 240 OFF

JBL Tune 520BT com bateria de até 57 horas e Bluetooth 5.3 sai por menos de R$ 250

Realme C65 com tela grande de 6,7″ e carregador 45W sai 45% OFF

Um algoritmo aterrorizante consegue gerar retratos baseado apenas na voz das pessoas

fique por dentro das novidades giz Inscreva-se agora para receber em primeira mão todas as notícias sobre tecnologia, ciência e cultura, reviews e comparativos exclusivos de produtos, além de descontos imperdíveis em ofertas exclusivas

fique por dentro
das novidades giz Inscreva-se agora para receber em primeira mão todas as notícias sobre tecnologia, ciência e cultura, reviews e comparativos exclusivos de produtos, além de descontos imperdíveis em ofertas exclusivas