Um algoritmo aterrorizante consegue gerar retratos baseado apenas na voz das pessoas

Demonstração de algoritmo que gera retratos a partir da voz das pessoas — Captura de tela: Arxiv

Por Melanie Ehrenkranz10 de junho de 2019 às 11:494 minutos de leitura

A tecnologia pode aprender bastante sobre a gente, independente de gostarmos ou não. Ela pode descobrir o que gostamos, onde estivemos, como nos sentimos e até fazer com que digamos ou façamos coisas que nunca fizemos antes. De acordo com uma nova pesquisa, ela pode começar a perceber como você é baseado simplesmente no som da sua voz.

Pesquisadores do MIT publicaram um estudo no mês passado chamado Speech2Face: Learning the Face Behind a voice, que explora como um algoritmo pode gerar um rosto baseado em um pequeno trecho de áudio da voz desta pessoa. Não é uma representação exata do falante, mas com base nas imagens do artigo, o sistema conseguiu criar uma imagem do rosto voltado para a frente com uma expressão neutra com sexo, raça e idade precisos.

Os pesquisadores treinaram uma rede neural profunda de milhões de clipes educacionais do YouTube com mais de 100 mil falantes distintos, segundo o artigo. Embora os pesquisadores notem que o método deles não geram imagens exatas de uma pessoa baseada neste pequenos clipes de áudio, os exemplos mostrados no estudo indicam que os retratos resultantes se assemelham estranhamente com a aparência real da pessoa.

Não é necessariamente semelhante o suficiente para que você seja capaz de identificar alguém com base na imagem, mas sinaliza a nova realidade que, mesmo em uma forma rudimentar, um algoritmo pode adivinhar — e gerar — uma imagem de uma pessoa baseada apenas na voz.

Os autores do estudo fizeram algumas considerações éticas no artigo, em especial em torno do fato de que seu sistema não revela a “verdadeira identidade de uma pessoa”, mas cria “faces de aparência comum”. Isso é para garantir que não seja uma invasão de privacidade. No entanto, os pesquisadores levantaram algumas questões éticas espinhosas com o tipo de dados que usaram para o modelo criado. Um dos indivíduos incluídos no conjunto de dados disse ao Slate que ele não se lembra de ter assinado um documento autorizando o vídeo do YouTube a ser usado para tal fim (no caso, ser usado no treinamento de um algoritmo). No entanto, os vídeos estão disponíveis publicamente e, legalmente, este tipo de consentimento não foi necessário.

“Como minha imagem e minha voz foram apontados como exemplo no artigo Speech2Face, em vez de ser usada apenas como um ponto de dados em um estudo estatístico, teria sido educado pelo menos entrar em contato para me informar ou pedir minha permissão”, disse Nick Sullivan, chefe de criptografia da Cloudflare, ao Slate, que foi usado no estudo.

Os pesquisadores também indicam no estudo que o conjunto de dados que eles usaram não é uma representação precisa da população mundial, uma vez que estava apenas retirando um subconjunto específico de vídeos no YouTube. É, portanto, tendencioso — o problema comum entre os conjuntos de dados de aprendizado de máquina. Certamente é bom que os pesquisadores tenham apontado as considerações éticas com seu trabalho.

No entanto, à medida que a tecnologia avança, nem sempre serão evoluídos e implantados por equipes ou indivíduos com boas intenções. Existem várias maneiras de explorar este tipo de sistema e, se alguém descobrir uma maneira de criar representações mais realistas de alguém com base em uma gravação de áudio, isso indica um futuro em que o anonimato se torna cada vez mais difícil alcançar. Quer você goste ou não.