_Tecnologia

Meta desenvolve AudioGen, gerador de áudio por inteligência artificial

Sistema AudioGen é capaz de interpretar comandos feitos por texto e construir amostras de áudio do zero. Ouça

Meta desenvolve AudioGen, gerador de áudio por inteligência artificial

Imagem: Richard Horvath/Unsplash/Reprodução

Depois de permitir a criação de imagens por comandos de texto, a inteligência artificial dá mais um passo: geradores de áudio agora simulam (com fidelidade) a voz humana. Estamos falando do AudioGen, desenvolvido por pesquisadores da Meta, a empresa-mãe do Facebook e Instagram. 

O programa cria sons a partir de descrições em texto. É um modelo capaz de interpretar solicitações em linguagem natural e construir amostras de áudio do zero.  

Ouça o áudio gerado via AudioGen

O pesquisador Felix Kreuk, líder da equipe de programação, tuitou que o sistema conseguiu criar sons de pessoas assobiando enquanto o vento sopra. 

Os testes de áudios incluem um homem falando enquanto pássaros cantam e cães latem. Em outra simulação, ele descreve sirenes um zumbido elétrico que se aproxima e depois se afasta. 

Segundo pesquisadores, este sistema de inteligência artificial consegue contornar problemas complexos de áudio. Um exemplo é a capacidade de distinguir tipos de sons e separá-los acusticamente. 

O modelo é capaz, por exemplo, de filtrar duas pessoas falando ao mesmo tempo e, assim, gerar uma ampla variedade de amostras de áudio. 

A Meta não especificou qual conjunto de dados foi usado, mas disse que os programadores treinaram o sistema com “dez conjuntos de dados de áudio”. 

Agora, os pesquisadores dizem que vão disponibilizar o código do AudioGen no GitHub. Enquanto isso não acontece, eles continuam o trabalho para aprimorar o programa. Ainda não se sabe se o sistema ficará disponível ao público — como o Dall-E, que gera imagens a partir de comandos textuais

Sair da versão mobile