Depois de permitir a criação de imagens por comandos de texto, a inteligência artificial dá mais um passo: geradores de áudio agora simulam (com fidelidade) a voz humana. Estamos falando do AudioGen, desenvolvido por pesquisadores da Meta, a empresa-mãe do Facebook e Instagram.
O programa cria sons a partir de descrições em texto. É um modelo capaz de interpretar solicitações em linguagem natural e construir amostras de áudio do zero.
Ouça o áudio gerado via AudioGen
O pesquisador Felix Kreuk, líder da equipe de programação, tuitou que o sistema conseguiu criar sons de pessoas assobiando enquanto o vento sopra.
Os testes de áudios incluem um homem falando enquanto pássaros cantam e cães latem. Em outra simulação, ele descreve sirenes um zumbido elétrico que se aproxima e depois se afasta.
We present “AudioGen: Textually Guided Audio Generation”!
AudioGen is an autoregressive transformer LM that synthesizes general audio conditioned on text (Text-to-Audio).
📖 Paper: https://t.co/XKctRaShN1
🎵 Samples: https://t.co/e7vWmOUfva
💻 Code & models – soon!(1/n) pic.twitter.com/UiJaA627bv
— Felix Kreuk (@FelixKreuk) September 30, 2022
Segundo pesquisadores, este sistema de inteligência artificial consegue contornar problemas complexos de áudio. Um exemplo é a capacidade de distinguir tipos de sons e separá-los acusticamente.
O modelo é capaz, por exemplo, de filtrar duas pessoas falando ao mesmo tempo e, assim, gerar uma ampla variedade de amostras de áudio.
A Meta não especificou qual conjunto de dados foi usado, mas disse que os programadores treinaram o sistema com “dez conjuntos de dados de áudio”.
Agora, os pesquisadores dizem que vão disponibilizar o código do AudioGen no GitHub. Enquanto isso não acontece, eles continuam o trabalho para aprimorar o programa. Ainda não se sabe se o sistema ficará disponível ao público — como o Dall-E, que gera imagens a partir de comandos textuais.