Meta desenvolve AudioGen, gerador de áudio por inteligência artificial

Sistema AudioGen é capaz de interpretar comandos feitos por texto e construir amostras de áudio do zero. Ouça

Julia Possa

2 anos atrás

Meta desenvolve AudioGen, gerador de áudio por inteligência artificial

Depois de permitir a criação de imagens por comandos de texto, a inteligência artificial dá mais um passo: geradores de áudio agora simulam (com fidelidade) a voz humana. Estamos falando do AudioGen, desenvolvido por pesquisadores da Meta, a empresa-mãe do Facebook e Instagram.

O programa cria sons a partir de descrições em texto. É um modelo capaz de interpretar solicitações em linguagem natural e construir amostras de áudio do zero.

Ouça o áudio gerado via AudioGen

https://gizmodo.uol.com.br/wp-content/blogs.dir/8/files/2022/10/audiogen_teaser.mp4?_=1

O pesquisador Felix Kreuk, líder da equipe de programação, tuitou que o sistema conseguiu criar sons de pessoas assobiando enquanto o vento sopra.

Os testes de áudios incluem um homem falando enquanto pássaros cantam e cães latem. Em outra simulação, ele descreve sirenes um zumbido elétrico que se aproxima e depois se afasta.

We present “AudioGen: Textually Guided Audio Generation”!

AudioGen is an autoregressive transformer LM that synthesizes general audio conditioned on text (Text-to-Audio).

📖 Paper: https://t.co/XKctRaShN1
🎵 Samples: https://t.co/e7vWmOUfva
💻 Code & models – soon!

(1/n) pic.twitter.com/UiJaA627bv

— Felix Kreuk (@FelixKreuk) September 30, 2022

Segundo pesquisadores, este sistema de inteligência artificial consegue contornar problemas complexos de áudio. Um exemplo é a capacidade de distinguir tipos de sons e separá-los acusticamente.

O modelo é capaz, por exemplo, de filtrar duas pessoas falando ao mesmo tempo e, assim, gerar uma ampla variedade de amostras de áudio.

A Meta não especificou qual conjunto de dados foi usado, mas disse que os programadores treinaram o sistema com “dez conjuntos de dados de áudio”.

Agora, os pesquisadores dizem que vão disponibilizar o código do AudioGen no GitHub. Enquanto isso não acontece, eles continuam o trabalho para aprimorar o programa. Ainda não se sabe se o sistema ficará disponível ao público — como o Dall-E, que gera imagens a partir de comandos textuais.