Voicebox da Meta recria vozes com apenas dois segundos de áudio

Meta decidiu não disponibilizar o Voicebox ao público por causa da facilidade em gerar áudios extremamente realistas

Igor Nishikiori

1 ano atrás

A Meta, empresa dona do Facebook, acaba de anunciar a Voicebox, um modelo de IA (inteligência artificial) capaz de gerar áudio a partir de textos usando qualquer tipo de voz.

A ferramenta impressiona pela capacidade de recriar vozes reais usando amostras de apenas dois segundos. Mas para evitar a proliferação de áudios falsos e outros usos indevidos, a tecnologia ainda não estará disponível ao público.

Em uma demonstração disponibilizada no blog da Meta AI, o Voicebox demonstrou a criação de áudios bastante fidedignos através de comandos de textos.

Dentre as opções, é possível gerar vozes inéditas ou baseadas em pessoas reais. O programa também imita o estilo, o tom e a velocidade com que a pessoa fala, como se estivesse em uma conversa natural.

Segundo a Meta, um dos diferenciais do Voicebox é sua versatilidade. Outros modelos de geração de áudio por IA precisam passar por treinamentos específicos para cada tarefa. Além disso, demandam uma grande quantidade de dados para imitar a voz de alguém.

O Voicebox, por sua vez, elimina essa etapa graças a um novo modelo chamado de Flow Matching, que se adapta ao contexto oferecido.

Por exemplo, a ferramenta permite editar um áudio de modo a retirar ruídos de fundo e mesmo recriar uma fala que foi abafada por algum barulho — como um latido ou buzinas. Além disso, o recurso identifica o contexto da fala e gera um novo áudio a partir dele.

Treinamento robusto

O treinamento do Voicebox incluiu mais de 50 mil horas de áudio em seis idiomas: inglês, francês, espanhol, alemão, polonês e português.

Além de gerar falas em seus respectivos idiomas, a ferramenta também consegue fazer com que uma voz fale em outras línguas. Em um exemplo mostrado no blog, uma mulher falante de espanhol teve sua voz utilizada para gerar um áudio em inglês, mantendo a cadência natural do idioma.

Dessa forma, a Meta acredita que a ferramenta poderá servir em diversas funções. No futuro, poderemos ter tradutores automáticos para turistas no exterior, aplicativos com acessibilidade para que pessoas com deficiência ou mesmo games com personagens conversando de maneira natural e se adaptando ao contexto da história.

Mas, sabendo dos riscos que o uso do Voicebox pode provocar em mãos erradas, a Meta afirmou que não tornará público nem o modelo nem seu código. Somente as bases da pesquisa e seus resultados estão disponíveis para a comunidade científica estudar o modelo.

No anúncio, inclusive, a empresa afirma que já produziu um identificador capaz de distinguir falas autênticas de áudios gerado por Voicebox.