Spotify testa IA para traduzir podcasts com a voz do próprio locutor

Traduções estão disponíveis para espanhol, francês e alemão

Vinicius Marques

1 ano atrás

De olho em eleições, Spotify faz campanha de engajamento político

Nos últimos anos o Spotify vem investindo pesado em podcasts, inclusive subsidiando programas originais e incentivando novos criadores a produzir programas para sua plataforma.

Agora o serviço de streaming está testando o uso de inteligência artificial generativa para traduzir podcasts para outros idiomas de forma totalmente automática. A ferramenta que está possibilitando tudo isso é o “Whisper”, da OpenAI — a mesma empresa do ChatGPT –, que traduz os programas automaticamente e usando uma versão sintetizada da voz do apresentador.

“Esta ferramenta desenvolvida pelo Spotify aproveita as inovações mais recentes – uma das quais é a tecnologia de geração de voz recém-lançada da OpenAI – para combinar com o estilo do locutor original, proporcionando uma experiência auditiva mais autêntica que soa mais natural do que a dublagem tradicional”

A ideia é tornar as traduções em tempo real mais próximas da naturalidade e menos robóticas. Inicialmente, os apresentadores Dax Shepard, Monica Padman, Lex Fridman, Bill Simmons e Steven Bartlett terão suas vozes traduzidas para idiomas como espanhol, francês e alemão.

O objetivo do Spotify é possibilitar que os usuários possam descobrir novos podcasts sobre seus assuntos de interesse sem esbarrar na barreira do idioma.

“Estamos entusiasmados em testar a Tradução de Voz para podcasts, um recurso inovador alimentado por IA que traduz podcasts em idiomas adicionais”

YouTube também aposta em ferramenta de tradução por IA

O YouTube também está testando uma ferramenta parecida com alguns parceiros. A tecnologia utilizada pela empresa promete entregar traduções de alta qualidade para os criadores de conteúdo em poucos minutos. Ainda há possibilidade de modificar o material para realizar adaptações no conteúdo.

Por enquanto, ainda não há opção de utilizar uma versão sintética da voz do criador. Ao invés disso, a ferramenta oferece um lista de opções de narradores com diferentes tons de voz para recitar o texto traduzido em voz alta.