OpenAI lança robô que transcreve áudios em tempo real

Ferramenta foi treinada a partir de 680 mil horas de informações coletados na internet, e cobra US$ 1 por 2h45 de transcrição
Conheça o API Whisper, robô da OpenAI que transcreve áudios em tempo real
Imagem: Zac Wolff/Unsplash/Reprodução

A OpenAI lançou na quarta-feira (2) o API Whisper, robô que transcreve falas em tempo real – possivelmente a ferramenta de transcrição de áudios mais potente do mercado. Desenvolvedores podem usar o serviço por US$ 0,006 a cada minuto transcrito – o equivalente a US$ 1 para cada 2h45 de transcrição. 

whatsapp invite banner

A plataforma de código aberto reconhece e traduz diversas línguas para o inglês em tempo real. Também aceita arquivos em vários formatos, incluindo M4A, MP3, MP4, MPEG, MPGA, WAV e WEBM.

O diferencial do robô é seu modelo de treinamento. Antes de operar, a ferramenta passou por 680 mil horas de dados multilíngues coletados da web. Isso aumentou sua capacidade de reconhecer sotaques, ruídos e jargões técnicos. 

“A API Whisper é o mesmo modelo que você pode obter de código aberto, mas otimizamos ao extremo”, disse Greg Brockman, presidente da OpenAI, ao site TechCrunch. “É muito, muito mais rápido e extremamente conveniente”. 

Limitações 

Como qualquer outra IA (inteligência artificial), o Whisper ainda não está 100% calibrado. O fato do treinamento do sistema partir de uma grande quantidade de sons e ruídos faz com que o robô inclua palavras nas transcrições que não foram realmente ditas. 

O motivo, neste caso, é um problema na previsão de texto dos áudios: o robô da OpenAI tenta “prever” o que o locutor vai falar em seguida. Por isso, pode embaralhar palavras em meio a ambientes mais barulhentos. 

Outro ponto é que o Whisper não funciona bem com todos os idiomas e apresenta mais erros em algumas línguas. A OpenAI não divulgou quais ou quantos idiomas foram usados no treinamento, nem quais apresentam mais defeitos. A tendência é que o inglês seja a linguagem mais precisa, e idiomas mais baseados em fonemas (e que tenham menos conteúdo disponível na internet para treinar a IA) tenham precisão menor.

Julia Possa

Julia Possa

Jornalista e mestre em Linguística. Antes trabalhei no Poder360, A Referência e em jornais e emissoras de TV no interior do RS. Curiosa, gosto de falar sobre o lado político das coisas - em especial da tecnologia e cultura. Me acompanhe no Twitter: @juliamzps

fique por dentro
das novidades giz Inscreva-se agora para receber em primeira mão todas as notícias sobre tecnologia, ciência e cultura, reviews e comparativos exclusivos de produtos, além de descontos imperdíveis em ofertas exclusivas