O ChatGPT está ficando “mais burro”? Este estudo afirma que sim

Usuários notaram que o chatbot vinha tendo mais dificuldade em resolver dúvidas "básicas". Um grupo de pesquisadores americanos investigou a questão
Especialista sugere novo “teste de Turing moderno” para sistemas de IA
Imagem: Unsplash/Reprodução

Nos últimos meses, alguns usuários começaram a apontar que o ChatGPT ficou “mais burro”. Em fóruns de discussão online, como o Reddit, é possível encontrar postagens que dizem que o chatbot passou a responder incorretamente perguntas simples — como resolver equações ou tirar dúvidas matemáticas “básicas”. 

Para confirmar essa tese, uma pesquisa feita por pesquisadores da Universidade Stanford e Universidade da Califórnia (Berkeley) investigou a questão. E descobriu que o ChatGPT piorou a precisão das respostas devido às atualizações do modelo de linguagem. 

O estudo testou a capacidade entre o GPT-4 e a versão anterior do modelo de linguagem GPT-3.5, entre março e junho deste ano.

Testando as duas versões do modelo de linguagem do ChatGPT com um conjunto de dados de 500 problemas, os pesquisadores observaram que o GPT-4 teve uma taxa de precisão de 97,6% em março, com 488 respostas corretas. 

Em junho, o ChatGPT obteve uma taxa de precisão de 2,4% após o modelo de linguagem ter passado por algumas atualizações. O modelo produziu apenas 12 respostas corretas. 

Em um teste, os pesquisadores perguntaram ao GPT-4 se 17.077 é um número primo. O GPT-4 não apenas respondeu incorretamente que não, como também não deu nenhuma explicação sobre como chegou a essa conclusão. 

 

Especialistas divergem

Embora o novo estudo pareça uma evidência sólida de que o ChatGPT ficou mais burro, alguns especialistas discordam das conclusões. 

Um deles é o professor de ciência da computação da Universidade de Princeton, Arvind Narayanan, que afirmou que as evidências do estudo não provam conclusivamente um declínio no desempenho do GPT-4, e são resultado de ajustes finos feitos pela OpenAI, empresa que criou o chatbot responsivo. 

Outro pesquisador em IA, Simon Willison, também discorda das conclusões do artigo. “Não acho muito convincente”, disse, ao site ArsTechnica. “Uma boa parte da crítica do estudo é se o código de saída está em uma formatação correta.” 

Willison também diz encontrar outros problemas com a metodologia do artigo. Para ele, é um problema o fato de os pesquisadores usaram a “temperatura 0,1” em tudo. A tal “temperatura 0,1” é o parâmetro do GPT-4 para entregar resultados extremamente precisos.

A temperatura determina quão “criativo” o ChatGPT vai ser nas respostas. O valor padrão é 0,5, mas é possível ajustá-lo entre 0,1 a 1,0. Quanto mais alto, mais criativo e menos preciso fica. No 0,1, o modelo fica ultra-preciso e pouco criativo — o que não é o propósito da ferramenta, uma vez que um chatbot demanda uma interação com um usuários humano.

Portanto, o pesquisador define que as conclusões do estudo não dizem muito sobre os casos reais de uso do ChatGPT. 

Há outro ponto: o estudo em questão só está disponível na internet como “pré-print”, o que significa que ainda não foi revisado e publicado em uma revista científica. Moral da história? Dá para continuar usando o ChatGPT — com cautela, é claro — sem medo de ficar mais burro também.

Assine a newsletter do Giz Brasil

fique por dentro
das novidades giz Inscreva-se agora para receber em primeira mão todas as notícias sobre tecnologia, ciência e cultura, reviews e comparativos exclusivos de produtos, além de descontos imperdíveis em ofertas exclusivas