O ChatGPT está ficando “mais burro”? Este estudo afirma que sim

Usuários notaram que o chatbot vinha tendo mais dificuldade em resolver dúvidas "básicas". Um grupo de pesquisadores americanos investigou a questão

Pablo Nogueira

10 meses atrás

Especialista sugere novo “teste de Turing moderno” para sistemas de IA

Nos últimos meses, alguns usuários começaram a apontar que o ChatGPT ficou “mais burro”. Em fóruns de discussão online, como o Reddit, é possível encontrar postagens que dizem que o chatbot passou a responder incorretamente perguntas simples — como resolver equações ou tirar dúvidas matemáticas “básicas”.

Para confirmar essa tese, uma pesquisa feita por pesquisadores da Universidade Stanford e Universidade da Califórnia (Berkeley) investigou a questão. E descobriu que o ChatGPT piorou a precisão das respostas devido às atualizações do modelo de linguagem.

O estudo testou a capacidade entre o GPT-4 e a versão anterior do modelo de linguagem GPT-3.5, entre março e junho deste ano.

Testando as duas versões do modelo de linguagem do ChatGPT com um conjunto de dados de 500 problemas, os pesquisadores observaram que o GPT-4 teve uma taxa de precisão de 97,6% em março, com 488 respostas corretas.

Em junho, o ChatGPT obteve uma taxa de precisão de 2,4% após o modelo de linguagem ter passado por algumas atualizações. O modelo produziu apenas 12 respostas corretas.

Em um teste, os pesquisadores perguntaram ao GPT-4 se 17.077 é um número primo. O GPT-4 não apenas respondeu incorretamente que não, como também não deu nenhuma explicação sobre como chegou a essa conclusão.

GPT-4 is getting worse over time, not better.

Many people have reported noticing a significant degradation in the quality of the model responses, but so far, it was all anecdotal.

But now we know.

At least one study shows how the June version of GPT-4 is objectively worse than… pic.twitter.com/whhELYY6M4

— Santiago (@svpino) July 19, 2023

Especialistas divergem

Embora o novo estudo pareça uma evidência sólida de que o ChatGPT ficou mais burro, alguns especialistas discordam das conclusões.

Um deles é o professor de ciência da computação da Universidade de Princeton, Arvind Narayanan, que afirmou que as evidências do estudo não provam conclusivamente um declínio no desempenho do GPT-4, e são resultado de ajustes finos feitos pela OpenAI, empresa que criou o chatbot responsivo.

Code generation: the change they report is that the newer GPT-4 adds non-code text to its output. They don't evaluate the correctness of the code (strange). They merely check if the code is directly executable. So the newer model's attempt to be more helpful counted against it.

— Arvind Narayanan (@random_walker) July 19, 2023

Outro pesquisador em IA, Simon Willison, também discorda das conclusões do artigo. “Não acho muito convincente”, disse, ao site ArsTechnica. “Uma boa parte da crítica do estudo é se o código de saída está em uma formatação correta.”

Willison também diz encontrar outros problemas com a metodologia do artigo. Para ele, é um problema o fato de os pesquisadores usaram a “temperatura 0,1” em tudo. A tal “temperatura 0,1” é o parâmetro do GPT-4 para entregar resultados extremamente precisos.

A temperatura determina quão “criativo” o ChatGPT vai ser nas respostas. O valor padrão é 0,5, mas é possível ajustá-lo entre 0,1 a 1,0. Quanto mais alto, mais criativo e menos preciso fica. No 0,1, o modelo fica ultra-preciso e pouco criativo — o que não é o propósito da ferramenta, uma vez que um chatbot demanda uma interação com um usuários humano.

Portanto, o pesquisador define que as conclusões do estudo não dizem muito sobre os casos reais de uso do ChatGPT.

Há outro ponto: o estudo em questão só está disponível na internet como “pré-print”, o que significa que ainda não foi revisado e publicado em uma revista científica. Moral da história? Dá para continuar usando o ChatGPT — com cautela, é claro — sem medo de ficar mais burro também.