Um estudo conduzido recentemente por pesquisadores da Apple concluiu que os grandes modelos de linguagem que alimentam plataformas de inteligência artificial não são tão inteligentes quanto aparentam ser.
O método mais comum para aferir as capacidades de raciocínio de modelos de IA é o teste conhecido como GSM8K. Embora este teste seja validado por especialistas, por ser muito popular, há uma grande possibilidade de que os modelos já tenham recebido acesso às respostas em seus dados de treinamento e, por este motivo, alcançam bons resultados.
Novo teste expõe falha em modelos de linguagem
Partindo desta premissa, os pesquisadores da gigante de Cupertino desenvolveram um novo método, o GSM-Symbolic, que mantém a mesma estrutura das questões de raciocínio, mas altera as variáveis. Os resultados obtidos surpreenderam bastante, mas de forma negativa, e revelaram uma falha nos modelos de linguagem natural.
Os modelos da OpenAI, Microsoft, Google e Meta apresentaram uma tendência muito semelhante. Ao alterar as variáveis, o desempenho diminuiu. No final, a conclusão foi de que os modelos de IA estão mais próximos de corresponder a padrões complexos do que de fato raciocinar.
Isso inclui o “o1”, apresentado recentemente pela OpenAI como um modelo que, ao invés de oferecer respostas instantâneas, seria capaz de gastar um tempo maior “refletindo” sobre a questão, o que aumentaria consideravelmente a precisão das respostas — embora a empresa tenha admitido que não conseguiu eliminar completamente as alucinações de IA.
O desempenho foi especialmente inferior quando os pesquisadores incluíram sentenças irrelevantes nos problemas, como no exemplo a seguir:
“Oliver colhe 44 kiwis na sexta-feira. Então ele colhe 58 kiwis no sábado. No domingo, ele colhe o dobro do número de kiwis que ele colheu na sexta-feira, mas cinco deles eram um pouco menores do que a média. Quantos kiwis Oliver tem?”
A tendência dos modelos de linguagem foi subtrair os cinco kiwis menores, o que mostrou uma falha na interpretação de que o tamanho das frutas era completamente irrelevante. Este é um dos indícios que evidencial que modelos de linguagem funcionam respondendo a padrões estatísticos.
TSMC, líder de chips do planeta, quer construir novas fábricas na Europa
Você não é dono dos jogos que compra online, afirma o Steam
O o1, da OpenAI, foi o que obteve melhor desempenho, embora tenha tido uma queda de 17,5% na precisão, o que já é bastante preocupante. O Phi, da Microsoft, foi muito pior e teve uma queda de 65%.
Estudo da Apple é um lembrete
Os cientistas ainda dizem no material que os modelos de linguagem não compreendem realmente conceitos matemáticos. E não são capazes de classificar a relevância de informações. O estudo é mais um lembrete para manter a cautela em torno dos grandes modelos de IA que prometem revolucionar o mundo.