Estudo revela que ChatGPT foi treinado com mais de 50 livros clássicos; veja quais

Segundo cientistas dos EUA, treinamento do ChatGPT incluiu treinamento com livros como "Harry Potter", "50 Tons de Cinza" e "1984". Saiba como foi descoberto
Estudo revela que ChatGPT foi treinado com mais de 50 livros; veja quais
Imagem: Prachatai/Flickr/Reprodução

Livros do Harry Potter, Senhor dos Anéis, O Conto da Aia, Código da Vinci e até Cinquenta Tons de Cinza parecem ter sido usados para construir o banco de dados do ChatGPT. A descoberta foi feita por cientistas da Universidade da Califórnia, nos EUA. 

whatsapp invite banner

Tudo começou quando o pesquisador David Bamman tentava analisar o romance “Orgulho e Preconceito”, de Jane Austen, através do GPT-4. A ideia era descobrir se a IA (inteligência artificial) conseguia identificar a relação entre os personagens através de um pequeno trecho do livro. 

Para sua surpresa, o bot simplesmente ofereceu toda a árvore genealógica da família Bennet – algo que só quem leu o livro poderia conhecer. Isso acendeu um sinal de alerta: e se o GPT-4 foi treinado com obras de ficção? Aparentemente, foi isso que aconteceu. 

Apesar de existir pouca ou nenhuma informação sobre o funcionamento interno dos grandes modelos de linguagem, os pesquisadores decidiram se tornar “arqueólogos de dados”. 

Ou seja, eles questionaram o ChatGPT sobre vários livros e, em seguida, deram uma pontuação sobre o conhecimento da IA em cada obra. Assim, quanto maior a pontuação, mais provável que o livro tivesse feito parte do conjunto de dados do bot. 

Em um artigo preprint, que ainda não foi revisado pelos pares, a equipe mostrou a lista de leitura que pode ter feito parte da construção do ChatGPT. 

Quais podem ter sido os livros mais usados no treinamento do ChatGPT

Obra Autor % no GPT-4 
Harry Potter e a Pedra Filosofal J.K. Rowling 76%
1984 George Orwell 56%
O Senhor dos Anéis: A Sociedade do Anel J.R.R. Tolkien 51% 
Cinquenta Tons de Cinza E.L. James 49% 
Jogos Vorazes Suzanne Collins 48% 
O Senhor das Moscas William Golding 43%
O Guia do Mochileiro das Galáxias Douglas Adams 43%
O mundo se despedaça Chinua Achebe 30%
O Silmarillion J.R.R. Tolkien 28%
Fahrenheit 451 Ruy Bradbury 27%
A Guerra dos Tronos George R.R. Martin 27%
Código Da Vinci Dan Brown 26%
Duna Frank Herbert 26%
Seus Olhos Viam Deus Zora Neale Hurston 25%
O Sol é para todos Harler Lee 25%
007 – Cassino Royale Ian Fleming 24%
Neuromancer William Gibson 22%
O mundo do exterminador Orson Scott Card 20%
Admirável Mundo Novo Aldous Huxley 19%
E o Vento Levou Margaret Mitchell 18%
Androides Sonham com Ovelhas Elétricas? Philip K. Dick 17%
O Símbolo Perdido Dan Brown 16%
Inferno Dan Brown 15%
Divergente Veronica Roth 15%
As Vinhas da Ira John Steinbeck 15%

Por que isso importa 

A frase “se você quiser conhecer alguém, saiba o que essa pessoa já leu” se encaixa aqui de uma forma diferente. Isso porque os chatbots não são exatamente “alguéns”, mas sim grandes modelos de linguagem que “calculam” palavras para colocá-las em uma ordem coerente. 

Ao mesmo tempo, o banco de dados do GPT-4 é enorme. Estimativas apontam que o sistema de IA se baseia em 1 petabyte de conteúdo, o que equivale a mais de 1 mil terabytes. Em termos de comparação, estima-se que o ChatGPT foi treinado com 45 terabytes de texto. 

Isso significa que não é a leitura de um ou 50 romances que vai dizer algo sobre o GPT-4. Essa IA não vai “aprender” a ser um bruxo porque leu “Harry Potter”, nem a sobreviver em uma queda de avião porque leu “Senhor das Moscas”, por exemplo. 

Mas, por outro lado, saber que o sistema recebeu treinamento através desses livros traz algumas perspectivas interessantes. 

Um exemplo é o quão presente essas obras estão na internet em geral – local de onde se sabe que os dados foram extraídos. “Os chatbots não escolheram seus livros. A cultura da Internet, sim”, diz uma reportagem sobre o assunto publicada no site Insider

O que isso diz sobre a IA 

O fato dos livros de ficção terem servido como fonte para o grande modelo de linguagem faz sentido quando olhamos para os enredos desses livros de ficção científica, fantasia e terror. 

A razão está no fato de que as obras reúnem acontecimentos e espaços de ideias e possibilidades. É como se a IA tivesse recebido uma injeção de diferentes “mundos” para entender o que é plausível e o que não é. 

Se formos pensar a fundo, obras de ficção não mostram apenas realidades distintas, mas também problemas do mundo real. “Jogos Vorazes”, por exemplo, é uma grande crítica à desigualdade, enquanto “O Sol é Para Todos” fala de racismo e justiça social. 

Todos os livros da lista trazem perspectivas humanas que podem ajudar as máquinas a entender o nosso mundo – mesmo que artificialmente. 

“O que muda são as associações entre os conceitos que eles consideram prováveis, fortes, sistemáticos ou recorrentes”, diz Ellie Pavlick, cientista da computação da Brown University e pesquisadora do Google AI, à Insider

“A questão é: qual é a visão de mundo deles? Em um sentido simples, são associações entre palavras e conceitos. Mas isso ainda vai ser diferente com base no que eles lêem”, explicou. 

Livros não são tudo 

Apesar do estudo dar algumas dicas sobre o pensamento que norteou o treinamento do ChatGPT, só teremos total conhecimento sobre o real efeito dessa lista de livros quando criadores de chatbots, em especial a OpenAI, abrir seus conjuntos de dados para o público. 

Até lá, continuaremos nos surpreendendo quando bots disserem afirmações constrangedoras ou insistirem em espalhar desinformação. Faz sentido também: essas informações falsas e falas muitas vezes criminosas são as que circulam na internet. 

Por esse motivo, o chefe da OpenAI, Sam Altman, já pediu que o Congresso dos EUA e de outros países regulem o treinamento de IA no mundo. Seria uma alternativa para não deixar que a tecnologia absorva todo o conhecimento do mundo de forma tão rápida, eficaz e provavelmente impossível para um ser humano.  

Julia Possa

Julia Possa

Jornalista e mestre em Linguística. Antes trabalhei no Poder360, A Referência e em jornais e emissoras de TV no interior do RS. Curiosa, gosto de falar sobre o lado político das coisas - em especial da tecnologia e cultura. Me acompanhe no Twitter: @juliamzps

fique por dentro
das novidades giz Inscreva-se agora para receber em primeira mão todas as notícias sobre tecnologia, ciência e cultura, reviews e comparativos exclusivos de produtos, além de descontos imperdíveis em ofertas exclusivas