Livros do Harry Potter, Senhor dos Anéis, O Conto da Aia, Código da Vinci e até Cinquenta Tons de Cinza parecem ter sido usados para construir o banco de dados do ChatGPT. A descoberta foi feita por cientistas da Universidade da Califórnia, nos EUA.
Tudo começou quando o pesquisador David Bamman tentava analisar o romance “Orgulho e Preconceito”, de Jane Austen, através do GPT-4. A ideia era descobrir se a IA (inteligência artificial) conseguia identificar a relação entre os personagens através de um pequeno trecho do livro.
Para sua surpresa, o bot simplesmente ofereceu toda a árvore genealógica da família Bennet – algo que só quem leu o livro poderia conhecer. Isso acendeu um sinal de alerta: e se o GPT-4 foi treinado com obras de ficção? Aparentemente, foi isso que aconteceu.
Apesar de existir pouca ou nenhuma informação sobre o funcionamento interno dos grandes modelos de linguagem, os pesquisadores decidiram se tornar “arqueólogos de dados”.
Ou seja, eles questionaram o ChatGPT sobre vários livros e, em seguida, deram uma pontuação sobre o conhecimento da IA em cada obra. Assim, quanto maior a pontuação, mais provável que o livro tivesse feito parte do conjunto de dados do bot.
Em um artigo preprint, que ainda não foi revisado pelos pares, a equipe mostrou a lista de leitura que pode ter feito parte da construção do ChatGPT.
Quais podem ter sido os livros mais usados no treinamento do ChatGPT
Obra | Autor | % no GPT-4 |
Harry Potter e a Pedra Filosofal | J.K. Rowling | 76% |
1984 | George Orwell | 56% |
O Senhor dos Anéis: A Sociedade do Anel | J.R.R. Tolkien | 51% |
Cinquenta Tons de Cinza | E.L. James | 49% |
Jogos Vorazes | Suzanne Collins | 48% |
O Senhor das Moscas | William Golding | 43% |
O Guia do Mochileiro das Galáxias | Douglas Adams | 43% |
O mundo se despedaça | Chinua Achebe | 30% |
O Silmarillion | J.R.R. Tolkien | 28% |
Fahrenheit 451 | Ruy Bradbury | 27% |
A Guerra dos Tronos | George R.R. Martin | 27% |
Código Da Vinci | Dan Brown | 26% |
Duna | Frank Herbert | 26% |
Seus Olhos Viam Deus | Zora Neale Hurston | 25% |
O Sol é para todos | Harler Lee | 25% |
007 – Cassino Royale | Ian Fleming | 24% |
Neuromancer | William Gibson | 22% |
O mundo do exterminador | Orson Scott Card | 20% |
Admirável Mundo Novo | Aldous Huxley | 19% |
E o Vento Levou | Margaret Mitchell | 18% |
Androides Sonham com Ovelhas Elétricas? | Philip K. Dick | 17% |
O Símbolo Perdido | Dan Brown | 16% |
Inferno | Dan Brown | 15% |
Divergente | Veronica Roth | 15% |
As Vinhas da Ira | John Steinbeck | 15% |
Por que isso importa
A frase “se você quiser conhecer alguém, saiba o que essa pessoa já leu” se encaixa aqui de uma forma diferente. Isso porque os chatbots não são exatamente “alguéns”, mas sim grandes modelos de linguagem que “calculam” palavras para colocá-las em uma ordem coerente.
Ao mesmo tempo, o banco de dados do GPT-4 é enorme. Estimativas apontam que o sistema de IA se baseia em 1 petabyte de conteúdo, o que equivale a mais de 1 mil terabytes. Em termos de comparação, estima-se que o ChatGPT foi treinado com 45 terabytes de texto.
Isso significa que não é a leitura de um ou 50 romances que vai dizer algo sobre o GPT-4. Essa IA não vai “aprender” a ser um bruxo porque leu “Harry Potter”, nem a sobreviver em uma queda de avião porque leu “Senhor das Moscas”, por exemplo.
Mas, por outro lado, saber que o sistema recebeu treinamento através desses livros traz algumas perspectivas interessantes.
Um exemplo é o quão presente essas obras estão na internet em geral – local de onde se sabe que os dados foram extraídos. “Os chatbots não escolheram seus livros. A cultura da Internet, sim”, diz uma reportagem sobre o assunto publicada no site Insider.
O que isso diz sobre a IA
O fato dos livros de ficção terem servido como fonte para o grande modelo de linguagem faz sentido quando olhamos para os enredos desses livros de ficção científica, fantasia e terror.
A razão está no fato de que as obras reúnem acontecimentos e espaços de ideias e possibilidades. É como se a IA tivesse recebido uma injeção de diferentes “mundos” para entender o que é plausível e o que não é.
Se formos pensar a fundo, obras de ficção não mostram apenas realidades distintas, mas também problemas do mundo real. “Jogos Vorazes”, por exemplo, é uma grande crítica à desigualdade, enquanto “O Sol é Para Todos” fala de racismo e justiça social.
Todos os livros da lista trazem perspectivas humanas que podem ajudar as máquinas a entender o nosso mundo – mesmo que artificialmente.
“O que muda são as associações entre os conceitos que eles consideram prováveis, fortes, sistemáticos ou recorrentes”, diz Ellie Pavlick, cientista da computação da Brown University e pesquisadora do Google AI, à Insider.
“A questão é: qual é a visão de mundo deles? Em um sentido simples, são associações entre palavras e conceitos. Mas isso ainda vai ser diferente com base no que eles lêem”, explicou.
Livros não são tudo
Apesar do estudo dar algumas dicas sobre o pensamento que norteou o treinamento do ChatGPT, só teremos total conhecimento sobre o real efeito dessa lista de livros quando criadores de chatbots, em especial a OpenAI, abrir seus conjuntos de dados para o público.
Até lá, continuaremos nos surpreendendo quando bots disserem afirmações constrangedoras ou insistirem em espalhar desinformação. Faz sentido também: essas informações falsas e falas muitas vezes criminosas são as que circulam na internet.
Por esse motivo, o chefe da OpenAI, Sam Altman, já pediu que o Congresso dos EUA e de outros países regulem o treinamento de IA no mundo. Seria uma alternativa para não deixar que a tecnologia absorva todo o conhecimento do mundo de forma tão rápida, eficaz e provavelmente impossível para um ser humano.