Lembra do AlphaGo, primeira inteligência artificial a derrotar um melhor do mundo de Go? Bom, o programa acabou de receber uma grande atualização e agora consegue ensinar a si próprio como dominar o jogo sem nenhuma intervenção humana. E olha só: em um torneio que colocou IA contra IA, essa versão melhorada, chamada de AlphaGo Zero, derrotou o AlphaGo normal por incríveis 100 jogos a zero, significando um enorme avanço no campo. Ouviu isso? É a singularidade tecnológica ficando mais próxima.

Um novo artigo publicado na Nature nesta quarta-feira (18) descreve como o sistema de inteligência artificial que derrotou o mestre de Go Lee Sedol em 2016 levou uma surra digital de uma versão nova e melhorada de si mesmo. E não perdeu por pouco, não — a máquina não conseguiu uma vitória sequer em 100 jogos. Incrivelmente, levou apenas três dias para que o AlphaGo Zero (AGZ) treinasse a si próprio do zero e conseguisse literalmente milhares de anos de conhecimento humano de Go simplesmente ao jogar sozinho. A única informação que recebeu foi o que fazer com as posições de peças pretas e brancas no tabuleiro. O sistema novo ainda inventou estratégias completamente novas.

Lee Sedol sendo arrasado pelo AlphaGo em 2016. (Imagem: AP)

De tempos em tempos, o campo da inteligência artificial passa por um momento “caramba!”, e esse parece ser um desses momentos. Olhando em retrospecto, outros momentos “caramba!” incluem o Deep Blue derrotando Garry Kasparov no xadrez em 1997, o Watson, da IBM, derrotando dois dos melhores jogadores de “Jeopardy!” em 2011, a derrota de Lee Sedol, em 2016, mencionada anteriormente, e, mais recentemente, a derrota de quatro jogadores profissionais de pôquer contra o Libratus, uma inteligência artificial desenvolvida por cientistas da computação da Universidade Carnegie Mellon.

Essa conquista mais recente se qualifica como um momento “caramba!” por uma série de razões.

Primeiro de tudo, o AlphaGo tinha o benefício de ter aprendido a partir de literalmente milhares de jogos de Go disputados anteriormente, incluindo aqueles jogados por humanos amadores e profissionais. O AGZ, por outro lado, não recebeu ajuda alguma de seus donos humanos e não tinha acesso a nada, exceto as regras do jogo. Usando “aprendizado por reforço”, o AGZ jogou consigo mesmo repetidamente, “começando a partir de jogos aleatórios e sem qualquer supervisão ou uso de dados humanos”, de acordo com pesquisadores da DeepMind, do Google. Isso permitiu ao sistema melhorar e refinar seu cérebro digital, conhecido como rede neural, conforme aprendia continuamente a partir da experiência. Isso basicamente significa que o AlphaGo Zero foi seu próprio professor.

“Esta técnica é mais poderosa do que versões anteriores do AlphaGo porque ela não é mais restringida pelos limites do conhecimento humano”, aponta a equipe da DeepMind em um comunicado. “Em vez disso, é capaz de aprender tabula rasa [a partir do zero] com o melhor jogador do mundo: o próprio AlphaGo.”

Imagem: AP

Ao jogar Go, o sistema considera os próximos movimentos mais prováveis (uma “rede de políticas”) e então estima a probabilidade de vencer baseado nesses movimentos (sua “rede de valores”). O AGZ precisa de cerca de 0,4 segundos para fazer essas duas avaliações. O AlphaGo original foi equipado com um par de redes neurais para fazer avaliações parecidas, mas, no caso do AGZ, os desenvolvedores da DeepMind juntaram as redes de políticas e de valores em uma só, permitindo ao sistema aprender mais eficientemente. Além disso, o novo sistema é alimentado por quatro unidades de processamento de tensor (TPUs), chips especializados para treinamento de redes neurais. O antigo AlphaGo precisava de 48 TPUs.

Depois de apenas três dias de treinamento jogando contra si mesmo e um total de 4,9 milhões de partidas disputadas, o AGZ conseguiu o conhecimento necessário para acabar com o AlphaGo (em comparação, o AlphaGo original teve 30 milhões de partidas para se preparar). Depois de 40 dias de treinamento próprio, o AGZ derrotou uma outra versão mais sofisticada do AlphaGo, chamada de AlphaGo “Master”, que derrotou os melhores jogadores de Go do mundo e o jogador que ocupava o topo do ranking mundial do jogo de tabuleiro, Ke Jie. Neste ano, o AlphaGo e o AlphaGo Master venceram um total combinado de 60 partidas contra profissionais de elite. A ascensão do AGZ, ao que tudo indica, tornou essas duas versões anteriores obsoletas.

“A época em que humanos poderão ter conversas significativas com uma inteligência artificial sempre pareceu muito distante, coisa de ficção científica. Mas para jogadores de Go, esse dia já chegou.”

Essa é uma conquista enorme para a inteligência artificial, e para o subcampo de aprendizado por reforço, particularmente. Ao ensinar a si próprio, o sistema igualou e superou o conhecimento humano por uma ordem de magnitude em apenas alguns dias, ao mesmo tempo em que desenvolveu estratégias nada convencionais e jogadas novas criativas. Para jogadores de Go, o avanço é empolgante; eles estão aprendendo coisas com a IA que talvez pudessem nunca aprender por conta própria ou que levariam uma quantidade de tempo enorme para serem descobertas.

“Os jogos [do AlphaGo Zero] contra o AlphaGo Master certamente vão conter algumas joias, especialmente porque suas vitórias parecem vir sem esforço”, escreveram Andy Okun e Andrew Jackson, membro da Associação Americana de Go, em um artigo da Nature News and Views. “A cada estágio do jogo, ele parece ganhar um pouco aqui e perder um pouco ali, mas, de alguma forma, termina ligeiramente à frente, como que por mágica… A época em que humanos poderão ter conversas significativas com uma inteligência artificial sempre pareceu muito distante, coisa de ficção científica. Mas para jogadores de Go, esse dia já chegou.”

Sem dúvidas, o AGZ representa um avanço disruptivo no mundo de Go, mas e o seu potencial para o resto do mundo? De acordo com Nick Hynes, estudante de pós-graduação do Laboratório de Ciência da Computação e Inteligência Artificial do MIT, vai levar um tempo até que uma ferramenta especializada como essa tenha um impacto em nossas vidas cotidianas.

“Até agora, o algoritmo descrito funciona apenas para problemas em que exista um número contável de ações que você pode tomar, então ele precisaria de modificação antes que pudesse ser usado para problemas de controle contínuos, como a locomoção (por exemplo)”, explicou Hynes ao Gizmodo. “Além disso, ele requer que você tenha um modelo muito bom do ambiente. Nesse caso, ele literalmente conhece todas as regras. Isso seria como se você tivesse um robô para o qual você pudesse prever com exatidão os resultados das ações — o que é impossível para sistemas físicos reais e imperfeitos.”

O lado bom, segundo Hynes, é que existem várias outras linhas de pesquisa de inteligência artificial que lidam com ambos desses problemas (como aprendizado de máquina, algoritmos evolucionários etc), então é realmente apenas uma questão de integração. “A chave mesmo aqui é a técnica”, diz Hynes.

“É como se uma civilização alienígena inventasse sua própria matemática, que a permitisse fazer coisas como viajar no tempo… Embora ainda estejamos longe da “Singularidade”, estamos definitivamente caminhando nessa direção.”

“Como esperado — e desejado —, estamos nos distanciando do padrão clássico de pegar um monte de dados rotulados por humanos e treinando um modelo para imitá-lo”, disse. “O que estamos vendo aqui é um modelo livre de viés e pressuposições humanas: ele consegue aprender qualquer coisa que determine como ideal, o que pode, de fato, ser muito mais cheio de nuances do que nossas próprias concepções da mesma coisa. É como se uma civilização alienígena inventasse sua própria matemática, que a permitisse fazer coisas como viajar no tempo… Embora ainda estejamos longe da “Singularidade”, estamos definitivamente caminhando nessa direção.”

Noam Brown, cientista da computação da Universidade Carnegie Mellon que ajudou a desenvolver a primeira inteligência artificial a derrotar jogadores humanos de pôquer de elite, diz que os pesquisadores da DeepMind conquistaram um resultado impressionante e que isso poderia a levar a coisas maiores e melhores na inteligência artificial.

“Embora o AlphaGo original tenha conseguido derrotar jogadores humanos de elite, ele o fez, em parte, por contar com conhecimento humano especializado do jogo e dados de treinamento humanos”, Brown disse ao Gizmodo. “Isso levou a perguntas sobre a possibilidade de se estender essas técnicas para além do Go. O AlphaGo Zero alcança um desempenho ainda melhor, sem usar qualquer conhecimento humano especializado. Parece provável que a mesma abordagem poderia ser estendida para todos jogos de aperfeiçoamento de informação (como xadrez e dama). Esse é um passo enorme em direção ao desenvolvimento de inteligências artificiais de propósitos gerais.”

Como admitem Hynes e Brown, esse avanço mais recente não significa que a singularidade tecnológica — aquele momento hipotético no futuro em que a inteligência das máquinas supera a dos humanos e alcança um crescimento explosivo — esteja iminente. Mas deve, sim, causar uma pausa para pensar. Uma vez que ensinamos as regras de um jogo ou as restrições de um problema do mundo real a um sistema, o poder do aprendizado por reforço possibilita que apertemos o botão de iniciar e deixemos o sistema cuidar do resto. Ele então vai desvendar as melhores maneiras de ter sucesso na tarefa, inventando soluções e estratégias que estejam além das capacidades humanas e possivelmente até mesmo além de nossa compreensão.

Como apontado, o AGZ e o jogo de Go representam uma versão muito simplificada, restrita e altamente previsível do mundo, mas, no futuro, a inteligência artificial receberá tarefas com desafios mais complexos. Um dia, sistemas de auto-ensino serão usados para resolver problemas mais urgentes, como dobrar proteínas para conjurar novos remédios e biotecnologias, descobrir maneiras de reduzir o consumo de energia ou então quando precisarmos projetar novos materiais. Um sistema de auto-aprendizagem também poderia receber a tarefa de melhorar a si próprio, levando à inteligência geral artificial (uma inteligência muito humana) e até mesmo à superinteligência artificial.

Como concluem os pesquisadores da DeepMind em seu estudo, “nossos resultados demonstram de forma abrangente que uma abordagem de aprendizado por reforço puro é completamente viável, até mesmo nos domínios mais desafiadores: é possível treinar a um nível sobre-humano, sem exemplos ou guias humanos, e sem receber conhecimento do domínio além das regras básicas.”

E, de fato, agora que jogadores humanos não são mais soberanos em jogos como xadrez e Go, pode-se dizer que já entramos em uma era de superinteligência. Esse avanço mais recente é apenas um pequeno indício do que ainda está por vir.

[Nature]

Imagem do topo: DeepMind