Conheça o DeepCube, um sistema de inteligência artificial que é tão bom em resolver cubo mágico quanto um humano profissional. Incrivelmente, o sistema aprendeu a dominar o clássico enigma 3D em apenas 44 horas e sem nenhuma intervenção humana.

“Um agente geralmente inteligente pode conseguir a aprender sozinho a resolver problemas de domínio complexo e com mínima supervisão humana”, escreveu um dos autores em estudo publicado no arXiv. De fato, se queremos alcançar uma inteligência parecida com a humana, nós deveremos desenvolver um sistema que consiga aprender e, então, pôr em prática esse aprendizado em aplicações do mundo real.

O truque usado para quebrar recordes ao resolver um cubo mágico
Robô resolve cubo mágico em 0,637 segundo e supera recorde mundial

E, olha, a gente está cada vez mais perto disso. Descobertas recentes em aprendizagem de máquina (machine learning) produziram sistemas que, sem nenhum conhecimento anterior, conseguiram dominar jogos como xadrez e Go. Mas esses métodos não funcionaram muito bem com o cubo mágico. O problema é que a aprendizagem de reforço (reinforcement learning), estratégia usada para ensinar máquinas a jogar xadrez e Go, não se saiu bem ao aprender enigmas complexos 3D.

Diferente do xadrez e do Go — games em que é fácil para um computador determinar se uma jogada foi boa ou ruim — não é imediatamente claro para a inteligência artificial se determinado movimento melhorou a chance de resolução do problema. Quando um sistema de inteligência artificial não consegue dizer se um movimento é um passo positivo para atingir o objetivo, ele não pode receber uma “recompensa”, e se não recebe uma recompensa, a aprendizagem de reforço não funciona.

Na superfície, o cubo mágico pode parece simples, mas ele oferece um número impressionante de possibilidades. Um cubo com 3x3x3 conta com um total de 43.252.003.274.489.856.000 (ou seja 43 quintilhões) de possibilidades de estado. Apenas uma possibilidade importa — aquele momento mágico em que todos os seis lados do cubo ficam com a mesma cor.

Existem muitas estratégias diferentes, ou algoritmos, que existem para resolver o cubo. O inventor do enigma, Erno Rubik, levou um mês inteiro para desenvolver os primeiros algoritmos. Após alguns anos, foi comprovado que eram necessários apenas 26 movimentos para resolver o enigma.

Nós obviamente aprendemos bastante sobre como resolver o cubo mágico desde que ele virou um enigma viciante na década de 70. No entanto, o verdadeiro truque da pesquisa da inteligência artificial é fazer as máquinas resolverem os problemas sem a vantagem de conhecimento histórico.

A aprendizagem de reforço pode ajudar, mas como notado, mas essa estratégia não funciona muito bem no cubo mágico. Para superar essa limitação, uma equipe de pesquisadores da Universidade da Califórnia em Irvine desenvolveu uma nova técnica chamada de iteração autodidática (Autodidactic Iteration).

“Para pode resolver o cubo mágico usando aprendizagem de reforço, o algoritmo aprenderá uma diretriz”, dizem os autores do estudo. “A diretriz determina qual movimento fazer em qualquer que seja o estado.”

Para formular essa diretriz, o DeepCube cria um sistema internalizado de “recompensa”. Sem ajuda exterior e apenas com as mudanças de estado do próprio cubo, o sistema aprende a avaliar a força dos movimentos. Mas isso é executado de maneira bastante engenhosa, embora trabalhosa. Quando a IA invoca um movimento, ela realmente sabe como serão os movimentos até o fim, e retorna até o movimento proposto.

Isso permite que o sistema avalie a força geral e a proficiência do movimento. Uma vez que tenha adquirido quantidade o suficiente de dados em relação à sua posição atual, ele usa um método tradicional de busca em árvore, no qual é examinado cada movimento possível para determinar qual é o melhor para resolver o cubo. Não é o sistema mais elegante do mundo, mas funciona.

Os pesquisadores, liderados por Stephen McAller, Forest Agostinelli e Alexander Shmakov, treinaram o DeepCube usando dois milhões de diferentes iterações através de 8 bilhões de cubos (incluindo algumas repetições). O processo todo levou um período de 44 horas, usando um servidor Intel Core de 32 núcleos E5-2620 com três GPUs Nvidia Titan XP.

Um exemplo da estratégia do DeepCube. No movimento 17 de 30, a inteligência artificial criou uma estrutura 2x2x2 ao agrupar arestas e cantos adjacentes — uma técnica frequentemente usada por profissionais. Ilustração por  S. McAleer et al., 2018

O sistema descobriu uma “notável quantidade de conhecimento de cubo mágico durante seu processo de treinamento”, escreveram os pesquisadores, incluindo uma estratégia usada por profissionais na qual cantos e bordas são combinadas antes de serem colocados em suas posições corretas.

“Nosso algoritmo consegue resolver 100% dos cubos mágicos aleatoriamente organizados e consegue fazê-lo com, em média, 30 movimentos — um pouco menos que pessoas que usam o conhecimento histórico sobre o assunto”, escreveram os autores. Ainda dá para melhorar. O DeepCube teve problemas com um pequeno subconjunto de cubos, que levaram algumas horas para serem resolvidos, mais do que o esperado.

No futuro, os pesquisadores gostariam de testar a técnica de iteração autodidática em cubos mais difíceis, como os de 4x4x4. De modo mais prático, essa pesquisa poderia ser usada para resolver problemas do mundo real, como prever a forma 3D das proteínas. Como o cubo mágico, o dobramento de proteínas é um problema de otimização combinatória.

Resolver problemas é bacana, mas o objetivo final da inteligência artificial é resolver alguns dos principais problemas, como o diagnóstico de doenças, análise de DNA e criar robôs que possam funcionar no nosso mundo.

[arXiv via MIT Technology Review]

Imagem do topo por Pixabay