Inteligência artificial joga Starcraft II melhor que 99,8% dos humanos e alcança até nível mais avançado do game

Os cientistas da computação da DeepMind desenvolveram um robô com inteligência artificial capaz de derrotar os melhores jogadores do mundo no StarCraft II.

George Dvorsky

4 anos atrás

Os cientistas da computação da DeepMind desenvolveram um robô com inteligência artificial capaz de derrotar os melhores jogadores do mundo no StarCraft II, o popular videogame de estratégia em tempo real.

Uma nova pesquisa publicada na Nature descreve o AlphaStar, o primeiro agente artificialmente inteligente capaz de jogar StarCraft II no nível Grandmaster. Desenvolvido pela DeepMind, o sistema está classificado acima de 99,8% dos jogadores ativos no Battle.net, o servidor oficial do jogo.

Obviamente, isso é um grande problema para a comunidade de StarCraft II, mas a proficiência do sistema representa uma conquista importante para os pesquisadores de IA, pois abordagens semelhantes podem ser aplicadas no mundo real para resolver problemas complicados ou expandir o escopo da inteligência de máquina.

AlphaStar (Zerg em verde) vencendo um confronto final usando unidades de alta tecnologia. Imagem: DeepMind

A DeepMind tem sede no Reino Unido e é de propriedade da empresa-mãe do Google, a Alphabet Inc. Ela desenvolveu sistemas capazes de jogar xadrez, Go e shogi em um nível sobre-humano, mas o StarCraft II apresentou um conjunto de desafios completamente diferente.

Lançado pela Blizzard Entertainment em 2010, o StarCraft II é um videogame de estratégia em tempo real, com tema de ficção científica, no qual dois jogadores competem entre si. Os jogadores podem escolher jogar como uma das três espécies alienígenas — terrans, protoss e zergs — cada uma com suas próprias forças, fraquezas e características.

O StarCraft II atraiu o interesse dos pesquisadores de IA devido à sua jogabilidade complexa e aberta. Diferentemente do xadrez e do Go, os jogadores têm informações imperfeitas em termos do que está acontecendo, tornando-o semelhantes ao poker nesse aspecto.

O jogo também envolve um grande espaço de decisão, pois existem mais de 10²⁶ ações possíveis disponíveis para os jogadores a cada etapa do tempo. Os jogadores podem invocar milhares de ações antes que o jogo seja ganho ou perdido.

O StarCraft II também envolve cenários teóricos de jogos, planejamento a longo prazo, juntamente com o desafio colocado pela jogabilidade em tempo real. Assim, o jogo é considerado um “grande desafio” entre os pesquisadores de IA. Para vencer, os jogadores lutam para coletar recursos, que eles usam para construir bases e estruturas, e desenvolver novas e poderosas tecnologias para derrotar seu oponente.

O jogo não é baseado em turnos e se desenrola em tempo real. Grande parte do mapa está oculta para os jogadores, exigindo que eles observem os movimentos de seus oponentes e ajustem suas estratégias de acordo. Normalmente, os jogos duram de 5 a 20 minutos, mas às vezes podem chegar a uma hora ou mais.

Tudo isso é em parte o motivo pelo qual, historicamente, os agentes de IA não conseguiram igualar os melhores jogadores humanos, mesmo quando o jogo é simplificado. Para finalmente criar um sistema capaz de competir em alto nível, o cientista da computação Oriol Vinyals e seus colegas da DeepMind treinaram uma rede neural com algoritmos de aprendizado de uso geral, ou seja, uma combinação de imitação e aprendizado por reforço.

O aprendizado por imitação é exatamente o que o nome sugere, no qual uma IA aprende imitando a jogabilidade humana. Somente essa estratégia permitiu ao AlphaStar jogar melhor que 84% dos jogadores de StarCraft II. O aprendizado por reforço funciona motivando um sistema a atingir proficientemente um objetivo designado. Ao ganhar ou perder pontos, o sistema adota estratégias ou políticas eficazes para atingir esse objetivo.

“Embora as estratégias da AlphaStar às vezes sejam diferentes das dos jogadores profissionais, em alguns aspectos, elas são parecidas com as minhas — como o atraso que mostra ao observar uma ação no mapa. Também foi empolgante ver o agente desenvolver suas próprias estratégias de maneira diferente dos jogadores humanos — como a forma que AlphaStar constrói mais trabalhadores do que sua base pode suportar no início do jogo, em preparação para expansão posterior.”

Como parte de seu treinamento, o AlphaStar jogou contra si mesmo continuamente, a fim de aprimorar ainda mais sua capacidade de jogar e criar estratégias e contra-estratégias ainda melhores.

Em um teste inicial do sistema em dezembro de 2018, os pesquisadores do DeepMind colocaram o AlphaStar contra dois jogadores de classe mundial, Grzegorz “MaNa” Komincz e Dario “TLO” Wünsch, da Team Liquid, que foram derrotados com facilidade.

O desafio final, no entanto, foi o AlphaStar alcançar o status de grandmaster jogando sob condições padrão de torneios profissionais. Especificamente, o sistema teve que visualizar o mundo StarCraft II por meio de uma câmera, competir com qualquer uma das três espécies alienígenas em alto nível, usar os mesmos mapas dos jogadores humanos, aplicar uma taxa de ação comparável à jogabilidade humana (uma taxa aprovada por Wünsch) e jogar no servidor Battle.net, entre outras estipulações.

Sob essas condições, o AlphaStar ainda conseguiu jogar em um nível alto, alcançando a classificação de grandmaster nas três espécies alienígenas do StarCraft. É a primeira vez que uma IA atinge esse nível para um e-sport jogado profissionalmente, e ela fez isso sem nenhuma das restrições anteriores, como operar com uma versão simplificada do jogo.

“Esta é uma conquista extremamente impressionante da IA em um jogo desafiador de informações imperfeitas para dois jogadores com um grande número de ações a serem escolhidas a todo momento e o jogo dura milhares de ações”, Tuomas Sandholm, professor de ciência da computação na Universidade Carnegie Mellon que não estava envolvido na pesquisa, escreveu em um e-mail para o Gizmodo. “A IA deles começa imitando o jogo humano e depois continua a melhorar por conta própria, usando o aprendizado por reforço.”

Em um comunicado à imprensa, o jogador profissional de StarCraft II Diego “Kelazhur” Schwimer chamou o agente de IA de “jogador intrigante e pouco ortodoxo — com reflexos e velocidade dos melhores profissionais, mas estratégias e um estilo inteiramente próprio”. Grzegorz “MaNa” Komincz, da Team Liquid, outro jogador profissional, disse que “é emocionante ver o agente desenvolver suas próprias estratégias de maneira diferente dos jogadores humanos”.

Apesar do desempenho impressionante do AlphaStar, Sandholm acredita que ainda há espaço para melhorias. E, de fato, os comentários feitos pelos profissionais do StarCraft II sugeriram possíveis fraquezas no sistema.

“Eu achei a jogabilidade do AlphaStar incrivelmente impressionante — o sistema é muito hábil em avaliar sua posição estratégica e sabe exatamente quando interagir ou se afastar do oponente”, disse Wünsch, jogador profissional de StarCraft II da Team Liquid. “E embora o AlphaStar tenha um controle excelente e preciso, ele não parece sobre-humano — certamente não em um nível que um humano não poderia teoricamente alcançar. No geral, parece muito justo — como se estivesse jogando um jogo ‘real’ de StarCraft”.

A equipe de Sandholm também é responsável pelo desenvolvimento do Pluribus — uma IA capaz de derrotar os profissionais do poker no Texas Hold’em, para seis jogadores. Esses pesquisadores colocaram o antecessor do Pluribus, o Libratus AI para dois jogadores, nesse tipo de teste, mas “mesmo os principais profissionais não conseguiram vencer o (…) Libratus, apesar de terem 120.000 repetições de jogos para tentar”, explicou Sandholm.

Posteriormente, “o Libratus venceu uma equipe de grandes profissionais em uma partida na China, apesar de terem assistido a todas as partidas anteriores da transmissão de vídeo e analisado-as computacionalmente”, disse Sandholm, ao qual acrescentou: “Em soma zero para partidas de dois jogadores, as estratégias teóricas dos jogos são imbatíveis, mesmo que o oponente conheça sua estratégia.”

“A abordagem não é tão sofisticada nos aspectos estratégicos e teóricos dos jogos quanto os marcos recentes da IA no pôquer, portanto a IA provavelmente é explorável”, disse ele. “Seria interessante ver uma avaliação em que os humanos possam praticar conscientemente contra a IA, usando um grupo de dezenas de milhares de jogos para tentar encontrar pontos fracos.”

Para a equipe do DeepMind progredir ainda mais, Sandholm recomendou que estudassem jogos em tempo real envolvendo mais de dois jogadores, semelhante ao que sua equipe conseguiu com o Pluribus e o jogo de pôquer Texas Hold’em com seis jogadores.

Essas novas ideias sobre IA podem ser aplicadas para ajudar os sistemas a resolver problemas complexos do mundo real e melhorar a generalização da inteligência de máquinas. Com cada avanço, no entanto, haverá menos áreas em que os humanos permanecem superiores à IA.