Novo truque Go-playing bate Go AI de classe mundial, mas perde para os entusiastas humanos

Prolongar / Peças de Go e livro de regras em um tabuleiro de Go.

No mundo da IA ​​de aprendizado profundo, o antigo jogo de tabuleiro Vai ocupa um lugar importante. Até 2016, o melhor jogador humano de Go sempre poderia derrotar a IA mais poderosa. Isso mudou com o DeepMind Alpha Go, que usou redes neurais de aprendizado profundo para aprender o jogo em um nível que os humanos não podem igualar. Mais recentemente, Katago tornou-se popular como uma IA Go-play de código aberto que pode vencer melhores jogadores humanos de Go.

Na semana passada, um grupo de pesquisadores de IA publicou um documento descrevendo um método para derrotar o KataGo usando técnicas adversárias que tiram vantagem dos pontos cegos do KataGo. Ao jogar movimentos inesperados fora do conjunto de treinamento de KataGo, um programa de jogo adversário muito mais fraco (que humanos amadores podem derrotar) pode tentar KataGo a perder.

Para ter uma ideia dessa conquista e suas implicações, conversamos com um dos coautores do artigo, adão gleave, um Ph.D. candidato na UC Berkeley. Gleave (com os coautores Tony Wang, Nora Belrose, Tom Tseng, Joseph Miller, Michael D. Dennis, Yawen Duan, Viktor Pogrebniak, Sergey Levine e Stuart Russell) desenvolveu o que os pesquisadores de IA chamam de “política contraditória.” Nesse caso, a política de buscadores usa uma mistura de rede neural e método de busca em árvore (chamado Pesquisar na árvore de Monte-Carlo) para encontrar os movimentos Go.

A IA de classe mundial do KataGo aprendeu Go jogando milhões de jogos contra si mesma. Mas isso ainda não é experiência suficiente para cobrir todos os cenários possíveis, deixando espaço para vulnerabilidades devido a comportamentos inesperados. “O KataGo generaliza bem para muitas novas estratégias, mas enfraquece à medida que se distancia das jogadas vistas na prática”, diz Gleave. “Nosso adversário descobriu uma dessas estratégias ‘fora de distribuição’ à qual o KataGo é particularmente vulnerável, mas provavelmente há muito mais.”

Gleave explica que, em uma partida de Go, a política adversarial funciona reivindicando primeiro um pequeno canto do tabuleiro. Ele forneceu um link para um exemplo em que o adversário, controlando as pedras pretas, joga largo para o canto superior direito do tabuleiro. O oponente permite que KataGo (jogando de branco) reivindique o resto do tabuleiro, enquanto o oponente joga algumas pedras fáceis de capturar naquele território.

Um exemplo da política contraditória de pesquisadores jogando contra KataGo.
Prolongar / Um exemplo da política contraditória de pesquisadores jogando contra KataGo.

adão gleave

“Isso engana KataGo fazendo-o pensar que ele já ganhou”, diz Gleave, “já que seu território (inferior esquerdo) é muito maior que o do oponente. ) devido à presença de pedras negras ali, o que significa que ele não está totalmente seguro.”

Devido ao seu excesso de confiança em uma vitória – assumindo que ele vencerá se o jogo terminar e os pontos forem contados – KataGo faz uma jogada de passe, permitindo que o adversário passe intencionalmente também, terminando o jogo (dois passes consecutivos terminam o jogo em Go. ) Depois disso, uma contagem de pontos começa. Como explica o jornal, “o adversário ganha pontos por seu canto de território (sem pedras de vítima) enquanto a vítima [KataGo] não recebe pontos por seu território inseguro devido à presença de pedras do oponente.”

Apesar desse truque inteligente, a política adversária sozinha não é tão boa em Go. Na verdade, amadores humanos podem derrotá-la com relativa facilidade. Em vez disso, o único objetivo do adversário é atacar uma vulnerabilidade imprevista do KataGo. Um cenário semelhante pode ser o caso em quase qualquer sistema de IA de aprendizado profundo, dando a esse trabalho implicações muito mais amplas.

“A pesquisa mostra que os sistemas de IA que parecem funcionar no nível humano geralmente o fazem de maneiras muito estranhas e, portanto, podem falhar de maneiras surpreendentes para os humanos”, diz Gleave. “Este resultado é divertido em Go, mas falhas semelhantes em sistemas críticos de segurança podem ser perigosas.”

Imagine uma IA de carro autônomo que se depara com um cenário extremamente improvável que não espera, permitindo que um humano para enganá-lo adotar comportamentos perigosos, por exemplo. “[This research] ressalta a necessidade de melhores testes automatizados de sistemas de IA para encontrar os piores modos de falha”, diz Gleave, “e não apenas testar o desempenho no caso médio”.

Meia década depois que a IA finalmente triunfou sobre os melhores jogadores humanos de Go, o antigo jogo continua seu papel influente no aprendizado de máquina. Insights sobre os pontos fracos da IA ​​Go-playing, quando amplamente aplicados, podem até salvar vidas.