segunda-feira, 14 de março de 2016



O Sedol ganhou uma partida! Não vai ser 5-0 !
Essa eu não assisti ao vivo, mas pelo replay ficou claro para mim que o maior problema do Alphago é que ele não tem a capacidade de levantar e sair da sala de vez em quando.
A partida começou bizarramente igual ao segundo match. O Sedol já tinha dito em entrevista que o opening dele na segunda partida estava bom, e ele tinha estragado na frente. Então ele simplesmente repetiu as jogadas, e o Alphago também. As primeiras 10 jogadas foram repetidas, até que na 11 o Sedol saiu da script.
Quem está acompanhando as partidas sabe que o Alphago tem essa mania de fazer aparecer território "magicamente". O que ele faz é atacar os grupos dos inimigos por fora, e enquanto o oponente defende, as peças de ataque do Alphago acabam formando um paredão que define o território.
Ontem aconteceu isso de novo, o Sedol fez um grupo na borda esqueda, o Alphago fez um paredão. Depois o Sedol fez outro grupo na borda direita, o Alphago fez paredão. Se continuasse assim, o Alpha teria o centro inteiro para ele, que foi mais ou menos o que aconteceu nas outras partidas.
Mas dessa vez o Sedol cortou o paredão no B56. O Alphago tentou bloquear, mas não percebeu uma jogada matadora do Sedol no B78. Quando o Alphago se deu conta de que o B78 era um tesuji sinistro, a partida já estava perdida. Eles se meteram num semeai na borda, e incrivelmente o Sedol ganhou o semeai (o que é bizarro porque supostamente computadores são muito bons de semeai). O resultado é que o Sedol *comeu um grupo inteiro do Alphago*, 8 pedras, e três jogadas depois o Alphago desistiu.
E o que aconteceu? Na minha opinião, o problema do Alphago é que ele não pensou o suficiente. Quando ele fez a jogada lendária na segunda partida, o Sedol levantou da cadeira, ficou 10min longe, e quando voltou ainda ficou mais 15min pensando antes de continuar. Agora foi o oposto, o Sedol fez uma jogada louca, mas o Alphago não se tocou disso. Pensou só 1 min na resposta, que é o padrão dele, ao invés de perceber que era uma jogada crítica e que valia a pena investigar mais.
O que eu acho que aconteceu foi o seguinte: essa pedra que o Sedol jogou no B78 é localmente ruim. Ela só funciona num contexto muito especial, e você precisa fazer uma sequencia especifica de dez jogadas para ver a utilidade dela.
Mas o Alphago é monte carlo né. Ele não analisa TODAS as possibilidades, só faz um sampling do espaço de busca e tira a média das jogadas. Na média, aquela pedra era ruim. Provavelmente o monte carlo não simulou aquela sequencia especial de dez jogadas que é a única que funciona (a chance de aparecer é 1/360^10 after all). Como a sequencia não apareceu, ele não percebeu, e o Sedol ganhou.
Tem solução? Claro, é só simular mais! Eventualmente a sequencia iria aparecer. O Alphago ainda tinha muito tempo sobrando. Se ficasse 25min simulando, como o Sedol fez na partida dois, ele teria achado a sequencia e protegido. Mas ele não tem um algoritmo para decidir quando precisa pensar mais e quando precisa pensar menos, joga sempre 1min por pedra, e isso foi o que o levou à derrota.

Nenhum comentário:

Postar um comentário