AlphaGo è un software per il gioco del go sviluppato da Google DeepMind. È stato il primo software in grado di sconfiggere un maestro umano nel gioco senza handicap e su un goban di dimensioni standard (19×19).
Sotto il nome di «AlphaGo» si intendono diverse versioni del software, in particolare:
«AlphaGo Zero», la versione del software basata completamente sull'auto-apprendimento;
«AlphaZero», una versione che è in grado di giocare a go, scacchi e shogi.
Storia
Secondo quanto affermato da David Silver, ricercatore di DeepMind, il progetto AlphaGo venne avviato nel 2014 per studiare quanto le reti neuraliprofonde potessero essere applicabili al gioco del go.[1]
AlphaGo rappresentò un notevole avanzamento rispetto ai programmi per il gioco del go preesistenti. Su 500 partite disputate contro altri software, tra i quali Crazy Stone e Zen,[2] AlphaGo (in esecuzione su un singolo computer) ha vinto tutte le partite tranne una,[3] ed eseguendo una serie di incontri analoga ma girando su un cluster AlphaGo ha vinto tutte le 500 partite e ha vinto il 77% delle partite contro sé stesso eseguito su una singola macchina. La versione distribuita impiegava 1202 CPU e 176 GPU, circa 25 volte in più rispetto all'hardware del computer singolo.[4]
Una versione preliminare di AlphaGo è stata testata su diverse configurazioni hardware, in modalità asincrona o distribuita, con un tempo di due secondi per mossa, generando i seguenti valori Elo.[4]
Nell'ottobre del 2015 AlphaGo sconfisse 5-0 il campione europeo Fan Hui (2 dan),[5] diventando il primo software in grado di sconfiggere un maestro umano nel gioco senza handicap e su un goban di dimensioni standard.[6] L'annuncio pubblico venne fatto solo il 27 gennaio 2016, in coincidenza con la pubblicazione di un articolo su Nature[7] che descrive l'algoritmo impiegato dal software.[5]
Incontro con Lee Se-dol
Tra il 9 e il 15 marzo 2016 AlphaGo disputò un incontro con il giocatore sudcoreano Lee Se-dol (9-dan), uno tra i più forti giocatori di go al mondo.[8] L'incontro in cinque partite, giocate rispettivamente il 9, 10, 12, 13 e 15 marzo, si tenne al Four Seasons Hotel di Seul[9][10] e venne trasmesso in diretta in streaming.[11] AlphaGo girava sulla piattaforma cloud di Google, i cui server si trovano negli Stati Uniti, e le mosse elaborate dal software vennero riportate sul goban da Aja Huang, membro del team DeepMind e giocatore amatoriale di go (6-dan).[12] L'incontro adottava le regole cinesi, con un komi di 7,5 punti e un tempo di riflessione di due ore e un byoyomi di 60 secondi.[13] La potenza di calcolo impiegata era simile a quella usata nell'incontro con Fan Hui.[14]
Al tempo dell'incontro, Lee Se-dol deteneva il secondo numero più alto al mondo di vittorie nei campionati internazionali di Go.[15] Pur non esistendo un ranking ufficiale a livello internazionale, alcune fonti consideravano Lee Se-dol come il quarto miglior giocatore al mondo in quel periodo.[16][17] AlphaGo non era stato configurato in maniera particolare per affrontare lo stile di gioco di Lee.[18]
AlphaGo si è aggiudicato le prime tre partite per abbandono da parte di Lee Se-dol.[19][20] Questi ha vinto la quarta partita, nella quale AlphaGo ha abbandonato alla centottantesima mossa. Il software ha infine vinto l'ultima partita per abbandono.[21]
Il premio per il vincitore dell'incontro era pari a un milione di USD. Essendo stato aggiudicato da AlphaGo, l'importo è stato devoluto ad organizzazioni per il gioco del go e ad organizzazioni di beneficenza, tra le quali l'UNICEF.[22] Lee Se-dol ha ricevuto un compenso di 150 000 USD per la partecipazione a tutte e cinque le partite e un compenso addizionale di 20 000 USD per la vittoria nella quarta partita.[13]
Algoritmo
L'algoritmo impiegato da AlphaGo usa una combinazione di machine learning e tecniche di ricerca su alberi, insieme ad un'estensiva fase di apprendimento da gioco sia umano sia artificiale. Utilizza la ricerca ad albero Monte Carlo (MCTS) per la selezione delle mosse, guidata da due reti neuraliprofonde (value network e policy network).[23][4] Prima di essere inviato alle reti neurali, l'input è analizzato in una fase di pre-processing per estrarre alcune feature (ad esempio l'aderenza delle mosse a una serie di pattern comuni).[4]
Nella prima fase del training le reti neurali effettuano un apprendimento supervisionato basato sul gioco umano, tentando di imitarlo usando un database di circa 30 milioni di mosse da partite storiche.[24] Una volta raggiunta una certa forza di gioco, l'apprendimento prosegue per rinforzo giocando contro altre istanze di sé stesso.[23]
Il software è programmato per abbandonare la partita se la probabilità di vittoria scende al di sotto di una certa soglia, che ad esempio nell'incontro del marzo 2016 con Lee Se-dol era fissata al 20%.[25]
Il giocatore umano con punteggio Elo più alto tra quelli registrati è Shin Jin-seo, che ha raggiunto 3827 punti nel 2020.[33]
Accoglienza
AlphaGo è considerato una pietra miliare nella ricerca sull'intelligenza artificiale, in quanto il go era considerato in precedenza un gioco fuori dalla portata delle tecniche di apprendimento automatico sviluppate all'epoca.[34][35] Toby Manning (arbitro del match con Fan Hui) e Haijin Lee (segretario generale della International Go Federation) ipotizzano che in futuro i giocatori di go potranno contare sull'aiuto del computer per l'analisi di gioco.[36]
Myungwan Kim (9 dan) ha descritto lo stile di gioco di AlphaGo "come quello di un umano" nell'incontro con Fan Hui.[37] Toby Manning, arbitro dell'incontro, ha descritto lo stile di gioco del software come "conservativo".[38]
Partita di esempio
AlphaGo (nero) v. Fan Hui, quarto turno (8 ottobre 2015), AlphaGo vince per abbandono.[4]