最強版AlphaGo40天登頂世界冠軍是什麽情況？

10 月18 日，DeepMind 在雜誌上發表了新論文，正式向世人介紹了AlphaGo 的最新版本——AlphaGo Zero，官方稱之為AlphaGo 的「終極版」（Final Version）。

毫無疑問，AlphaGo Zero 就是當今世上棋力最強的圍棋選手。更可怕的是，AlphaGo Zero 的成長，完全沒有人類進行幹預。

從壹開始，AlphaGo Zero 就是壹張白紙，人類只教給了它最基礎的圍棋規則，以致於最開始，AlphaGo Zero 甚至會填真眼自殺。

但僅僅過了三天，AlphaGo Zero 就有了驚人的進步，曾經擊敗李世乭的AlphaGo Lee，此時已經不是AlphaGo Zero 的對手。整整100 場對決，沒有贏過AlphaGo Zero 壹次。

自我對弈到21 天時，AlphaGo Zero 已經達到了Master 的水平，2016 年底，Master 曾在網上與數十位人類頂級棋手交戰，最終以60:0 的大比分完勝。

最終，當AlphaGo Zero 自我對弈到第40 天時，已經擊敗了之前所有版本AlphaGo 程序，成為新晉的「世界圍棋冠軍」。

AlphaGo Zero 強大的秘密在哪裏？

AlphaGo Zero 采用了新型的「強化學習」模型，讓自己成為自己的老師。盡管壹開始，對弈雙方的水平都不怎麽樣，但經過將神經網絡與強大的搜索算法相結合，不斷地對棋路進行調整，最終得以預測對手的動作，並取得勝利。

AlphaGo Zero 進行自我對弈的好處在於，每壹場對決，雙方的棋力都處在同壹水平線上，每場對弈過後，系統性能都會小幅上升，自我對弈的水準越來越高，AlphaGo Zero 也隨之變得越來越強。

這項技術讓AlphaGo Zero 得以完全擺脫人類的束縛，創造自己的知識體系。雖然調用的算力更少了，卻能成為了更強大的棋手。