当前位置 - 股票行情交易網 - 國際漫評 - 從圍棋角度看李世石與 AlphaGo 的第二局比賽有哪些關鍵之處

從圍棋角度看李世石與 AlphaGo 的第二局比賽有哪些關鍵之處

沒有太多時間寫壹個長答案,就簡短說壹下我感受最深的壹點吧:

現在職業棋手判斷形勢的算法,有明顯漏洞。

職業棋手判斷形勢的算法大致可以概括成壹句話:估算雙方的目數(地盤大小)差距。

那如果地盤的邊界沒有完全確定怎麽辦呢?如果有先手官子就判給先手方,如果是雙方後手官子就算壹人壹半。

那麽有壹些模糊的地方,比如說壹塊厚勢折算成幾目呢?這個就只能憑感覺了。

今天看各個平臺的解說,大概是柯潔的判斷最準確。柯潔在中盤階段就點出黑棋盤面15目左右。古力壹度判斷小李優勢,甚至到官子不多的時候還認為是細棋。金明完也差不多。麥克雷蒙的判斷沒有仔細聽,好像比古力要準壹點。羋昱廷在128手的時候認為還是細棋(這個時候柯潔已經判斷黑棋明顯領先了)。圍棋TV的完全沒有看,請各位補充。

暫且不論到底是誰的判斷更準,我們可以簡單看壹下白128手時候各方的判斷。有柯潔說黑棋領先壹個貼目,也有說細棋的,甚至有說白棋小優的。這些職業棋手對同壹局面判斷上的分歧居然能超過壹個貼目!這恰好證明了上述算法模糊之處可能產生的巨大誤差。

那麽我們思考壹下誤差可能產生在何處。第壹,先手官子判給先手方。然而在棋盤上,“先手”是個相對概念,逆收官子屢見不鮮。甚至在有些情況下,面對“絕先”,奮力壹搏選擇脫先他頭也不少見。第二,模糊判斷。這個問題更大。職業棋手對壹塊棋厚薄判斷的分歧,很可能導致點目結果的南轅北轍。

AlphaGo是如何做形勢判斷的呢?AlphaGo策略組合的其中壹部分是價值網絡。這壹部分的原理以我的水平解釋不清楚。為了方便理解,我們考慮前壹代AI,Zen的判斷方式:通過大量的隨機采樣估算“勝率”。打個比方,壹盤棋下到120手。在這個時候AlphaGo隨機落子完成壹盤棋,然後判斷哪壹方在這個隨機完成的壹盤棋中獲勝。重復這個流程多次,比如說十萬次,然後其中三萬次黑勝,七萬次白勝,那麽估算出白方的勝率就是70%。

當然,AlphaGo的價值網絡比Zen的方式要先進很多,讓估算的勝率更加準確。

AlphaGo並非完全隨機地模擬剩下的棋局,而是參照了之前的棋譜用落子選擇器找出最有可能的幾個點,保證速度

從效果上來看,估算勝率的效果其實非常好。而且我認為,這樣的判斷方法是本質的。

為什麽?首先要明確,雖然理論上來說,某壹個局面下,要麽是黑方必勝,要麽是白方必勝。然而,由於圍棋事實上無法被窮舉,只能退而求其次估算概率,或者像人類棋手壹樣估算雙方相差的目數。然而,在很多情形下,相差多少目數是沒有意義的。

舉個例子(此處應該有圖),黑方確定目數70目,沒有潛力。白方確定目數40目,有壹塊40目潛力的大空。如果黑方立即打入並活出,則40目的潛力只能轉化成10目的實地,黑方獲勝。如果黑方打入失敗,則白棋40目大空圍成,白方獲勝。黑棋也可以選擇保守的淺消,則白方的40目潛力大約能轉換為25目實地。這個局面下,如果選擇淺消,雖然最後差距會縮小,然而其實勝機也很少。很遺憾,這種局面下,職業棋手很難準確估算打入成活的概率,然而AlphaGo可以。於是心存幻想的人類棋手覺得落後不多,而打入無成算,選擇淺消白棋大空,結果白方40目的潛力轉化成25目實地,黑棋盤面僅多5目,從而落敗。阿爾法狗估算出選擇打入的勝率是40%,而選擇淺消勝率僅為25%,於是毅然選擇打入。不論最後勝負如何,選擇打入顯然是更好的策略。

換句話說,只“領先兩目”而勝率80%,和“領先五目”而勝率70%,其實是前者優勢更大,然而人類會認為後者優勢更大。這或許是人類棋手的命門所在。

可嘆的是,人類不可能通過大量隨機采樣來估算勝率。