当前位置 - 股票行情交易網 - 股票交易 - 100:0,新AlphaGo放棄了人類?

100:0,新AlphaGo放棄了人類?

01

2017年10月19日,谷歌子公司DeepMind發布了AlphaGo的新版本。很多人知道AlpoaGo是壹個人工智能程序,卻不知道它其實是壹個家族,早期戰勝韓國選手李世石的是AlphaGo Lee。在烏鎮擊敗世界冠軍柯潔的是AlphaGo Master。本次發布的是AlphaGo Zero(阿爾法零),它經過3天的訓練便以100:0的戰績擊敗了他的哥哥AlphoGo Lee,經過40天的訓練便擊敗了它的另壹個哥哥AlphoGo Master。

AlphaGo Zero與之前版本相比,最大的區別在於,它不再依靠人類的指導來成長,即之前的AlphaGo Lee是依賴於人工錄入的大量棋譜來幫助其學習如何下棋,說白了,它是在人的指導下學習,可以理解為是人類千年圍棋經驗教出的學生。

而AlphaGo Zero使用了強化學習算法,即不再依賴任何棋譜,編程人員輸入圍棋基本規則後,不再進行任何教導,完全由其自己進行摸索,總結走棋方法,相當於人工智能完全按照自己的方法學習。AlphaGo Lee完敗於摒棄了人類經驗的AlphaGo Zero,這說明人類的經驗可能誤導了AlphaGo Lee,進而限制了它的發展。

AlphaGo Zero的行棋方式在開局和收官階段,與人類選手有較大的相似之處,而盤中的行棋風格的確與人類選手和之前版本的AlPhaGo有較大不同,而正是這種不同讓其可以在100次與AlphaGo Lee的交戰中立於不敗,換個說法,如果當初AlphaGo Lee沒有拜人類為師,而是向機器學習,那麽對於擁有更強計算能力的AlphaGo Lee來說,勝負還未可知。

除了零經驗學習外,AlphaGo Zero的另壹大特點是將之前版本AlphaGo的兩個神經網絡融為壹體,在之前版本的AlphaGo上,如何走棋是由?策略網絡?和?價值網絡?兩個神經網絡來計算如何行棋的,即首先由?策略網絡?利用之前累積的經驗,判斷在當前棋型下哪些位置適合行棋,之後由?價值網絡?對在這些位置行棋後的種種可能進行模擬,計算勝率,最終選擇出行棋位置。

而AlphaGo Zero將二者融為了壹體,對之前兩個網絡的特征提取等模塊進行了***用,可以在計算出可能行棋的位置時便給出相應的?勝率?,大幅提高效率,減少了訓練所需的時間。這也是AlphaGo Zero在訓練了三天就打敗了訓練了幾個月的AlphaGo Lee的主要原因之壹。

人工智能不僅是計算機科學領域發展的制高點,在所有行業都具有無限潛力和應用價值,目前世界各國普遍看好,人工智能技術將成長為下壹次技術革命契機。即便最終人工智能沒有達到革命級別的顛覆程度,AI已經在逐漸改變我們的生活。

以往人工智能的進步都是建立在軟件與硬件同步發展的基礎上,神經網絡算法最早在上個世紀中葉就被提出,然而受限於計算能力,神經網絡算法壹直發展緩慢。

之後隨著硬件計算速度的不斷提高,已有的軟件算法不斷被實現並改進,改進的算法對硬件要求更高,從而進壹步促進了硬件的發展,而AlphaGo Zero的出現完全建立在算法更新的基礎上。

前壹版本的AlphaGo需要在48個TPU(谷歌專為加速深層神經網絡運算能力而研發的芯片,壹塊成本即達500萬美元)上進行幾個月學習,而AlphaGo Zero只需要4個TPU加上幾天的時間便可完成學習。這種零經驗學習能力非常適合在蛋白質折疊和其它缺少樣本的醫療領域進行應用,可以很好地解決因缺少試驗樣本而導致研究進展緩慢的問題。未來的相關研究中完全可以輸入規則後利用AlphaGo Zero的能力進行模擬,最後利用有限的樣本進行驗證即可。

AlphaGo逐漸升級之路

故事講到這裏,實在不得不佩服谷歌深厚的技術實力與精明的商業頭腦。AlphaGo從誕生伊始,就得到了deepmind團隊的精心包裝,仔細回想起來,可謂是?城裏套路深?。

從最初戰勝低段位職業棋手開始預熱或者說炒作,到戰勝人類頂尖高手李世石,AlphaGo的登場已經足夠華麗。不過4比1的比分還是給了人類壹線希望,這僅有的勝局中,李世石劍走偏鋒,直接把AlphaGo逼出了?大腦短路?的癥狀,可見此時AlphaGo雖已經足夠強大,但尚不完美。此後各路人類高手開始臥薪嘗膽,精研AlphaGo的套路,寄希望於重新捍衛人類尊嚴。

隨後,壹個神秘的?master?在圍棋界頂級棋手的對戰平臺上取得了60勝0負的驕人戰績,這位master到底是何方神聖,是人是妖可謂是賺足了吃瓜群眾的眼球。直到華麗的60勝達成,謎底才最終揭曉。

此後便是吸引了全世界目光的烏鎮對決,AlphaGo Master把柯潔打到毫無還手之力。雖然柯潔已經表現出了真正的人類最強者戰力,卻仍然被AlphaGo完全壓制,只要出招有任何壹點閃失,立刻會陷入AlphaGo?最小優勢勝?策略的陷阱,再無翻身余地。

烏鎮對決之後,人類在圍棋領域已經徹底甘拜下風,別說柯潔壹人,五大高手聯手作戰比柯潔輸得更快,AlphaGo壹時風光無限。

如今,烏鎮硝煙剛要散盡,谷歌又搞了個大新聞出來!人工智能在摒棄人類經驗後,用三天時間自學的AlphaGo Zero打敗了人類幾千年的經驗。AlphaGo的進化版打敗了原始版,不禁叫人想起《鐵甲鋼拳》裏叫人熱血賁張的機甲肉搏,壹個AI輸給另壹個更牛的AI,中國AI戰勝美國AI,這很有可能是未來棋類競技中的真實場景。