AlphaGo真的理解圍棋嗎?
我非常認可這樣壹段話:妳或許還是不能接受AlphaGo這個樣子,我想這是因為,人們下圍棋,壹定要先理解“圍棋”什麽東西,下面才可以操作。但是AlphaGo卻是在不知道(或者沒有被提供數據)“圍棋是壹種2個人的,而且兩個人面對面做的,對抗的,零和的,棋盤19*19的,棋盤是方的,上面是打格子的,格子也是方的,有黑白兩個子的,黑子先下的,兩個輪流下的,要下在格點而不是格子中間的,有限時要求的,棋子數量足夠的,壹個棋子不會占超過壹格的,棋子是圓的,兩邊凸起的,中國古代發明的,壹種博弈遊戲”中的任何壹點的時候,可以戰勝人類。
首先,我認為AlphaGo是可以理解圍棋的。
計算機對圍棋有這樣的規定(Tromp-Taylor規則定義),圍棋是壹個在19*19格點上進行,兩個玩家“小黑”、“小白”,輪流分別把棋盤上的某壹個格點染成黑色或白色的遊戲。再加上提子和禁循環的規則,以及終局判斷,就是完整的Tromp-Taylor規則。這樣的圍棋,和我們眼中的圍棋,有什麽本質區別嗎?如果不考慮圍棋文化,那麽我可以肯定地說,沒有區別。
那麽為什麽AlphaGo會引起如此大的關註度,有人還說人類最後壹塊陣地失守,甚至還有人說人工智能將會取代人類。答:圍棋是世界上最復雜的遊戲之壹。所謂“壹著不慎,滿盤皆輸”,每壹步棋都可能左右全局的結果。壹般來說,壹手棋的決策分兩步。第壹步,“選點”:憑經驗或感覺給出幾個候選的點;第二步,“判斷”:分別對這幾個點做形式判斷,並進行比較。這兩步,說來容易,但要做到頂尖高手的水平,對於天賦和勤勉的要求,不亞於壹個優秀數學家所需要的。
阿爾法圍棋(AlphaGo)是壹款圍棋人工智能程序,由谷歌(Google)旗下DeepMind公司的戴密斯·哈薩比斯、大衛·席爾瓦、黃士傑與他們的團隊開發。其主要工作原理是“深度學習”。
那麽何為“深度學習”?深度學習的概念源於人工神經網絡的研究。含多隱層的多層感知器就是壹種深度學習結構。深度學習通過組合低層特征形成更加抽象的高層表示屬性類別或特征,以發現數據的分布式特征表示。深度學習是機器學習中壹種基於對數據進行表征學習的方法。觀測值(例如壹幅圖像)可以使用多種方式來表示,如每個像素強度值的向量,或者更抽象地表示成壹系列邊、特定形狀的區域等。而使用某些特定的表示方法更容易從實例中學習任務(例如,人臉識別或面部表情識別)。深度學習的好處是用非監督式或半監督式的特征學習和分層特征提取高效算法來替代手工獲取特征。深度學習是機器學習研究中的壹個新的領域,其動機在於建立、模擬人腦進行分析學習的神經網絡,它模仿人腦的機制來解釋數據,例如圖像,聲音和文本。同機器學習方法壹樣,深度機器學習方法也有監督學習與無監督學習之分.不同的學習框架下建立的學習模型很是不同.例如,卷積神經網絡(Convolutionalneuralnetworks,簡稱CNNs)就是壹種深度的監督學習下的機器學習模型,而深度置信網(DeepBeliefNets,簡稱DBNs)就是壹種無監督學習下的機器學習模型。
正是因為這種“深度學習”才讓了AlphaGo學習到了博大精深的圍棋,正是因為“深度學習”讓AlphaGo從對圍棋的無知到挑戰世界頂尖棋手。
那麽,人又是為何會下圍棋的呢?
人在下棋的時候,每壹個下棋步驟的決定也都是通過了類似的信號加減。我們對現在的棋盤狀態有個價值判斷,勝敗概率判斷。下棋在不同的格子,這種選擇,也是通過經驗;對不同的格子就有不同的勝敗概率漲跌估算。同時我們也會通過經驗來預測對方下面幾個回合的走棋步驟。專家的經驗多了,對這三個方面的價值判斷能力也就更清晰了。
壹開始接觸圍棋,對這些東西都沒啥預測能力,或者非常不準,因為根本沒有機會經歷類似的情況;壹切都是新的狀態。壹步壹步熟悉起來了,會保留更多的狀態記憶。會想起以前經歷過的。這才進壹步準確判斷不同選擇的價值。再專業的那些人,他們不用刻意去想,已經成了下意識。思維已經跑到了上層建築、還有上上層。什麽時候走錯或者不知道怎麽走,都是因為某個層面還缺乏概念,或者還沒經歷過這個情況,無法認識到pattern。阿法狗也是通過類似的學習方式壹步壹步修建自己的判斷能力準確度。神經網絡裏面的權重,對應的就是人類所學到的那些“規則”。他的規則層次,最後選擇也都是有原因,有經驗的,壹樣也是“理解”。跟人類的理解沒差多少。