自學成才的典範
AlphaGo深度學習機器經過學習幾千盤圍棋高手的比賽,擊敗了人類頂尖高手李世石,柯潔。此後,谷歌又推出新版AlphaGo Zero。AlphaGo Zero的初始狀態沒有任何圍棋知識,只懂圍棋規則,會判斷勝負。從隨機選擇下一步棋開始,自己和自己下棋。其水平之低是可以想象的。任何有一點圍棋知識的人都會贏剛剛起步的AlphaGo Zero。
AlphaGo Zero把自己與自己對局的贏局的每一步棋,送進強化學習神經網絡去擬合。不像AlphaGo Zero以前的版本,要對棋形做特徵分解,AlphaGo Zero直接把棋形的黑白子坐標當作強化學習神經網絡的輸入。擬合後,得到權重W0。然後,AlphaGo Zero用W0模型自己與自己對局。W0模型,是隨機模型的贏局產生,水平比隨機模型略高。AlphaGo Zero再把W0模型自己與自己對局的贏局送進強化學習神經網絡去擬合。擬合後,得到權重W1。W1模型,是W0模型的贏局產生,水平比W0模型略高。然後,AlphaGo Zero用W1模型自己與自己對局。
這樣的過程可以無限進行下去。按照模型的水平,或接近理想模型的程度,W0,W1,W2,...,Wn單調遞增。經過40天的自我學習,AlphaGo Zero擊敗了所有AlphaGo的前身,擊敗了所有世界頂尖高手。AlphaGo Zero在自學過程中,學到了人類棋手總結的某些定式,淘汰了人類棋手的某些定式,發現了一些新定式。AlphaGo Zero 40天的自我學習超過了人類棋手4000年來積累的圍棋知識。
AlphaGo Zero自我學習的結果也肯定了人類對圍棋的主要認知,例如金角,銀角,草皮肚。AlphaGo Zero的價值觀也是遵循先角,後邊,再中腹的順序。還有很多人類高手總結的定式和招法。可謂殊途同歸。
AlphaGo Zero中Zero的意思就是從零學起,自己跟自己從零學起。
AlphaGo Zero成長的過程也是規則選擇優勝,一代一代進化的過程。可以說是物競天擇。其實人類就是這麼進化的。只不過AlphaGo Zero用40天模擬了人類4000年的進化過程(僅指圍棋方面)