設萬維讀者為首頁 廣告服務 聯繫我們 關於萬維
簡體 繁體 手機版
分類廣告
版主:阿飛的劍
萬維讀者網 > 茗香茶語 > 帖子
自學成才的典範 (轉帖)
送交者: zhf 2019年01月22日08:01:38 於 [茗香茶語] 發送悄悄話

自學成才的典範


AlphaGo深度學習機器經過學習幾千盤圍棋高手的比賽,擊敗了人類頂尖高手李世石,柯潔。此後,谷歌又推出新版AlphaGo ZeroAlphaGo Zero的初始狀態沒有任何圍棋知識,只懂圍棋規則,會判斷勝負。從隨機選擇下一步棋開始,自己和自己下棋。其水平之低是可以想象的。任何有一點圍棋知識的人都會贏剛剛起步的AlphaGo Zero


AlphaGo Zero把自己與自己對局的贏局的每一步棋,送進強化學習神經網絡去擬合。不像AlphaGo Zero以前的版本,要對棋形做特徵分解,AlphaGo Zero直接把棋形的黑白子坐標當作強化學習神經網絡的輸入。擬合後,得到權重W0。然後,AlphaGo ZeroW0模型自己與自己對局。W0模型,是隨機模型的贏局產生,水平比隨機模型略高。AlphaGo Zero再把W0模型自己與自己對局的贏局送進強化學習神經網絡去擬合。擬合後,得到權重W1W1模型,是W0模型的贏局產生,水平比W0模型略高。然後,AlphaGo ZeroW1模型自己與自己對局。


這樣的過程可以無限進行下去。按照模型的水平,或接近理想模型的程度,W0W1W2...Wn單調遞增。經過40天的自我學習,AlphaGo Zero擊敗了所有AlphaGo的前身,擊敗了所有世界頂尖高手。AlphaGo Zero在自學過程中,學到了人類棋手總結的某些定式,淘汰了人類棋手的某些定式,發現了一些新定式。AlphaGo Zero 40天的自我學習超過了人類棋手4000年來積累的圍棋知識。


AlphaGo Zero自我學習的結果也肯定了人類對圍棋的主要認知,例如金角,銀角,草皮肚。AlphaGo Zero的價值觀也是遵循先角,後邊,再中腹的順序。還有很多人類高手總結的定式和招法。可謂殊途同歸。


AlphaGo ZeroZero的意思就是從零學起,自己跟自己從零學起。


AlphaGo Zero成長的過程也是規則選擇優勝,一代一代進化的過程。可以說是物競天擇。其實人類就是這麼進化的。只不過AlphaGo Zero40天模擬了人類4000年的進化過程(僅指圍棋方面)


0%(0)
標 題 (必選項):
內 容 (選填項):
實用資訊
回國機票$360起 | 商務艙省$200 | 全球最佳航空公司出爐:海航獲五星
海外華人福利!在線看陳建斌《三叉戟》熱血歸回 豪情築夢 高清免費看 無地區限制