自學成才的典範（轉帖）-茗香茶語-萬維論壇-萬維讀者網（電腦版）

送交者: zhf 2019年01月22日08:01:38 於 [茗香茶語] 發送悄悄話

自學成才的典範

AlphaGo深度學習機器經過學習幾千盤圍棋高手的比賽，擊敗了人類頂尖高手李世石，柯潔。此後，谷歌又推出新版AlphaGo Zero。AlphaGo Zero的初始狀態沒有任何圍棋知識，只懂圍棋規則，會判斷勝負。從隨機選擇下一步棋開始，自己和自己下棋。其水平之低是可以想象的。任何有一點圍棋知識的人都會贏剛剛起步的AlphaGo Zero。

AlphaGo Zero把自己與自己對局的贏局的每一步棋，送進強化學習神經網絡去擬合。不像AlphaGo Zero以前的版本，要對棋形做特徵分解，AlphaGo Zero直接把棋形的黑白子坐標當作強化學習神經網絡的輸入。擬合後，得到權重W0。然後，AlphaGo Zero用W0模型自己與自己對局。W0模型，是隨機模型的贏局產生，水平比隨機模型略高。AlphaGo Zero再把W0模型自己與自己對局的贏局送進強化學習神經網絡去擬合。擬合後，得到權重W1。W1模型，是W0模型的贏局產生，水平比W0模型略高。然後，AlphaGo Zero用W1模型自己與自己對局。

這樣的過程可以無限進行下去。按照模型的水平，或接近理想模型的程度，W0，W1，W2，...，Wn單調遞增。經過40天的自我學習，AlphaGo Zero擊敗了所有AlphaGo的前身，擊敗了所有世界頂尖高手。AlphaGo Zero在自學過程中，學到了人類棋手總結的某些定式，淘汰了人類棋手的某些定式，發現了一些新定式。AlphaGo Zero 40天的自我學習超過了人類棋手4000年來積累的圍棋知識。

AlphaGo Zero自我學習的結果也肯定了人類對圍棋的主要認知，例如金角，銀角，草皮肚。AlphaGo Zero的價值觀也是遵循先角，後邊，再中腹的順序。還有很多人類高手總結的定式和招法。可謂殊途同歸。

AlphaGo Zero中Zero的意思就是從零學起，自己跟自己從零學起。

AlphaGo Zero成長的過程也是規則選擇優勝，一代一代進化的過程。可以說是物競天擇。其實人類就是這麼進化的。只不過AlphaGo Zero用40天模擬了人類4000年的進化過程（僅指圍棋方面）

0%(0)

	實用資訊

回國機票$360起 | 商務艙省$200 | 全球最佳航空公司出爐：海航獲五星
海外華人福利！在線看陳建斌《三叉戟》熱血歸回豪情築夢 高清免費看無地區限制

一周點擊熱帖

更多>>

一周回復熱帖

歷史上的今天：回復熱帖

2018:	給你們看外星人無證行醫，哈哈。看完了
2018:	常文俠/常文霞：網上很多有關她的信息
2017:	來看看咱們總統怎麼hire america
2017:	直言：下午的點心
2016:	陸小民：北朝鮮棄核的關鍵在美國，不在
2016:	大射固然8正經，但其危害小於賣假藥貼
2015:	suibian2009：喜歡白菜
2015:	說明一哈，小巫並非穆斯林，是開玩笑的
2014:	各位怎麼看中國高官及家屬在海外的財產
2014:	讓鐵打的江山萬年紅