斷裂:阿爾法狗純自學版問世,又上《Nature》 |
送交者: Mayi 2017年10月20日16:05:14 於 [競技沙龍] 發送悄悄話 |
與之前的所有版本不同在於阿爾法狗純自學版(AlphaGo Zero)沒有輸入任何人類圍棋知識和規則,完全從0開始(starting tabula rasa)。雖然這個概念去年deepmid團隊就透露過,但一直進展不順利,很多業內人士則認為根本不可能的事情。 現在的版本不僅在硬件上大為減化,從小李版(AlphaGo Lee)的48個TPU到現在的4個TPU,而且現在的版本把策略(police)網絡和價值(value)網絡作了合併,用強化學習為主要工具。其主要的進步來自該團隊算法上的進步,如第一作者Silver所說:之前人們認為機器學習就是海量計算和大數據,但從阿爾法狗純自學版(AlphaGo Zero)的情況看,我們認為算法比所謂計算和數據更重要。 阿爾法狗純自學版(AlphaGo Zero)的結果簡述如下:
圖a用小李版(AlphaGo Lee)和柯潔版(AlphaGo Master)作對照來監督純自學版(AlphaGo Zero)的學習進程即實戰水平。如圖所示,阿爾法狗純自學版(AlphaGo Zero)只用了3天就達到了小李版(AlphaGo Lee)的水平,5天后就超過了小李版(AlphaGo Lee),30天就達到了柯潔版(AlphaGo Master)的水平,40天后已甩開了柯潔版(AlphaGo Master)。自學版(AlphaGo Zero)目前對小李版(AlphaGo Lee)的戰績是100-0。於是當今地球第一高手非阿爾法狗純自學版莫屬。 圖b是各狗的ELO的相對分比較。註:人類最高分柯潔的ELO是3600分多一點。 下面的圖非常有意思,因為它們清楚而直觀地顯示了純自學版(AlphaGo Zero)的學習過程和定式建立過程:
1-1point:一開始純自學版(AlphaGo Zero)就象不會下棋的小孩一樣瞎幾巴整,黑棋下到右角,而白棋應對在八丈開外。但這個瞎幾巴整在20小時左右就被無情拋棄了。 Outside attachment:在20小時左右開始發展出角部應對策略,如對星位的外碰。然而這顯然是個吃虧的着法,不到2天就被棄之。 Knight‘s move approach:30多小時後已發展出對星位的小飛掛,尖頂,立,拆一的現代定式。但白6的遠點很少見。這個應對在3天后被棄之。 One-space jump:2天后走出對小目的一間低掛尖頂定式。 3-3 invasion:1天后找到了白點黑星位3-3的定式。但這個定式在2天之後用得越來越少了。 3-3 point knight's move:上面定式用得越來越少是因為發現了這個定式更好用。同樣是白點黑星位3-3的定式,但黑5不走上圖的扳而走小飛。這個變化是今天職業最流行的走法之一。 5-3 point press:1天后找到了目外定式標準定式 Small avalanche:20小時開發出小雪崩定式 Attach and draw back:1天后正確走出小目一間高掛標準定式 Knight's move pincer:1天后正確走出小飛掛星位低位小飛進角標準定式 Pincer 3-3 point:40小時左右找到小飛掛星位點角標準定式 http://www.nature.com/nature/journal/v550/n7676/full/nature24270.html
|
|
|
|
|
實用資訊 | |
|
|
一周點擊熱帖 | 更多>> |
|
|
一周回復熱帖 |
|
|
歷史上的今天:回復熱帖 |
2016: | TNF 狗熊 @ 綠灣 | |
2016: | 周老虎: 閒扯幾句國內的車窗貼膜 | |
2015: | 有獎竟猜 | |
2015: | 有人看勇士對小船嗎。。。 | |
2014: | MNF:德軍 - 鋼人 | |
2014: | xxlfm: 新警察報告:大馬啃白菜 | |
2013: | 搭台:大白菜斷裂回家,是驢子是馬拉出 | |
2013: | NFL第7周,無驚奇Out,中下午看老冤家 | |
2012: | 沒人上貼?我來湊一個段子 -- 都笑了 | |