斷裂：阿爾法狗純自學版問世，又上《Nature》-競技沙龍-萬維論壇-萬維讀者網（電腦版）

送交者: Mayi 2017年10月20日16:05:14 於 [競技沙龍] 發送悄悄話

與之前的所有版本不同在於阿爾法狗純自學版（AlphaGo Zero）沒有輸入任何人類圍棋知識和規則，完全從0開始（starting tabula rasa）。雖然這個概念去年deepmid團隊就透露過，但一直進展不順利，很多業內人士則認為根本不可能的事情。

現在的版本不僅在硬件上大為減化，從小李版（AlphaGo Lee）的48個TPU到現在的4個TPU，而且現在的版本把策略（police）網絡和價值（value）網絡作了合併，用強化學習為主要工具。其主要的進步來自該團隊算法上的進步，如第一作者Silver所說：之前人們認為機器學習就是海量計算和大數據，但從阿爾法狗純自學版（AlphaGo Zero）的情況看，我們認為算法比所謂計算和數據更重要。

阿爾法狗純自學版（AlphaGo Zero）的結果簡述如下：

圖a用小李版（AlphaGo Lee）和柯潔版（AlphaGo Master）作對照來監督純自學版（AlphaGo Zero）的學習進程即實戰水平。如圖所示，阿爾法狗純自學版（AlphaGo Zero）只用了3天就達到了小李版（AlphaGo Lee）的水平，5天后就超過了小李版（AlphaGo Lee），30天就達到了柯潔版（AlphaGo Master）的水平，40天后已甩開了柯潔版（AlphaGo Master）。自學版（AlphaGo Zero）目前對小李版（AlphaGo Lee）的戰績是100-0。於是當今地球第一高手非阿爾法狗純自學版莫屬。

圖b是各狗的ELO的相對分比較。註：人類最高分柯潔的ELO是3600分多一點。

下面的圖非常有意思，因為它們清楚而直觀地顯示了純自學版（AlphaGo Zero）的學習過程和定式建立過程：

1-1point：一開始純自學版（AlphaGo Zero）就象不會下棋的小孩一樣瞎幾巴整，黑棋下到右角，而白棋應對在八丈開外。但這個瞎幾巴整在20小時左右就被無情拋棄了。

Outside attachment：在20小時左右開始發展出角部應對策略，如對星位的外碰。然而這顯然是個吃虧的着法，不到2天就被棄之。

Knight‘s move approach：30多小時後已發展出對星位的小飛掛，尖頂，立，拆一的現代定式。但白6的遠點很少見。這個應對在3天后被棄之。

One-space jump：2天后走出對小目的一間低掛尖頂定式。

3-3 invasion：1天后找到了白點黑星位3-3的定式。但這個定式在2天之後用得越來越少了。

3-3 point knight's move：上面定式用得越來越少是因為發現了這個定式更好用。同樣是白點黑星位3-3的定式，但黑5不走上圖的扳而走小飛。這個變化是今天職業最流行的走法之一。

5-3 point press：1天后找到了目外定式標準定式

Small avalanche：20小時開發出小雪崩定式

Attach and draw back：1天后正確走出小目一間高掛標準定式

Knight's move pincer：1天后正確走出小飛掛星位低位小飛進角標準定式

Pincer 3-3 point：40小時左右找到小飛掛星位點角標準定式

http://www.nature.com/nature/journal/v550/n7676/full/nature24270.html

0%(0)

狗的價值網絡最厲害，能評估棋盤棋局，只要能正確評估棋局 - 破棉襖 10/23/17 (269)

應該有很多細節，我們不清楚　　/無內容 - rednose 10/20/17 (270)

細節在原文中啊 - Mayi 10/20/17 (358)

有技術上的細節嗎？　　/無內容 - rednose 10/21/17 (293)

不知道為什麼這是個問題 - Mayi 10/21/17 (299)

	實用資訊

回國機票$360起 | 商務艙省$200 | 全球最佳航空公司出爐：海航獲五星
海外華人福利！在線看陳建斌《三叉戟》熱血歸回豪情築夢 高清免費看無地區限制

一周點擊熱帖

更多>>

一周回復熱帖

歷史上的今天：回復熱帖

2016:	TNF 狗熊 @ 綠灣
2016:	周老虎: 閒扯幾句國內的車窗貼膜
2015:	有獎竟猜
2015:	有人看勇士對小船嗎。。。
2014:	MNF：德軍 - 鋼人
2014:	xxlfm: 新警察報告：大馬啃白菜
2013:	搭台：大白菜斷裂回家，是驢子是馬拉出
2013:	NFL第7周，無驚奇Out，中下午看老冤家
2012:	沒人上貼？我來湊一個段子 -- 都笑了