断裂：阿尔法狗纯自学版问世，又上《Nature》-竞技沙龙-万维论坛-万维读者网（电脑版）

送交者: Mayi 2017年10月20日16:05:14 于 [竞技沙龙] 发送悄悄话

与之前的所有版本不同在于阿尔法狗纯自学版（AlphaGo Zero）没有输入任何人类围棋知识和规则，完全从0开始（starting tabula rasa）。虽然这个概念去年deepmid团队就透露过，但一直进展不顺利，很多业内人士则认为根本不可能的事情。

现在的版本不仅在硬件上大为减化，从小李版（AlphaGo Lee）的48个TPU到现在的4个TPU，而且现在的版本把策略（police）网络和价值（value）网络作了合并，用强化学习为主要工具。其主要的进步来自该团队算法上的进步，如第一作者Silver所说：之前人们认为机器学习就是海量计算和大数据，但从阿尔法狗纯自学版（AlphaGo Zero）的情况看，我们认为算法比所谓计算和数据更重要。

阿尔法狗纯自学版（AlphaGo Zero）的结果简述如下：

图a用小李版（AlphaGo Lee）和柯洁版（AlphaGo Master）作对照来监督纯自学版（AlphaGo Zero）的学习进程即实战水平。如图所示，阿尔法狗纯自学版（AlphaGo Zero）只用了3天就达到了小李版（AlphaGo Lee）的水平，5天后就超过了小李版（AlphaGo Lee），30天就达到了柯洁版（AlphaGo Master）的水平，40天后已甩开了柯洁版（AlphaGo Master）。自学版（AlphaGo Zero）目前对小李版（AlphaGo Lee）的战绩是100-0。于是当今地球第一高手非阿尔法狗纯自学版莫属。

图b是各狗的ELO的相对分比较。注：人类最高分柯洁的ELO是3600分多一点。

下面的图非常有意思，因为它们清楚而直观地显示了纯自学版（AlphaGo Zero）的学习过程和定式建立过程：

1-1point：一开始纯自学版（AlphaGo Zero）就象不会下棋的小孩一样瞎几巴整，黑棋下到右角，而白棋应对在八丈开外。但这个瞎几巴整在20小时左右就被无情抛弃了。

Outside attachment：在20小时左右开始发展出角部应对策略，如对星位的外碰。然而这显然是个吃亏的着法，不到2天就被弃之。

Knight‘s move approach：30多小时后已发展出对星位的小飞挂，尖顶，立，拆一的现代定式。但白6的远点很少见。这个应对在3天后被弃之。

One-space jump：2天后走出对小目的一间低挂尖顶定式。

3-3 invasion：1天后找到了白点黑星位3-3的定式。但这个定式在2天之后用得越来越少了。

3-3 point knight's move：上面定式用得越来越少是因为发现了这个定式更好用。同样是白点黑星位3-3的定式，但黑5不走上图的扳而走小飞。这个变化是今天职业最流行的走法之一。

5-3 point press：1天后找到了目外定式标准定式

Small avalanche：20小时开发出小雪崩定式

Attach and draw back：1天后正确走出小目一间高挂标准定式

Knight's move pincer：1天后正确走出小飞挂星位低位小飞进角标准定式

Pincer 3-3 point：40小时左右找到小飞挂星位点角标准定式

http://www.nature.com/nature/journal/v550/n7676/full/nature24270.html

0%(0)

狗的价值网络最厉害，能评估棋盘棋局，只要能正确评估棋局 - 破棉袄 10/23/17 (269)

应该有很多细节，我们不清楚　　/无内容 - rednose 10/20/17 (270)

细节在原文中啊 - Mayi 10/20/17 (358)

有技术上的细节吗？　　/无内容 - rednose 10/21/17 (293)

不知道为什么这是个问题 - Mayi 10/21/17 (299)

	实用资讯

回国机票$360起 | 商务舱省$200 | 全球最佳航空公司出炉：海航获五星
海外华人福利！在线看陈建斌《三叉戟》热血归回豪情筑梦 高清免费看无地区限制

一周点击热帖

更多>>

一周回复热帖

历史上的今天：回复热帖

2016:	TNF 狗熊 @ 绿湾
2016:	周老虎: 闲扯几句国内的车窗贴膜
2015:	有奖竟猜
2015:	有人看勇士对小船吗。。。
2014:	MNF：德军 - 钢人
2014:	xxlfm: 新警察报告：大马啃白菜
2013:	搭台：大白菜断裂回家，是驴子是马拉出
2013:	NFL第7周，无惊奇Out，中下午看老冤家
2012:	没人上贴？我来凑一个段子 -- 都笑了