断裂:阿尔法狗纯自学版问世,又上《Nature》 |
送交者: Mayi 2017年10月20日16:05:14 于 [竞技沙龙] 发送悄悄话 |
与之前的所有版本不同在于阿尔法狗纯自学版(AlphaGo Zero)没有输入任何人类围棋知识和规则,完全从0开始(starting tabula rasa)。虽然这个概念去年deepmid团队就透露过,但一直进展不顺利,很多业内人士则认为根本不可能的事情。 现在的版本不仅在硬件上大为减化,从小李版(AlphaGo Lee)的48个TPU到现在的4个TPU,而且现在的版本把策略(police)网络和价值(value)网络作了合并,用强化学习为主要工具。其主要的进步来自该团队算法上的进步,如第一作者Silver所说:之前人们认为机器学习就是海量计算和大数据,但从阿尔法狗纯自学版(AlphaGo Zero)的情况看,我们认为算法比所谓计算和数据更重要。 阿尔法狗纯自学版(AlphaGo Zero)的结果简述如下:
图a用小李版(AlphaGo Lee)和柯洁版(AlphaGo Master)作对照来监督纯自学版(AlphaGo Zero)的学习进程即实战水平。如图所示,阿尔法狗纯自学版(AlphaGo Zero)只用了3天就达到了小李版(AlphaGo Lee)的水平,5天后就超过了小李版(AlphaGo Lee),30天就达到了柯洁版(AlphaGo Master)的水平,40天后已甩开了柯洁版(AlphaGo Master)。自学版(AlphaGo Zero)目前对小李版(AlphaGo Lee)的战绩是100-0。于是当今地球第一高手非阿尔法狗纯自学版莫属。 图b是各狗的ELO的相对分比较。注:人类最高分柯洁的ELO是3600分多一点。 下面的图非常有意思,因为它们清楚而直观地显示了纯自学版(AlphaGo Zero)的学习过程和定式建立过程:
1-1point:一开始纯自学版(AlphaGo Zero)就象不会下棋的小孩一样瞎几巴整,黑棋下到右角,而白棋应对在八丈开外。但这个瞎几巴整在20小时左右就被无情抛弃了。 Outside attachment:在20小时左右开始发展出角部应对策略,如对星位的外碰。然而这显然是个吃亏的着法,不到2天就被弃之。 Knight‘s move approach:30多小时后已发展出对星位的小飞挂,尖顶,立,拆一的现代定式。但白6的远点很少见。这个应对在3天后被弃之。 One-space jump:2天后走出对小目的一间低挂尖顶定式。 3-3 invasion:1天后找到了白点黑星位3-3的定式。但这个定式在2天之后用得越来越少了。 3-3 point knight's move:上面定式用得越来越少是因为发现了这个定式更好用。同样是白点黑星位3-3的定式,但黑5不走上图的扳而走小飞。这个变化是今天职业最流行的走法之一。 5-3 point press:1天后找到了目外定式标准定式 Small avalanche:20小时开发出小雪崩定式 Attach and draw back:1天后正确走出小目一间高挂标准定式 Knight's move pincer:1天后正确走出小飞挂星位低位小飞进角标准定式 Pincer 3-3 point:40小时左右找到小飞挂星位点角标准定式 http://www.nature.com/nature/journal/v550/n7676/full/nature24270.html
|
|
|
|
|
实用资讯 | |
|
|
一周点击热帖 | 更多>> |
|
|
一周回复热帖 |
|
|
历史上的今天:回复热帖 |
2016: | TNF 狗熊 @ 绿湾 | |
2016: | 周老虎: 闲扯几句国内的车窗贴膜 | |
2015: | 有奖竟猜 | |
2015: | 有人看勇士对小船吗。。。 | |
2014: | MNF:德军 - 钢人 | |
2014: | xxlfm: 新警察报告:大马啃白菜 | |
2013: | 搭台:大白菜断裂回家,是驴子是马拉出 | |
2013: | NFL第7周,无惊奇Out,中下午看老冤家 | |
2012: | 没人上贴?我来凑一个段子 -- 都笑了 | |