设万维读者为首页 广告服务 技术服务 联系我们 关于万维
首   页 新   闻 论   坛 文   墨 博   客 黄   页 分类广告 购   物
版主:弯刀
登 录 论 坛
用 户 桌 面
 
[ads_url_inside]
 
State Farm Drama
万维读者网>竞技沙龙>帖子
断裂:阿尔法狗纯自学版问世,又上《Nature》
送交者: Mayi 2017年10月20日16:05:14 于 [竞技沙龙] 发送悄悄话

与之前的所有版本不同在于阿尔法狗纯自学版(AlphaGo Zero)没有输入任何人类围棋知识和规则,完全从0开始(starting tabula rasa)。虽然这个概念去年deepmid团队就透露过,但一直进展不顺利,很多业内人士则认为根本不可能的事情。

现在的版本不仅在硬件上大为减化,从小李版(AlphaGo Lee)的48个TPU到现在的4个TPU,而且现在的版本把策略(police)网络和价值(value)网络作了合并,用强化学习为主要工具。其主要的进步来自该团队算法上的进步,如第一作者Silver所说:之前人们认为机器学习就是海量计算和大数据,但从阿尔法狗纯自学版(AlphaGo Zero)的情况看,我们认为算法比所谓计算和数据更重要。

阿尔法狗纯自学版(AlphaGo Zero)的结果简述如下:



图a用小李版(AlphaGo Lee)和柯洁版(AlphaGo Master)作对照来监督纯自学版(AlphaGo Zero)的学习进程即实战水平。如图所示,阿尔法狗纯自学版(AlphaGo Zero)只用了3天就达到了小李版(AlphaGo Lee)的水平,5天后就超过了小李版(AlphaGo Lee),30天就达到了柯洁版(AlphaGo Master)的水平,40天后已甩开了柯洁版(AlphaGo Master)自学版(AlphaGo Zero)目前对小李版(AlphaGo Lee)的战绩是100-0。于是当今地球第一高手非阿尔法狗纯自学版莫属。

图b是各狗的ELO的相对分比较。注:人类最高分柯洁的ELO是3600分多一点。

下面的图非常有意思,因为它们清楚而直观地显示了纯自学版(AlphaGo Zero)的学习过程和定式建立过程:


1-1point:一开始纯自学版(AlphaGo Zero)就象不会下棋的小孩一样瞎几巴整,黑棋下到右角,而白棋应对在八丈开外。但这个瞎几巴整在20小时左右就被无情抛弃了。

Outside attachment:在20小时左右开始发展出角部应对策略,如对星位的外碰。然而这显然是个吃亏的着法,不到2天就被弃之。

Knight‘s move approach:30多小时后已发展出对星位的小飞挂,尖顶,立,拆一的现代定式。但白6的远点很少见。这个应对在3天后被弃之。

One-space jump:2天后走出对小目的一间低挂尖顶定式。

3-3 invasion:1天后找到了白点黑星位3-3的定式。但这个定式在2天之后用得越来越少了。

3-3 point knight's move:上面定式用得越来越少是因为发现了这个定式更好用。同样是白点黑星位3-3的定式,但黑5不走上图的扳而走小飞。这个变化是今天职业最流行的走法之一。


5-3 point press:1天后找到了目外定式标准定式

Small avalanche:20小时开发出雪崩定式

Attach and draw back:1天后正确走出小目一间高挂标准定式

Knight's move pincer:1天后正确走出小飞挂星位低位小飞进角标准定式

Pincer 3-3 point:40小时左右找到小飞挂星位点角标准定式

http://www.nature.com/nature/journal/v550/n7676/full/nature24270.html





  应该有很多细节,我们不清楚  /无内容 - rednose 10/20/17 (176)
    细节在原文中啊 - Mayi 10/20/17 (265)
      有技术上的细节吗?  /无内容 - rednose 10/21/17 (176)
        不知道为什么这是个问题 - Mayi 10/21/17 (240)
标  题 (必选项):
内  容 (选填项):
    
北美最全的折扣机票网站
贝佳药业美国专利【骨精华】消关节痛、骨刺、五十肩【心血通】改善心绞痛
特 别 推 荐
 - 北美最全折扣机票网站
 - 眼睛是心灵的窗户 护
 - 年轻的秘密 口服II型
 - 来力士胶囊男性生命
 - 在家做烙饼还无油烟?
 - 送礼送海参 空运原汁