设万维读者为首页 广告服务 技术服务 联系我们 关于万维
简体 繁体 手机版
分类广告
版主:阿飞的剑
万维读者网 > 茗香茶语 > 帖子
自学成才的典范 (转帖)
送交者: zhf 2019年01月22日08:01:38 于 [茗香茶语] 发送悄悄话

自学成才的典范


AlphaGo深度学习机器经过学习几千盘围棋高手的比赛,击败了人类顶尖高手李世石,柯洁。此后,谷歌又推出新版AlphaGo ZeroAlphaGo Zero的初始状态没有任何围棋知识,只懂围棋规则,会判断胜负。从随机选择下一步棋开始,自己和自己下棋。其水平之低是可以想象的。任何有一点围棋知识的人都会赢刚刚起步的AlphaGo Zero


AlphaGo Zero把自己与自己对局的赢局的每一步棋,送进强化学习神经网络去拟合。不像AlphaGo Zero以前的版本,要对棋形做特征分解,AlphaGo Zero直接把棋形的黑白子坐标当作强化学习神经网络的输入。拟合后,得到权重W0。然后,AlphaGo ZeroW0模型自己与自己对局。W0模型,是随机模型的赢局产生,水平比随机模型略高。AlphaGo Zero再把W0模型自己与自己对局的赢局送进强化学习神经网络去拟合。拟合后,得到权重W1W1模型,是W0模型的赢局产生,水平比W0模型略高。然后,AlphaGo ZeroW1模型自己与自己对局。


这样的过程可以无限进行下去。按照模型的水平,或接近理想模型的程度,W0W1W2...Wn单调递增。经过40天的自我学习,AlphaGo Zero击败了所有AlphaGo的前身,击败了所有世界顶尖高手。AlphaGo Zero在自学过程中,学到了人类棋手总结的某些定式,淘汰了人类棋手的某些定式,发现了一些新定式。AlphaGo Zero 40天的自我学习超过了人类棋手4000年来积累的围棋知识。


AlphaGo Zero自我学习的结果也肯定了人类对围棋的主要认知,例如金角,银角,草皮肚。AlphaGo Zero的价值观也是遵循先角,后边,再中腹的顺序。还有很多人类高手总结的定式和招法。可谓殊途同归。


AlphaGo ZeroZero的意思就是从零学起,自己跟自己从零学起。


AlphaGo Zero成长的过程也是规则选择优胜,一代一代进化的过程。可以说是物竞天择。其实人类就是这么进化的。只不过AlphaGo Zero40天模拟了人类4000年的进化过程(仅指围棋方面)


0%(0)
0%(0)
标 题 (必选项):
内 容 (选填项):
实用资讯
回国机票$360起 | 商务舱省$200 | 全球最佳航空公司出炉:海航获五星
海外华人福利!在线看陈建斌《三叉戟》热血归回 豪情筑梦 高清免费看 无地区限制
一周点击热帖 更多>>
一周回复热帖
历史上的今天:回复热帖
2018: 给你们看外星人无证行医,哈哈。看完了
2018: 常文侠/常文霞:网上很多有关她的信息
2017: 来看看咱们总统怎么hire america
2017: 直言:下午的点心
2016: 陆小民:北朝鲜弃核的关键在美国,不在
2016: 大射固然8正经,但其危害小于卖假药贴
2015: suibian2009:喜欢白菜
2015: 说明一哈,小巫并非穆斯林,是开玩笑的
2014: 各位怎么看中国高官及家属在海外的财产
2014: 让铁打的江山万年红