自学成才的典范（转帖）-茗香茶语-万维论坛-万维读者网（电脑版）

送交者: zhf 2019年01月22日08:01:38 于 [茗香茶语] 发送悄悄话

自学成才的典范

AlphaGo深度学习机器经过学习几千盘围棋高手的比赛，击败了人类顶尖高手李世石，柯洁。此后，谷歌又推出新版AlphaGo Zero。AlphaGo Zero的初始状态没有任何围棋知识，只懂围棋规则，会判断胜负。从随机选择下一步棋开始，自己和自己下棋。其水平之低是可以想象的。任何有一点围棋知识的人都会赢刚刚起步的AlphaGo Zero。

AlphaGo Zero把自己与自己对局的赢局的每一步棋，送进强化学习神经网络去拟合。不像AlphaGo Zero以前的版本，要对棋形做特征分解，AlphaGo Zero直接把棋形的黑白子坐标当作强化学习神经网络的输入。拟合后，得到权重W0。然后，AlphaGo Zero用W0模型自己与自己对局。W0模型，是随机模型的赢局产生，水平比随机模型略高。AlphaGo Zero再把W0模型自己与自己对局的赢局送进强化学习神经网络去拟合。拟合后，得到权重W1。W1模型，是W0模型的赢局产生，水平比W0模型略高。然后，AlphaGo Zero用W1模型自己与自己对局。

这样的过程可以无限进行下去。按照模型的水平，或接近理想模型的程度，W0，W1，W2，...，Wn单调递增。经过40天的自我学习，AlphaGo Zero击败了所有AlphaGo的前身，击败了所有世界顶尖高手。AlphaGo Zero在自学过程中，学到了人类棋手总结的某些定式，淘汰了人类棋手的某些定式，发现了一些新定式。AlphaGo Zero 40天的自我学习超过了人类棋手4000年来积累的围棋知识。

AlphaGo Zero自我学习的结果也肯定了人类对围棋的主要认知，例如金角，银角，草皮肚。AlphaGo Zero的价值观也是遵循先角，后边，再中腹的顺序。还有很多人类高手总结的定式和招法。可谓殊途同归。

AlphaGo Zero中Zero的意思就是从零学起，自己跟自己从零学起。

AlphaGo Zero成长的过程也是规则选择优胜，一代一代进化的过程。可以说是物竞天择。其实人类就是这么进化的。只不过AlphaGo Zero用40天模拟了人类4000年的进化过程（仅指围棋方面）

0%(0)

	实用资讯

回国机票$360起 | 商务舱省$200 | 全球最佳航空公司出炉：海航获五星
海外华人福利！在线看陈建斌《三叉戟》热血归回豪情筑梦 高清免费看无地区限制

一周点击热帖

更多>>

一周回复热帖

历史上的今天：回复热帖

2018:	给你们看外星人无证行医，哈哈。看完了
2018:	常文侠/常文霞：网上很多有关她的信息
2017:	来看看咱们总统怎么hire america
2017:	直言：下午的点心
2016:	陆小民：北朝鲜弃核的关键在美国，不在
2016:	大射固然8正经，但其危害小于卖假药贴
2015:	suibian2009：喜欢白菜
2015:	说明一哈，小巫并非穆斯林，是开玩笑的
2014:	各位怎么看中国高官及家属在海外的财产
2014:	让铁打的江山万年红