自学成才的典范
AlphaGo深度学习机器经过学习几千盘围棋高手的比赛,击败了人类顶尖高手李世石,柯洁。此后,谷歌又推出新版AlphaGo Zero。AlphaGo Zero的初始状态没有任何围棋知识,只懂围棋规则,会判断胜负。从随机选择下一步棋开始,自己和自己下棋。其水平之低是可以想象的。任何有一点围棋知识的人都会赢刚刚起步的AlphaGo Zero。
AlphaGo Zero把自己与自己对局的赢局的每一步棋,送进强化学习神经网络去拟合。不像AlphaGo Zero以前的版本,要对棋形做特征分解,AlphaGo Zero直接把棋形的黑白子坐标当作强化学习神经网络的输入。拟合后,得到权重W0。然后,AlphaGo Zero用W0模型自己与自己对局。W0模型,是随机模型的赢局产生,水平比随机模型略高。AlphaGo Zero再把W0模型自己与自己对局的赢局送进强化学习神经网络去拟合。拟合后,得到权重W1。W1模型,是W0模型的赢局产生,水平比W0模型略高。然后,AlphaGo Zero用W1模型自己与自己对局。
这样的过程可以无限进行下去。按照模型的水平,或接近理想模型的程度,W0,W1,W2,...,Wn单调递增。经过40天的自我学习,AlphaGo Zero击败了所有AlphaGo的前身,击败了所有世界顶尖高手。AlphaGo Zero在自学过程中,学到了人类棋手总结的某些定式,淘汰了人类棋手的某些定式,发现了一些新定式。AlphaGo Zero 40天的自我学习超过了人类棋手4000年来积累的围棋知识。
AlphaGo Zero自我学习的结果也肯定了人类对围棋的主要认知,例如金角,银角,草皮肚。AlphaGo Zero的价值观也是遵循先角,后边,再中腹的顺序。还有很多人类高手总结的定式和招法。可谓殊途同归。
AlphaGo Zero中Zero的意思就是从零学起,自己跟自己从零学起。
AlphaGo Zero成长的过程也是规则选择优胜,一代一代进化的过程。可以说是物竞天择。其实人类就是这么进化的。只不过AlphaGo Zero用40天模拟了人类4000年的进化过程(仅指围棋方面)