不懂智能原理就不可能造出真正的人工智能系统。这就像不懂飞行原理就不可能做出真正的飞行系统。当然不懂飞行原理也可以纸叠个飞机飞个十几米,但这与波音747相差上百万倍。同样,不懂智能原理也可以设计个目前世界上最最先进的深度神经网络去认狗认猫,但其所需的带标签的样本数量是人所需的上百万倍,学习效率实在太低。该神经网络更不可能通过观测世界得出E=mc^2。
不了解智能原理就不可能真正理解人类与其它各种动物的各种智能,更不可能明白天才的科学家们是如何破解自然之谜创立科学理论的,如牛顿、麦克斯韦、爱因斯坦、波尔、狄拉克等是如何创立经典力学、经典电磁场理论、狭义与广义相对论与量子力学。不懂智能原理,所有的人工智能研究的成功必定是有限的,也很难研制出像人的视觉一样强大的计算机视觉系统,更难研制出具有理性思维能力的智能系统去帮助人类解决社会问题与破解自然之谜。其结果只能导致炼金术式的人工智能研究,剩下的只能是瞎蒙瞎撞,对于简单智能问题还可以,但对于复杂智能问题,成功的机率则几乎为零。
深度学习的局限
深度学习是最近人工智能在机器学习方面的突破。它大大改进了现有的学习算法,并且在模式识别、文字识别、语音识别、语言翻译和计算机视觉等等许多方面实现了新的突破。 但是,深入学习仅限于学习输入输出映射函数。如果不能把一个智能问题转化成有输入和输出地映射函数问题,那么就不能用深度学习算法。另外,其泛化力虽然优于大多数其他计算机学习算法,但却远远低于人类。前者需要数百万个准确标记的样本,而后者需要几个或根本不需要。
深深度学习是一种纯粹的黑匣子学习。其最终结果难以解释,其失败也难以解释。它的推理力非常有限。它不能用于解决高层次的认知任务,如模仿科学家发现自然规律,模仿商人解决商业问题,或模仿经济学家解决经济问题。深入学习的突破是超大训练样本与基于GPU超强运算能力完成的,其本身没有在机器学习理论上有突破。
目前有许许多多的机器学习方法,如深度学习,Bayesian网络,Factor Graph, SVC, Naïve Bayes Model, Bayesian Networks, HMM、决策树等等。更大的方向上有统计模式识别,结构模式识别与神经网络。但是所有这些理论和方法都没有回答机器学习最重要的问题,那就是泛化能力是从哪里来的?如何提高机器学习的泛化能力?其根本是到目前为止大家从内涵上还不知道到底什么是智能?各种智能能力的背后有没有一个普遍的原理?
破解智能原理
本人自1984年就在清华大学从事模式识别与人工智能研究,并于1989年在世界上首次解决汉字识别难题,使计算机可以认识世界上最大的字符集,在当时只有512k内存及16M时钟的PC机上完全达到实用化与市场化,为母校赢得的巨大的商业利益及多个国家级科技奖与世界级的名誉。又经过近三十年在人工智能理论与实践上的不断积累,从信息论及知识表达的角度出发,现发现智能原理如下:
所有的知识,不管是认知方面还是感知方面,都可以抽象成约束。任何智能系统都有一个从观测空间到本征空间的映射,其学习能力是由定义在本征空间上的约束的局部熵的大小决定,局部熵越小学习效率越高。系统的预测误差是由约束的综合熵决定,综合熵越小,预测误差则越小。而本征空间是使约束集的局部熵和综合熵的同时达到最小的映射空间。
任何智能系统的要素是学习、分析与推理,其核心是知识表达。而知识表达的要素之一是从观察空间到本征空间的映射及本征空间本身,而本征空间在根本上不等同于传统的特征空间。设计任何智能系统的要素是发现高泛化能力与表达能力的知识表达。寻找最佳知识表达的能力才是真正的智能能力,而这个能力可以根据上面的智能原理来实现。这个智能原理可以用来解释学习泛化能力是从哪里来的,如何提高泛化能力,如何找到最佳知识表达。而实现该原理的各种核心技术才是最最关键的知识产权。它可以帮助我们解决各种感知与认知问题,譬如帮助我们设计高泛化能力的计算机视觉系统、解决各种商业与社会问题以及破解自然之谜。根据这个原理我们可以破解目前科学上最难的难题(pdf),即到底什么是引力,如何统一广义相对论与量子力学。这是爱因斯坦一生的最大梦想,一旦被验证其意义不亚于科学上任何其它的理论与发现。