不懂智能原理就不可能造出真正的人工智能系統。這就像不懂飛行原理就不可能做出真正的飛行系統。當然不懂飛行原理也可以紙疊個飛機飛個十幾米,但這與波音747相差上百萬倍。同樣,不懂智能原理也可以設計個目前世界上最最先進的深度神經網絡去認狗認貓,但其所需的帶標籤的樣本數量是人所需的上百萬倍,學習效率實在太低。該神經網絡更不可能通過觀測世界得出E=mc^2。
不了解智能原理就不可能真正理解人類與其它各種動物的各種智能,更不可能明白天才的科學家們是如何破解自然之謎創立科學理論的,如牛頓、麥克斯韋、愛因斯坦、波爾、狄拉克等是如何創立經典力學、經典電磁場理論、狹義與廣義相對論與量子力學。不懂智能原理,所有的人工智能研究的成功必定是有限的,也很難研製出像人的視覺一樣強大的計算機視覺系統,更難研製出具有理性思維能力的智能系統去幫助人類解決社會問題與破解自然之謎。其結果只能導致鍊金術式的人工智能研究,剩下的只能是瞎矇瞎撞,對於簡單智能問題還可以,但對於複雜智能問題,成功的機率則幾乎為零。
深度學習的局限
深度學習是最近人工智能在機器學習方面的突破。它大大改進了現有的學習算法,並且在模式識別、文字識別、語音識別、語言翻譯和計算機視覺等等許多方面實現了新的突破。 但是,深入學習僅限於學習輸入輸出映射函數。如果不能把一個智能問題轉化成有輸入和輸出地映射函數問題,那麼就不能用深度學習算法。另外,其泛化力雖然優於大多數其他計算機學習算法,但卻遠遠低於人類。前者需要數百萬個準確標記的樣本,而後者需要幾個或根本不需要。
深深度學習是一種純粹的黑匣子學習。其最終結果難以解釋,其失敗也難以解釋。它的推理力非常有限。它不能用於解決高層次的認知任務,如模仿科學家發現自然規律,模仿商人解決商業問題,或模仿經濟學家解決經濟問題。深入學習的突破是超大訓練樣本與基於GPU超強運算能力完成的,其本身沒有在機器學習理論上有突破。
目前有許許多多的機器學習方法,如深度學習,Bayesian網絡,Factor Graph, SVC, Naïve Bayes Model, Bayesian Networks, HMM、決策樹等等。更大的方向上有統計模式識別,結構模式識別與神經網絡。但是所有這些理論和方法都沒有回答機器學習最重要的問題,那就是泛化能力是從哪裡來的?如何提高機器學習的泛化能力?其根本是到目前為止大家從內涵上還不知道到底什麼是智能?各種智能能力的背後有沒有一個普遍的原理?
破解智能原理
本人自1984年就在清華大學從事模式識別與人工智能研究,並於1989年在世界上首次解決漢字識別難題,使計算機可以認識世界上最大的字符集,在當時只有512k內存及16M時鐘的PC機上完全達到實用化與市場化,為母校贏得的巨大的商業利益及多個國家級科技獎與世界級的名譽。又經過近三十年在人工智能理論與實踐上的不斷積累,從信息論及知識表達的角度出發,現發現智能原理如下:
所有的知識,不管是認知方面還是感知方面,都可以抽象成約束。任何智能系統都有一個從觀測空間到本徵空間的映射,其學習能力是由定義在本徵空間上的約束的局部熵的大小決定,局部熵越小學習效率越高。系統的預測誤差是由約束的綜合熵決定,綜合熵越小,預測誤差則越小。而本徵空間是使約束集的局部熵和綜合熵的同時達到最小的映射空間。
任何智能系統的要素是學習、分析與推理,其核心是知識表達。而知識表達的要素之一是從觀察空間到本徵空間的映射及本徵空間本身,而本徵空間在根本上不等同於傳統的特徵空間。設計任何智能系統的要素是發現高泛化能力與表達能力的知識表達。尋找最佳知識表達的能力才是真正的智能能力,而這個能力可以根據上面的智能原理來實現。這個智能原理可以用來解釋學習泛化能力是從哪裡來的,如何提高泛化能力,如何找到最佳知識表達。而實現該原理的各種核心技術才是最最關鍵的知識產權。它可以幫助我們解決各種感知與認知問題,譬如幫助我們設計高泛化能力的計算機視覺系統、解決各種商業與社會問題以及破解自然之謎。根據這個原理我們可以破解目前科學上最難的難題(pdf),即到底什麼是引力,如何統一廣義相對論與量子力學。這是愛因斯坦一生的最大夢想,一旦被驗證其意義不亞於科學上任何其它的理論與發現。