【設計決定了演化，而不是時間和隨機】-競技沙龍-萬維論壇-萬維讀者網（電腦版）

送交者: 職老 2017年10月21日05:46:33 於 [競技沙龍] 發送悄悄話

大道至簡的算法

　　在評價Zero的算法時，創新工場AI工程院副院長王詠剛用了“大道至簡”四個字。

　　簡單，是不少人工智能“圈內人”讀完論文後對Zero的評價。剛剛宣布將要跳槽伯克利的前微軟亞洲研究院首席研究員馬毅教授就發微博評論說，這篇論文“沒有提出任何新的方法和模型”，但是徹底地實現了一個簡單有效的想法。

　　為什麼“簡單”這件事如此被學術圈津津樂道？孫劍的解釋是“我們做研究追求極簡，去除複雜”，而Zero的算法基本就是在前代基礎上從各方面去簡化。

　　他說，這種簡化，一方面體現在把原來的策略網絡和價值網絡合併成一個網絡，簡化了搜索過程；另一方面體現在用深度殘差網絡（ResNet）來對輸入進行簡化，以前需要人工設計棋盤的輸入，體現“這個子下過幾次、周圍有幾個黑子幾個白子”這樣的信息，而現在是“把黑白子二值的圖直接送進來，相當於可以理解成對着棋盤拍照片，把照片送給神經網絡，讓神經網絡看着棋盤照片做決策”。

　　孫劍認為，擬合搜索和ResNet，正是Zero算法中的兩個核心技術。

　　其中擬合搜索所解決的問題，主要是定製化，它可以對棋盤上的每一次落子都進行量化，比如會對最終獲勝幾率做多大貢獻，但是這其實並不是近期才產生的一種理論，而是在很早之前就存在的一種基礎算法理論。

　　而另一核心技術是最深可達80層的ResNet。總的來說，神經網絡越深，函數映射能力就越強、越有效率，越有可能有效預測一個複雜的映射。

　　下圍棋時要用到的，就是一個非常複雜的映射，神經網絡需要輸出每個可能位置落子時贏的概率，也就是最高要輸出一個361維的向量。這是一個非常複雜的輸出，需要很深的網絡來解決。

　　人類棋手下棋，落子很多時候靠直覺，而這背後實際上有一個非常複雜的函數，Zero就用深層ResNet，擬合出了這樣的函數。

　　ResNet特點就是利用殘差學習，讓非常深的網絡可以很好地學習，2015年，孫劍帶領的團隊就用ResNet把深度神經網絡的層數從十幾二十層，推到了152層。

　　也正是憑藉這樣的創新，孫劍團隊拿下了ImageNet和MSCOCO圖像識別大賽各項目的冠軍。到2016年，他們又推出了第一個上千層的網絡，獲得了CVPR最佳論文獎。

　　而令孫劍更加意料之外的是，ResNet還被AlphaGo團隊看中，成為AlphaGo Zero算法中的核心組件之一。

　　這位Face++首席科學家表示很開心為推動整個AI進步“做了一點微小的貢獻”，同時也很欽佩DeepMind團隊追求極致的精神。

　　任劍還說，在曠視研究院的工作中，還會不斷分享、開放研究成果，更注重技術在產業中的實用性，進一步推動整個AI產業的進步。

　　另外，還有不少AI大咖和知名科研、棋手對AlphaGo Zero發表了評價，量子位匯集如下：

　　大咖評說AlphaGo Zero

　　李開復：AI進化超人類想象，但與“奇點”無關

　　昨天AlphaGo Zero橫空出世，碾壓圍棋界。AlphaGo Zero完全不用人類過去的棋譜和知識，就再次打破人類認知。很多媒體問我對AlphaGo Zero的看法，我的觀點是：一是AI前進的速度比想象中更快，即便是行業內的人士都被AlphaGo Zero跌破眼鏡；二是要正視中國在人工智能學術方面和英美的差距。

　　一方面，AlphaGo Zero的自主學習帶來的技術革新並非適用於所有人工智能領域。圍棋是一種對弈遊戲，是信息透明，有明確結構，而且可用規則窮舉的。對弈之外，AlphaGo Zero的技術可能在其他領域應用，比如新材料開發，新藥的化學結構探索等，但這也需要時間驗證。而且語音識別、圖像識別、自然語音理解、無人駕駛等領域，數據是無法窮舉，也很難完全無中生有。AlphaGo Zero的技術可以降低數據需求（比如說WayMo的數據模擬），但是依然需要大量的數據。

　　另一方面，AlphaGo Zero裡面並沒有新的巨大的理論突破。它使用的Tabula Rosa learning（白板學習，不用人類知識），是以前的圍棋系統Crazy Stone最先使用的。AlphaGo Zero裡面最核心使用的技術ResNet，是微軟亞洲研究院的孫劍發明的。孫劍現任曠視科技Face++首席科學家。

　　雖然如此，這篇論文的影響力也是巨大的。AlphaGo Zero 能夠完美集成這些技術，本身就具有里程碑意義。DeepMind的這一成果具有指向標意義，證明這個方向的可行性。在科研工程領域，探索前所未知的方向是困難重重的，一旦有了可行性證明，跟隨者的風險就會巨幅下降。我相信從昨天開始，所有做圍棋對弈的研究人員都在開始學習或複製AlphaGo Zero。材料、醫療領域的很多研究員也開始探索。

　　AlphaGo Zero的工程和算法確實非常厲害。但千萬不要對此產生誤解，認為人工智能是萬能的，所有人工智能都可以無需人類經驗從零學習，得出人工智能威脅論。AlphaGo Zero證明了AI 在快速發展，也驗證了英美的科研能力，讓我們看到在有些領域可以不用人類知識、人類數據、人類引導就做出頂級的突破。但是，AlphaGo Zero只能在單一簡單領域應用，更不具有自主思考、設定目標、創意、自我意識。即便聰明如AlphaGo Zero，也是在人類給下目標，做好數字優化而已。這項結果並沒有推進所謂“奇點”理論。

　　南大周志華：與“無監督學習”無關

　　花半小時看了下文章，說點個人淺見，未必正確僅供批評：

　　別幻想什麼無監督學習，監督信息來自精準規則，非常強的監督信息。

　　不再把圍棋當作從數據中學習的問題，回歸到啟發式搜索這個傳統棋類解決思路。這裡機器學習實質在解決搜索樹啟發式評分函數問題。

　　如果說深度學習能在模式識別應用中取代人工設計特徵，那麼這裡顯示出強化學習能在啟發式搜索中取代人工設計評分函數。這個意義重大。啟發式搜索這個人工智能傳統領域可能因此巨變，或許不亞於模式識別計算機視覺領域因深度學習而產生的巨變。機器學習進一步蠶食其他人工智能技術領域。

　　類似想法以往有，但常見於小規模問題。沒想到圍棋這種狀態空間巨大的問題其假設空間竟有強烈的結構，存在統一適用於任意多子局面的評價函數。巨大的狀態空間誘使我們自然放棄此等假設，所以這個嘗試相當大膽。

　　工程實現能力超級強，別人即便跳出盲點，以啟發式搜索界的工程能力也多半做不出來。

　　目前並非普適，只適用於狀態空間探索幾乎零成本且探索過程不影響假設空間的任務。

　　Facebook田淵棟：AI窮盡圍棋還早

　　老實說這篇Nature要比上一篇好很多，方法非常乾淨標準，結果非常好，以後肯定是經典文章了。

　　Policy network和value network放在一起共享參數不是什麼新鮮事了，基本上現在的強化學習算法都這樣做了，包括我們這邊拿了去年第一名的Doom Bot，還有ELF裡面為了訓練微縮版星際而使用的網絡設計。另外我記得之前他們已經反覆提到用Value network對局面進行估值會更加穩定，所以最後用完全不用人工設計的defaultpolicy rollout也在情理之中。

　　讓我非常吃驚的是僅僅用了四百九十萬的自我對局，每步僅用1600的MCTS rollout，Zero就超過了去年三月份的水平。並且這些自我對局裡有很大一部分是完全瞎走的。這個數字相當有意思。想一想圍棋所有合法狀態的數量級是10^170（見Counting Legal Positions in Go），五百萬局棋所能覆蓋的狀態數目也就是10^9這個數量級，這兩個數之間的比例比宇宙中所有原子的總數還要多得多。僅僅用這些樣本就能學得非常好，只能說明卷積神經網絡（CNN）的結構非常順應圍棋的走法，說句形象的話，這就相當於看了大英百科全書的第一個字母就能猜出其所有的內容。用ML的語言來說，CNN的inductivebias（模型的適用範圍）極其適合圍棋漂亮精緻的規則，所以稍微給點樣本水平就上去了。反觀人類棋譜有很多不自然的地方，CNN學得反而不快了。我們經常看見跑KGS或者GoGoD的時候，最後一兩個百分點費老大的勁，也許最後那點時間完全是花費在過擬合奇怪的招法上。

　　如果這個推理是對的話，那麼就有幾點推斷。一是對這個結果不能過分樂觀。我們假設換一個問題（比如說protein folding），神經網絡不能很好擬合它而只能採用死記硬背的方法，那泛化能力就很弱，Self-play就不會有效果。事實上這也正是以前圍棋即使用Self-play都沒有太大進展的原因，大家用手調特徵加上線性分類器，模型不對路，就學不到太好的東西。一句話，重點不在左右互搏，重點在模型對路。

　　二是或許卷積神經網絡（CNN）系列算法在圍棋上的成功，不是因為它達到了圍棋之神的水平，而是因為人類棋手也是用CNN的方式去學棋去下棋，於是在同樣的道路上，或者說同樣的inductive bias下，計算機跑得比人類全體都快得多。假設有某種外星生物用RNN的方式學棋，換一種inductive bias，那它可能找到另一種（可能更強的）下棋方式。Zero用CNN及ResNet的框架在自學習過程中和人類世界中圍棋的演化有大量的相似點，在側面上印證了這個思路。在這點上來說，說窮盡了圍棋肯定是還早。

　　三就是更證明了在理論上理解深度學習算法的重要性。對於人類直覺能觸及到的問題，機器通過採用有相同或者相似的inductive bias結構的模型，可以去解決。但是人不知道它是如何做到的，所以除了反覆嘗試之外，人並不知道如何針對新問題的關鍵特性去改進它。如果能在理論上定量地理解深度學習在不同的數據分布上如何工作，那麼我相信到那時我們回頭看來，針對什麼問題，什麼數據，用什麼結構的模型會是很容易的事情。我堅信數據的結構是解開深度學習神奇效果的鑰匙。

　　另外推測一下為什麼要用MCTS而不用強化學習的其它方法（我不是DM的人，所以肯定只能推測了）。MCTS其實是在線規劃（online planning）的一種，從當前局面出發，以非參數方式估計局部Q函數，然後用局部Q函數估計去決定下一次rollout要怎麼走。既然是規劃，MCTS的限制就是得要知道環境的全部信息，及有完美的前向模型（forward model），這樣才能知道走完一步後是什麼狀態。圍棋因為規則固定，狀態清晰，有完美快速的前向模型，所以MCTS是個好的選擇。但要是用在Atari上的話，就得要在訓練算法中內置一個Atari模擬器，或者去學習一個前向模型（forward model），相比actor-critic或者policy gradient可以用當前狀態路徑就地取材，要麻煩得多。但如果能放進去那一定是好的，像Atari這樣的遊戲，要是大家用MCTS我覺得可能不用學policy直接當場planning就會有很好的效果。很多文章都沒比，因為比了就不好玩了。

　　另外，這篇文章看起來實現的難度和所需要的計算資源都比上一篇少很多，我相信過不了多久就會有人重複出來，到時候應該會有更多的insight。大家期待一下吧。

　　清華大學馬少平教授：不能認為AI數據問題解決了

　　從早上開始，就被AlphaGo Zero的消息刷屏了，DeepMind公司最新的論文顯示，最新版本的AlphaGo，完全拋棄了人類棋譜，實現了從零開始學習。

　　對於棋類問題來說，在蒙特卡洛樹搜索的框架下，實現從零開始學習，我一直認為是可行的，也多次與別人討論這個問題，當今年初Master推出時，就曾預測這個新系統可能實現了從零開始學習，可惜根據DeepMind後來透露的消息，Master並沒有完全拋棄人類棋譜，而是在以前系統的基礎上，通過強化學習提高系統的水平，雖然人類棋譜的作用越來越弱，但是啟動還是學習了人類棋譜，並沒有實現“冷”啟動。

　　根據DeepMind透露的消息，AlphaGo Zero不但拋棄了人類棋譜，實現了從零開始學習，連以前使用的人類設計的特徵也拋棄了，直接用棋盤上的黑白棋作為輸入，可以說是把人類拋棄的徹徹底底，除了圍棋規則外，不使用人類的任何數據和知識了。僅通過3天訓練，就可以戰勝和李世石下棋時的AlphaGo，而經過40天的訓練後，則可以打敗與柯潔下棋時的AlphaGo了。

　　真是佩服DeepMind的這種“把革命進行到底”的作風，可以說是把計算機圍棋做到了極致。

　　那麼AlphaGo Zero與AlphaGo（用AlphaGo表示以前的版本）都有哪些主要的差別呢？

　　1。在訓練中不再依靠人類棋譜。AlphaGo在訓練中，先用人類棋譜進行訓練，然後再通過自我互博的方法自我提高。而AlphaGo Zero直接就採用自我互博的方式進行學習，在蒙特卡洛樹搜索的框架下，一點點提高自己的水平。

　　2。不再使用人工設計的特徵作為輸入。在AlphaGo中，輸入的是經過人工設計的特徵，每個落子位置，根據該點及其周圍的棋的類型（黑棋、白棋、空白等）組成不同的輸入模式。而AlphaGo Zero則直接把棋盤上的黑白棋作為輸入。這一點得益於後邊介紹的神經網絡結構的變化，使得神經網絡層數更深，提取特徵的能力更強。

　　3。將策略網絡和價值網絡合二為一。在AlphaGo中，使用的策略網絡和價值網絡是分開訓練的，但是兩個網絡的大部分結構是一樣的，只是輸出不同。在AlphaGo Zero中將這兩個網絡合併為一個，從輸入到中間幾層是共用的，只是後邊幾層到輸出層是分開的。並在損失函數中同時考慮了策略和價值兩個部分。這樣訓練起來應該會更快吧？

　　4。網絡結構採用殘差網絡，網絡深度更深。AlphaGo Zero在特徵提取層採用了多個殘差模塊，每個模塊包含2個卷積層，比之前用了12個卷積層的AlphaGo深度明顯增加，從而可以實現更好的特徵提取。

　　5。不再使用隨機模擬。在AlphaGo中，在蒙特卡洛樹搜索的過程中，要採用隨機模擬的方法計算棋局的勝率，而在AlphaGo Zero中不再使用隨機模擬的方法，完全依靠神經網絡的結果代替隨機模擬。這應該完全得益於價值網絡估值的準確性，也有效加快了搜索速度。

　　6。只用了4塊TPU訓練72小時就可以戰勝與李世石交手的AlphaGo。訓練40天后可以戰勝與柯潔交手的AlphaGo。

　　對於計算機圍棋來說，以上改進無疑是個重要的突破，但也要正確認識這些突破。比如，之所以可以實現從零開始學習，是因為棋類問題的特點所決定的，是個水到渠成的結果。因為棋類問題一個重要的特性就是可以讓機器自動判別最終結果的勝負，這樣才可以不用人類數據，自己實現產生數據，自我訓練，自我提高下棋水平。但是這種方式很難推廣到其他領域，不能認為人工智能的數據問題就解決了。

　　Rokid祝銘明：數據學習到評分方法學習的切換

　　Alpha Zero的文章有多少人認真看過，就在傳無監督學習，這次有意思的是方法其實有點回歸傳統規則指導的思考模式。如果這個算是無監督學習，那幾十年前就有了。只是這次是超大空間下的基於規則的決策樹裁決評分，文章最有價值的是把之前數據學習變成了評分方法學習，這個其實有點意思，對於規則清晰問題可以大大減少數據依賴。

　　簡單說這個就是如何通過學習，避免對超大規模搜索樹的遍歷，同時保證決策打分的合理性。其實有點白盒子的味道。這方法的確在很多規則簡單清晰，但空間規模大的問題上有啟發意義，而且從理論上來說肯定比之前的基於數據學習的要優秀很多，因為過去的方法仍然對經驗數據依賴。不過和大家說的無監督學習是兩碼事。這麼說大家都能理解了吧。

　　即將加入加州伯克利的馬毅教授

　　熬夜讀完AlphaGo zero的Nature論文，深有感觸：我們一生與多少簡單而又有效的想法失之交臂，是因為我們或者過早認為這些想法不值得去做或者沒有能力或毅力正確而徹底地實現它們？這篇論文可以說沒有提出任何新的方法和模型——方法可以說比以前的更簡單“粗暴”。但是認真正確徹底的驗證了這個看似簡單的想法到底work不work。在做研究上，這往往才是拉開人與人之間差距的關鍵。

　　柯潔九段

　　一個純淨、純粹自我學習的AlphaGo是最強的…對於AlphaGo的自我進步來講…人類太多餘了。

　　還有一些零散討論：

　　微軟全球資深副總裁、美國計算機協會（ACM）院士Peter Lee認為這是一個激動人心的成果，如果應用到其他領域會有很多前景。其中的理論與康奈爾大學計算機系教授、1986年圖靈獎獲得者John Hopcroft之前下國際象棋的工作相似，而且Deepmind之前做的德州撲克比圍棋搜索空間更大、更難。不過受限規則下的圍棋跟現實世界的應用場景有天壤之別，現在的自動駕駛、商業決策比遊戲複雜很多。

　　John Hopcroft提到了他常說的監督學習和非監督學習，因為給大量數據標標籤是一件非常難的事情。他還說，現在AI還在工程階段，我們先是把飛機飛向天，此後才理解了空氣動力學。AI現在能告訴你是誰，未來能告訴你在想什麼，再之後會有理論解釋為什麼這能工作。

　　美國人工智能學會（AAAI）院士Lise Getoor認為，在監督學習和非監督學習之上還有結構化學習，如何讓機器發現可能是遞歸的ontological commitment。我們現在的深度學習模型可能存在structure bias。

　　楊強教授沒有說話，不過AlphaGo Zero論文剛一發布，他擔任理事會主席的國際人工智能大會（IJCAI）就為這支團隊頒發了第一枚馬文·明斯基獎章，可謂最高讚許。

0%(0)

	實用資訊

回國機票$360起 | 商務艙省$200 | 全球最佳航空公司出爐：海航獲五星
海外華人福利！在線看陳建斌《三叉戟》熱血歸回豪情築夢 高清免費看無地區限制

一周點擊熱帖

更多>>

一周回復熱帖

歷史上的今天：回復熱帖

2016:	資料貼：2016NBA球員簽約交易匯總
2016:	回馬科長：中國足球為啥退步了
2015:	折騰一下: 菜市場第7周，首富發威
2014:	星光: Ebola病毒（2）：美國的醫療系統
2014:	李宗偉，嗑藥了。
2013:	紅山狼: 2013 FNFL 第七周
2012:	NFL第7周，基本無臨時Out，原來掛牌
2012:	FNFL看點：光美自恃容易出軌，頻頻挑逗