Info-五味齋-萬維論壇-萬維讀者網（電腦版）

送交者: mingcheng99 2021年12月16日23:42:22 於 [五味齋] 發送悄悄話

淺論如何在AI圍棋中引入數學物理原理。

AlphaGO是出名的AI圍棋程序，稱霸世界，所向無敵。也是AI應用的一個重要成果。從研究AlphaGO過程中得到一個想法是：如何在AI中應用數學物理原理。

我們先來看看AplphaGO 怎麼下棋。

根據DeepMind 在“自然”上的文章。AplphaGO應用了 Monte-Carlo tree search 和 the neural networks. Monte-Carlo tree基本是數據搜索，就是簡單的大數據應用。這個數據隨着下棋的數量不斷增加和優化。這些也可以看成是一種普適的和簡單的數學物理應用，但這兩者一般歸在IT領域，或AI領域。

AI最主要的特點就是學習和進化，而非具體的IT應用。

從邏輯上說，AlphaGO用的還是圍棋界的傳統邏輯，從下棋經驗中學習形勢判斷和生死定式。從大量對局中學習，從而總結最佳選擇。而實際上依靠的是計算機的計算能力和大數據優勢，AI實際上只是做了優化。讓AlphaGO立於不敗之地。關於這個我們以後還要詳細述說。簡單說來，在確定了一步新手之後，計算機很容易判斷這是不是好手，但可以選擇的點太多，不能一個一個地去試。實際上棋手在下棋的時候，他也自動地忽略了大多數點。

今天主要是想想談談一種新的思路，將數學物理原理引入AI。用以選擇可能的落點，這樣所選擇的範圍就大大減少。引入數學物理原理，也需要計算，但與棋手下棋憑感覺不同。所謂的棋感，這AlphaGO是不會有的。棋感, 棋手可以一看局面可以立即得到，而AlphaGO需要計算。

舉例說明，在AlphaGO對戰頂尖棋手柯潔時候，曾經下出一手五路尖壓。被譽為天外飛來之手。因為位置太高，一般棋手不會那麼下。但實際上五路尖和四路尖沒有優劣之分。這取決於以後的下法、只是所需要的計算多一點，所以棋手習慣上不這麼下而已。如同吳清源第三手落天元，其他棋手都不這樣下。吳清源當時這樣下，被視為對名人的不尊敬，同樣，計算機也不會有這樣的心理，除非你放hard code 進去: 見了很有名的對手要尊重，計算機是不管對手的。

但是，如果我們從數學的角度考慮，這樣下並非不可。如果我們根據一條簡單的數學原理，讓落子落在最占空間之處，但又與原來的落子有最大關聯。這是可以具體計算的，落在五路就比四路要好。落在天元最占空間，但離開其他落子甚遠。

那麼，我們如何選擇合適的數學物理原理呢？有一個簡單的辦法，就是把高手的對局復盤，從中找出一定的數學規律。比如我們上面所說的最大空間和最多關聯。是不是合理？可以驗證。

但文章沒有談到圍棋的具體邏輯如何與Monte-Carlo tree 和網絡結合，其實這才是最重要的。Monte-Carlo tree search 和都是具體的技術層面。任何AI程序都可以應用。

下面我們審視一下棋手下棋的過程和思考。AI程序其實就是模仿這個過程和思考。理解得越清楚，越不難模仿。

下棋，無非就是兩種思考，形勢判斷，和生死判斷，

形勢判斷，細節上，以前的舊式軟件都可以做的很好，雖然越開始越難，在中局以前比較不容易做判斷。但同時形勢好壞不是那麼確定。

生死判斷基本是定式，是計算機的強項。

下棋就是對對手的棋做出回應，根據對手的棋來決定，這也是AI需要下大量的棋的一個原因。

第一，生死判斷，有沒有影響到自己的棋的生死。有的話做出回應。需要擺棋

第二，沒有影響生死，對方在擴大勢力。對比對方原來的勢力和下了新手後的勢力，可以看出對方的勢力增加在那裡（這一點容易做到），找出應手，這一點就是AI需要做的。這也要對比自己原來的勢力和下了新手後的勢力。也要擺棋。

關鍵在於如何學習。復盤是學習的最好方法。復盤高手的棋。 AI如何從復盤中學習？

0%(0)

	實用資訊

回國機票$360起 | 商務艙省$200 | 全球最佳航空公司出爐：海航獲五星
海外華人福利！在線看陳建斌《三叉戟》熱血歸回豪情築夢 高清免費看無地區限制

一周點擊熱帖

更多>>

一周回復熱帖

歷史上的今天：回復熱帖

2020:	皮膚，大家對你的憤怒不是黑川，而是川
2020:	從電視劇《裝台》想起的一件事
2019:	十年了，上海出來遛遛？
2019:	那些住在海外天天罵美國的注意了
2018:	老中，老外，和放火的房東
2018:	孟晚舟我们已经输了
2017:	雪夜
2017:	天下丐幫聚京師
2016:	逸草：曾在某論壇被打假的趣事
2016:	日俄終止敵對狀態了。日美俄要聯手整習