設萬維讀者為首頁 廣告服務 聯繫我們 關於萬維
簡體 繁體 手機版
分類廣告
版主:紅樹林
萬維讀者網 > 五 味 齋 > 帖子
Info
送交者: mingcheng99 2021年12月16日23:42:22 於 [五 味 齋] 發送悄悄話

淺論如何在AI圍棋中引入數學物理原理。

AlphaGO是出名的AI圍棋程序,稱霸世界,所向無敵。 也是AI應用的一個重要成果。從研究AlphaGO過程中得到一個想法是:如何在AI中應用數學物理原理。

我們先來看看AplphaGO 怎麼下棋。

根據DeepMind 在“自然”上的文章。AplphaGO應用了 Monte-Carlo tree search 和 the neural networks. Monte-Carlo tree基本是數據搜索,就是簡單的大數據應用。 這個數據隨着下棋的數量不斷增加和優化。 這些也可以看成是一種普適的和簡單的數學物理應用,但這兩者一般歸在IT領域,或AI領域。

AI最主要的特點就是學習和進化,而非具體的IT應用。 

從邏輯上說,AlphaGO用的還是圍棋界的傳統邏輯,從下棋經驗中學習形勢判斷和生死定式。從大量對局中學習,從而總結最佳選擇。而實際上依靠的是計算機的計算能力和大數據優勢,AI實際上只是做了優化。讓AlphaGO立於不敗之地。 關於這個我們以後還要詳細述說。簡單說來,在確定了一步新手之後,計算機很容易判斷這是不是好手,但可以選擇的點太多,不能一個一個地去試。實際上棋手在下棋的時候,他也自動地忽略了大多數點。  

今天主要是想想談談一種新的思路,將數學物理原理引入AI。 用以選擇可能的落點,這樣所選擇的範圍就大大減少。 引入數學物理原理,也需要計算,但與棋手下棋憑感覺不同。所謂的棋感,這AlphaGO是不會有的。棋感, 棋手可以一看局面可以立即得到,而AlphaGO需要計算。   

舉例說明,在AlphaGO對戰頂尖棋手柯潔時候,曾經下出一手五路尖壓。 被譽為天外飛來之手。 因為位置太高, 一般棋手不會那麼下。但實際上五路尖和四路尖沒有優劣之分。這取決於以後的下法、只是所需要的計算多一點,所以棋手習慣上不這麼下而已。 如同吳清源第三手落天元,其他棋手都不這樣下。 吳清源當時這樣下, 被視為對名人的不尊敬, 同樣,計算機也不會有這樣的心理,除非你放hard code 進去: 見了很有名的對手要尊重,計算機是不管對手的。 

但是,如果我們從數學的角度考慮,這樣下並非不可。 如果我們根據一條簡單的數學原理,讓落子落在最占空間之處,但又與原來的落子有最大關聯。這是可以具體計算的,落在五路就比四路要好。落在天元最占空間,但離開其他落子甚遠。   

那麼,我們如何選擇合適的數學物理原理呢? 有一個簡單的辦法,就是把高手的對局復盤,從中找出一定的數學規律。比如我們上面所說的最大空間和最多關聯。是不是合理? 可以驗證。 



但文章沒有談到圍棋的具體邏輯如何與Monte-Carlo tree 和網絡結合,其實這才是最重要的。Monte-Carlo tree search 和都是具體的技術層面。任何AI程序都可以應用。  


下面我們審視一下棋手下棋的過程和思考。AI程序其實就是模仿這個過程和思考。 理解得越清楚,越不難模仿。


下棋,無非就是兩種思考,形勢判斷,和生死判斷,

形勢判斷,細節上,以前的舊式軟件都可以做的很好,雖然越開始越難,在中局以前比較不容易做判斷。 但同時形勢好壞不是那麼確定。  

生死判斷基本是定式,是計算機的強項。

下棋就是對對手的棋做出回應, 根據對手的棋來決定,這也是AI需要下大量的棋的一個原因。 

第一,生死判斷,有沒有影響到自己的棋的生死。 有的話做出回應。 需要擺棋

第二, 沒有影響生死,對方在擴大勢力。 對比對方原來的勢力和下了新手後的勢力,可以看出對方的勢力增加在那裡(這一點容易做到),找出應手,這一點就是AI需要做的。 這也要對比自己原來的勢力和下了新手後的勢力。 也要擺棋。 



關鍵在於如何學習。 復盤是學習的最好方法。 復盤高手的棋。 AI如何從復盤中學習? 



0%(0)
標 題 (必選項):
內 容 (選填項):
實用資訊
回國機票$360起 | 商務艙省$200 | 全球最佳航空公司出爐:海航獲五星
海外華人福利!在線看陳建斌《三叉戟》熱血歸回 豪情築夢 高清免費看 無地區限制