設萬維讀者為首頁 廣告服務 聯繫我們 關於萬維
簡體 繁體 手機版
分類廣告
版主:紅樹林
萬維讀者網 > 五 味 齋 > 帖子
【給墩子-禽獸-括號侃侃生物學方面的計算】
送交者: 職老 2017年05月30日21:29:01 於 [五 味 齋] 發送悄悄話

俺們知道,優化統計是可以用於對於某種物種的地理分布的模擬推演的,但注意,這是創造論框架下物種預先存在下環境對物種真實地理分布的一個描述。

與阿爾法狗這樣可以建立在已經擁有的巨大數目的棋譜以及狗狗自我操練的大數據下的巨型樣本而參數相對有限不同,物種的分布卻是高維小樣本數據,就是樣本有限但環境因素非常的複雜,這樣雖然在訓練樣本上物種分布可以獲得很高的分類正確率,類似對化合物對酶的親和預測,但在新的樣本預測上表現很差,在統計學上叫做:過度擬合,雖然通過PCA降維,但只能部分緩解。

俺們知道,不同模型的統計運算方法非常不同,適應的分布也不同,這些模型包括:線性回歸模型(GLMs, Hirzel 2001),廣義相加模型(GAMs),邏輯回歸 (LR,MANEL1999, OZESMI 1999, BOLLIGER 2000)神經網絡 (NNW, MANEL 1999),決策樹 (DT, STOCKWELL 1992),主成份分析(PCA,ROBERTSON 2001),馬氏距離 (MD,FARBER 2003),
最大    火商    法 (MEM, PHILIPS 2006),遺傳蒜法 (GA,STOCKWELL 2006)-包括genetic algorithm for rule-set prediction (GARP),回歸樹分析 (RTA, IVERSON 1998).

這些蒜法用於物種與環境的分析,比如GARP就是基於生態位,其他的包括早期氣候學的CLIMEX (SUTHERST 1985),BIOCLIM (生物氣候數據, BUSBY 1986),以及最近的ENFA (HIRZEL 2001) 和WHERE-WHY (STOCKWELL 2006)以及簡約性分析(PAE, MANRIQUE, 2003)。
 
而目前使用的比較好的使用是結構風險最小化原理支持向量機器(SUPPORT VECTOR MACHINE, SVM),對於高維小樣本數據這樣的某些特定物種的分布是優於GARP的。由於SVM最初是由AT&T和BELL實驗室的VAPNIK在1995年踢出的針對分類和回歸問題的統計學習理論,基於結構風險最小化原理,所以明顯優於傳統的基於經驗風險最小化原理(EPprical risk minimization principle)的分類方法。

對於GARP方法我們知道,這種生態位的模型描述了維持物種種群數量所需的環境條件,用已知物種的種群分布點的數據和帶有與物種存活能力相關的環境參數層作為模型輸入參數---這點上看我們就知道優化統計的計算和培訓必須是建立在已知的物種數據和環境可能性分析基礎上的,那種企圖把這種計算和培訓模擬用於物種自己身出現的想法有多麼的愚蠢!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

蠢不可雞,黑黑

然後不斷迭代的遺傳蒜法,包括4個規則模型:原子模型,邏輯回歸,生物氣候包絡,及其逆向包絡--這個最後一點正是阿爾法狗欠缺的退化部分---每個阿狗自己對弈的棋譜如此的乏味,缺乏美感,看着令人作嘔。。。令柯姐痛哭,令馬雲咆哮。。


當然,還要探索是否與環境參數之間存在非隨機的相關性--這點其實非常的重要,甚至超過了遺傳蒜法本身。

具體GARP計算俺就不說了,但有意思的是,如果使用SVM與GARP比較而言,不但計算訓練較快,而且更加準確。原因就是遺傳蒜法採用大量的隨機搜素過程,計算繁重,且搜索的複雜度與環境特徵數呈指數關係,環境特徵數量的增加將顯著降低環境的計算率,而SVM法則表明其計算的複雜度與環境特徵數呈現一次方關係,更適合高維計算。

所以我們看出,把不同的統計優化結構下的方式用於物種的分布可以得出一個結論:並非建立在隨機的基礎上的方式對於生物系統更加適合--而恰恰是在所謂的及其的生物和生態複雜系統下的一個隱含變量或者叫做預構形式---一種先天存在的非隨機方式導致了物種的分布,比如食物戀,比如天地網,比如物競天保,選擇自然大框架下的結構風險最小機制讓物種的分布得以符合預測。

0%(0)
標 題 (必選項):
內 容 (選填項):
實用資訊
回國機票$360起 | 商務艙省$200 | 全球最佳航空公司出爐:海航獲五星
海外華人福利!在線看陳建斌《三叉戟》熱血歸回 豪情築夢 高清免費看 無地區限制