设万维读者为首页 广告服务 联系我们 关于万维
简体 繁体 手机版
分类广告
版主:红树林
万维读者网 > 五 味 斋 > 帖子
【给墩子-禽兽-括号侃侃生物学方面的计算】
送交者: 职老 2017年05月30日21:29:01 于 [五 味 斋] 发送悄悄话

俺们知道,优化统计是可以用于对于某种物种的地理分布的模拟推演的,但注意,这是创造论框架下物种预先存在下环境对物种真实地理分布的一个描述。

与阿尔法狗这样可以建立在已经拥有的巨大数目的棋谱以及狗狗自我操练的大数据下的巨型样本而参数相对有限不同,物种的分布却是高维小样本数据,就是样本有限但环境因素非常的复杂,这样虽然在训练样本上物种分布可以获得很高的分类正确率,类似对化合物对酶的亲和预测,但在新的样本预测上表现很差,在统计学上叫做:过度拟合,虽然通过PCA降维,但只能部分缓解。

俺们知道,不同模型的统计运算方法非常不同,适应的分布也不同,这些模型包括:线性回归模型(GLMs, Hirzel 2001),广义相加模型(GAMs),逻辑回归 (LR,MANEL1999, OZESMI 1999, BOLLIGER 2000)神经网络 (NNW, MANEL 1999),决策树 (DT, STOCKWELL 1992),主成份分析(PCA,ROBERTSON 2001),马氏距离 (MD,FARBER 2003),
最大    火商    法 (MEM, PHILIPS 2006),遗传蒜法 (GA,STOCKWELL 2006)-包括genetic algorithm for rule-set prediction (GARP),回归树分析 (RTA, IVERSON 1998).

这些蒜法用于物种与环境的分析,比如GARP就是基于生态位,其他的包括早期气候学的CLIMEX (SUTHERST 1985),BIOCLIM (生物气候数据, BUSBY 1986),以及最近的ENFA (HIRZEL 2001) 和WHERE-WHY (STOCKWELL 2006)以及简约性分析(PAE, MANRIQUE, 2003)。
 
而目前使用的比较好的使用是结构风险最小化原理支持向量机器(SUPPORT VECTOR MACHINE, SVM),对于高维小样本数据这样的某些特定物种的分布是优于GARP的。由于SVM最初是由AT&T和BELL实验室的VAPNIK在1995年踢出的针对分类和回归问题的统计学习理论,基于结构风险最小化原理,所以明显优于传统的基于经验风险最小化原理(EPprical risk minimization principle)的分类方法。

对于GARP方法我们知道,这种生态位的模型描述了维持物种种群数量所需的环境条件,用已知物种的种群分布点的数据和带有与物种存活能力相关的环境参数层作为模型输入参数---这点上看我们就知道优化统计的计算和培训必须是建立在已知的物种数据和环境可能性分析基础上的,那种企图把这种计算和培训模拟用于物种自己身出现的想法有多么的愚蠢!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

蠢不可鸡,黑黑

然后不断迭代的遗传蒜法,包括4个规则模型:原子模型,逻辑回归,生物气候包络,及其逆向包络--这个最后一点正是阿尔法狗欠缺的退化部分---每个阿狗自己对弈的棋谱如此的乏味,缺乏美感,看着令人作呕。。。令柯姐痛哭,令马云咆哮。。


当然,还要探索是否与环境参数之间存在非随机的相关性--这点其实非常的重要,甚至超过了遗传蒜法本身。

具体GARP计算俺就不说了,但有意思的是,如果使用SVM与GARP比较而言,不但计算训练较快,而且更加准确。原因就是遗传蒜法采用大量的随机搜素过程,计算繁重,且搜索的复杂度与环境特征数呈指数关系,环境特征数量的增加将显著降低环境的计算率,而SVM法则表明其计算的复杂度与环境特征数呈现一次方关系,更适合高维计算。

所以我们看出,把不同的统计优化结构下的方式用于物种的分布可以得出一个结论:并非建立在随机的基础上的方式对于生物系统更加适合--而恰恰是在所谓的及其的生物和生态复杂系统下的一个隐含变量或者叫做预构形式---一种先天存在的非随机方式导致了物种的分布,比如食物恋,比如天地网,比如物竞天保,选择自然大框架下的结构风险最小机制让物种的分布得以符合预测。

0%(0)
标 题 (必选项):
内 容 (选填项):
实用资讯
回国机票$360起 | 商务舱省$200 | 全球最佳航空公司出炉:海航获五星
海外华人福利!在线看陈建斌《三叉戟》热血归回 豪情筑梦 高清免费看 无地区限制