设万维读者为首页 广告服务 联系我们 关于万维
简体 繁体 手机版
分类广告
版主:
万维读者网 > 新 大 陆 > 帖子
【大数据与λ-结构】
送交者: 懒得正经 2016年03月20日10:51:41 于 [新 大 陆] 发送悄悄话
【大数据与λ-结构】Nathan Marz自2012年提出λ-结构以后,2015年又出版了《大数据》,书中坚持认为要达到实时、分布式、准确的大数据运算,从而能克服所谓的CAP定理的约束,带λ-结构的计算平台是唯一最好的选择。

我化了一段时间,对比了业界公布的十几家公司的λ-结构的各种实现后,开发了基于开源码的λ-结构原型。在此基础上,并整合了R、Spark、H2O、Neo4J、Mahout、Oryx2等一系列机器习得的开源软件包(结构附图略)。

这是个功能非常全面的基于λ-结构的,可对机器习得进行开发和运作的平台原型。已经将其打包成三个publicly available docker-ized images (https://hub.docker.com/r/certxg/lambda/),ready to be deployed to a distributed server farm of any size. 

当今业界对于机器习得的应用正方兴未艾。但以往的算法,比如R的上千种算法,都不是分布式运算的。它们只能在小数据上搞搞试验,做做演示或者教学示范,对大数据无能为力。所以,λ-结构的使用,将是个必然。

然而,现有的λ-结构都有个主要问题:它们内部的各部件之间太复杂,开发维护运转都很麻烦。最好能大大简化。

比如Spark就在这方面化了大力气,使得H2O和Mahout都决定采用Spark来简化λ-结构。

但这也带来一些trade-off,特别是用Spark streaming取代Trident streaming时,会影响整个糸统的实时性。尽管两者都用了micro-batching,但一个是基于时间间隔的polling,另一个却是基于实时的响应,快慢很有差别。

我现在正在做两件事:用Spark来简化λ-结构,并实现一个机器习得的应用。细节将在以后介绍。
0%(0)
0%(0)
  瞪大眼睛期盼下一篇  /无内容 - 黑石头 03/20/16 (107)
    这类需自动更新自身的通常本身需带或自动调用编译器,如Java  /无内容 - 懒得正经 03/20/16 (89)
        现时的AI其实重点不在摸仿人通常的思维,而是运用人们 - 懒得正经 03/20/16 (141)
          有道理...期待ing  /无内容 - zxbts 03/20/16 (81)
          好见解,期待ing  /无内容 - mingcheng99 03/20/16 (85)
            其实,AI的无限制的 multiple tasking 模 - mingcheng99 03/20/16 (117)
          我用过matlab的神经网络部分  /无内容 - zxbts 03/20/16 (73)
            很好,我喜欢用开源码的,曾经发现一处pesrson r 的实 - 懒得正经 03/20/16 (129)
              开源码里BUG多去了,我们用过很著名的H323 的开源pro - mingcheng99 03/20/16 (93)
              Typo: Pearson R. 可恨的手机输入把它自动改为 - 懒得正经 03/20/16 (87)
      分布式计算,我开始用的是 corba, 也是老古董了  /无内容 - mingcheng99 03/20/16 (110)
        现在流行用Spark, 用scala/java/python - 懒得正经 03/20/16 (139)
    Yes. 我自个翻的。有人翻成机器学习。 - 懒得正经 03/20/16 (128)
标 题 (必选项):
内 容 (选填项):
实用资讯
回国机票$360起 | 商务舱省$200 | 全球最佳航空公司出炉:海航获五星
海外华人福利!在线看陈建斌《三叉戟》热血归回 豪情筑梦 高清免费看 无地区限制
一周点击热帖 更多>>
一周回复热帖
历史上的今天:回复热帖
2015: 金歌:美国护士知多少
2014: 美国胖子为啥那么多?
2014: 养狗指南:我与狗狗的“五个约定”
2013: 在美国买机票省钱的7大秘诀
2013: 在美国读大学选择专业的几大误区
2011: 中西方文化在恋爱中不同的表现
2011: 揭秘美国赌场里的三类华人赌客