【大数据与λ-结构】-新大陆-万维论坛-万维读者网（电脑版）

送交者: 懒得正经 2016年03月20日10:51:41 于 [新大陆] 发送悄悄话

【大数据与λ-结构】Nathan Marz自2012年提出λ-结构以后，2015年又出版了《大数据》，书中坚持认为要达到实时、分布式、准确的大数据运算，从而能克服所谓的CAP定理的约束，带λ-结构的计算平台是唯一最好的选择。

我化了一段时间，对比了业界公布的十几家公司的λ-结构的各种实现后，开发了基于开源码的λ-结构原型。在此基础上，并整合了R、Spark、H2O、Neo4J、Mahout、Oryx2等一系列机器习得的开源软件包（结构附图略）。

这是个功能非常全面的基于λ-结构的，可对机器习得进行开发和运作的平台原型。已经将其打包成三个publicly available docker-ized images (https://hub.docker.com/r/certxg/lambda/），ready to be deployed to a distributed server farm of any size.

当今业界对于机器习得的应用正方兴未艾。但以往的算法，比如R的上千种算法，都不是分布式运算的。它们只能在小数据上搞搞试验，做做演示或者教学示范，对大数据无能为力。所以，λ-结构的使用，将是个必然。

然而，现有的λ-结构都有个主要问题：它们内部的各部件之间太复杂，开发维护运转都很麻烦。最好能大大简化。

比如Spark就在这方面化了大力气，使得H2O和Mahout都决定采用Spark来简化λ-结构。

但这也带来一些trade-off，特别是用Spark streaming取代Trident streaming时，会影响整个糸统的实时性。尽管两者都用了micro-batching，但一个是基于时间间隔的polling，另一个却是基于实时的响应，快慢很有差别。

我现在正在做两件事：用Spark来简化λ-结构，并实现一个机器习得的应用。细节将在以后介绍。

0%(0)

瞪大眼睛期盼下一篇　　/无内容 - 黑石头 03/20/16 (107)

其实，软件能够修改自己的根本在源程序和执行程序是分开的。源程　　/无内容 - mingcheng99 03/20/16 (105)

这类需自动更新自身的通常本身需带或自动调用编译器，如Java　　/无内容 - 懒得正经 03/20/16 (89)

就是能自动修改，编译，但这些rule也是人定的， - zxbts 03/20/16 (135)

现时的AI其实重点不在摸仿人通常的思维，而是运用人们 - 懒得正经 03/20/16 (141)

有道理...期待ing　　/无内容 - zxbts 03/20/16 (82)

好见解，期待ing　　/无内容 - mingcheng99 03/20/16 (85)

其实，AI的无限制的 multiple tasking 模 - mingcheng99 03/20/16 (117)

AI能走多远其实是个哲学问题。其实我很有兴趣这个问题，３０多 - mingcheng99 03/20/16 (129)

我用过matlab的神经网络部分　　/无内容 - zxbts 03/20/16 (73)

很好，我喜欢用开源码的，曾经发现一处pesrson r 的实 - 懒得正经 03/20/16 (129)

开源码里BUG多去了，我们用过很著名的H323 的开源pro - mingcheng99 03/20/16 (93)

Typo: Pearson R. 可恨的手机输入把它自动改为 - 懒得正经 03/20/16 (87)

源程序只是文本文件而已。具体方案就不重要了，改进也是可以的， - mingcheng99 03/20/16 (123)

分布式计算，我开始用的是 corba, 也是老古董了　　/无内容 - mingcheng99 03/20/16 (110)

现在流行用Spark, 用scala/java/python - 懒得正经 03/20/16 (139)

老懒这个太高大上了，听不懂....机器习得是啥？ - zxbts 03/20/16 (117)

Yes. 我自个翻的。有人翻成机器学习。 - 懒得正经 03/20/16 (128)

	实用资讯

回国机票$360起 | 商务舱省$200 | 全球最佳航空公司出炉：海航获五星
海外华人福利！在线看陈建斌《三叉戟》热血归回豪情筑梦 高清免费看无地区限制

一周点击热帖

更多>>

一周回复热帖

历史上的今天：回复热帖

2015:	金歌：美国护士知多少
2014:	美国胖子为啥那么多？
2014:	养狗指南：我与狗狗的“五个约定”
2013:	在美国买机票省钱的7大秘诀
2013:	在美国读大学选择专业的几大误区
2011:	中西方文化在恋爱中不同的表现
2011:	揭秘美国赌场里的三类华人赌客