【大數據與λ-結構】-新大陸-萬維論壇-萬維讀者網（電腦版）

送交者: 懶得正經 2016年03月20日10:51:41 於 [新大陸] 發送悄悄話

【大數據與λ-結構】Nathan Marz自2012年提出λ-結構以後，2015年又出版了《大數據》，書中堅持認為要達到實時、分布式、準確的大數據運算，從而能克服所謂的CAP定理的約束，帶λ-結構的計算平台是唯一最好的選擇。

我化了一段時間，對比了業界公布的十幾家公司的λ-結構的各種實現後，開發了基於開源碼的λ-結構原型。在此基礎上，並整合了R、Spark、H2O、Neo4J、Mahout、Oryx2等一系列機器習得的開源軟件包（結構附圖略）。

這是個功能非常全面的基於λ-結構的，可對機器習得進行開發和運作的平台原型。已經將其打包成三個publicly available docker-ized images (https://hub.docker.com/r/certxg/lambda/），ready to be deployed to a distributed server farm of any size.

當今業界對於機器習得的應用正方興未艾。但以往的算法，比如R的上千種算法，都不是分布式運算的。它們只能在小數據上搞搞試驗，做做演示或者教學示範，對大數據無能為力。所以，λ-結構的使用，將是個必然。

然而，現有的λ-結構都有個主要問題：它們內部的各部件之間太複雜，開發維護運轉都很麻煩。最好能大大簡化。

比如Spark就在這方面化了大力氣，使得H2O和Mahout都決定採用Spark來簡化λ-結構。

但這也帶來一些trade-off，特別是用Spark streaming取代Trident streaming時，會影響整個糸統的實時性。儘管兩者都用了micro-batching，但一個是基於時間間隔的polling，另一個卻是基於實時的響應，快慢很有差別。

我現在正在做兩件事：用Spark來簡化λ-結構，並實現一個機器習得的應用。細節將在以後介紹。

0%(0)

瞪大眼睛期盼下一篇　　/無內容 - 黑石頭 03/20/16 (107)

其實，軟件能夠修改自己的根本在源程序和執行程序是分開的。源程　　/無內容 - mingcheng99 03/20/16 (105)

這類需自動更新自身的通常本身需帶或自動調用編譯器，如Java　　/無內容 - 懶得正經 03/20/16 (89)

就是能自動修改，編譯，但這些rule也是人定的， - zxbts 03/20/16 (135)

現時的AI其實重點不在摸仿人通常的思維，而是運用人們 - 懶得正經 03/20/16 (141)

有道理...期待ing　　/無內容 - zxbts 03/20/16 (82)

好見解，期待ing　　/無內容 - mingcheng99 03/20/16 (85)

其實，AI的無限制的 multiple tasking 模 - mingcheng99 03/20/16 (117)

AI能走多遠其實是個哲學問題。其實我很有興趣這個問題，３０多 - mingcheng99 03/20/16 (129)

我用過matlab的神經網絡部分　　/無內容 - zxbts 03/20/16 (73)

很好，我喜歡用開源碼的，曾經發現一處pesrson r 的實 - 懶得正經 03/20/16 (129)

開源碼里BUG多去了，我們用過很著名的H323 的開源pro - mingcheng99 03/20/16 (93)

Typo: Pearson R. 可恨的手機輸入把它自動改為 - 懶得正經 03/20/16 (87)

源程序只是文本文件而已。具體方案就不重要了，改進也是可以的， - mingcheng99 03/20/16 (123)

分布式計算，我開始用的是 corba, 也是老古董了　　/無內容 - mingcheng99 03/20/16 (110)

現在流行用Spark, 用scala/java/python - 懶得正經 03/20/16 (139)

老懶這個太高大上了，聽不懂....機器習得是啥？ - zxbts 03/20/16 (117)

Yes. 我自個翻的。有人翻成機器學習。 - 懶得正經 03/20/16 (128)

	實用資訊

回國機票$360起 | 商務艙省$200 | 全球最佳航空公司出爐：海航獲五星
海外華人福利！在線看陳建斌《三叉戟》熱血歸回豪情築夢 高清免費看無地區限制

一周點擊熱帖

更多>>

一周回復熱帖

歷史上的今天：回復熱帖

2015:	金歌：美國護士知多少
2014:	美國胖子為啥那麼多？
2014:	養狗指南：我與狗狗的“五個約定”
2013:	在美國買機票省錢的7大秘訣
2013:	在美國讀大學選擇專業的幾大誤區
2011:	中西方文化在戀愛中不同的表現
2011:	揭秘美國賭場裡的三類華人賭客