設萬維讀者為首頁 廣告服務 聯繫我們 關於萬維
簡體 繁體 手機版
分類廣告
版主:
萬維讀者網 > 新 大 陸 > 帖子
【大數據與λ-結構】
送交者: 懶得正經 2016年03月20日10:51:41 於 [新 大 陸] 發送悄悄話
【大數據與λ-結構】Nathan Marz自2012年提出λ-結構以後,2015年又出版了《大數據》,書中堅持認為要達到實時、分布式、準確的大數據運算,從而能克服所謂的CAP定理的約束,帶λ-結構的計算平台是唯一最好的選擇。

我化了一段時間,對比了業界公布的十幾家公司的λ-結構的各種實現後,開發了基於開源碼的λ-結構原型。在此基礎上,並整合了R、Spark、H2O、Neo4J、Mahout、Oryx2等一系列機器習得的開源軟件包(結構附圖略)。

這是個功能非常全面的基於λ-結構的,可對機器習得進行開發和運作的平台原型。已經將其打包成三個publicly available docker-ized images (https://hub.docker.com/r/certxg/lambda/),ready to be deployed to a distributed server farm of any size. 

當今業界對於機器習得的應用正方興未艾。但以往的算法,比如R的上千種算法,都不是分布式運算的。它們只能在小數據上搞搞試驗,做做演示或者教學示範,對大數據無能為力。所以,λ-結構的使用,將是個必然。

然而,現有的λ-結構都有個主要問題:它們內部的各部件之間太複雜,開發維護運轉都很麻煩。最好能大大簡化。

比如Spark就在這方面化了大力氣,使得H2O和Mahout都決定採用Spark來簡化λ-結構。

但這也帶來一些trade-off,特別是用Spark streaming取代Trident streaming時,會影響整個糸統的實時性。儘管兩者都用了micro-batching,但一個是基於時間間隔的polling,另一個卻是基於實時的響應,快慢很有差別。

我現在正在做兩件事:用Spark來簡化λ-結構,並實現一個機器習得的應用。細節將在以後介紹。
0%(0)
0%(0)
  瞪大眼睛期盼下一篇  /無內容 - 黑石頭 03/20/16 (107)
    這類需自動更新自身的通常本身需帶或自動調用編譯器,如Java  /無內容 - 懶得正經 03/20/16 (89)
        現時的AI其實重點不在摸仿人通常的思維,而是運用人們 - 懶得正經 03/20/16 (141)
          有道理...期待ing  /無內容 - zxbts 03/20/16 (81)
          好見解,期待ing  /無內容 - mingcheng99 03/20/16 (85)
            其實,AI的無限制的 multiple tasking 模 - mingcheng99 03/20/16 (117)
          我用過matlab的神經網絡部分  /無內容 - zxbts 03/20/16 (73)
            很好,我喜歡用開源碼的,曾經發現一處pesrson r 的實 - 懶得正經 03/20/16 (129)
              開源碼里BUG多去了,我們用過很著名的H323 的開源pro - mingcheng99 03/20/16 (93)
              Typo: Pearson R. 可恨的手機輸入把它自動改為 - 懶得正經 03/20/16 (87)
      分布式計算,我開始用的是 corba, 也是老古董了  /無內容 - mingcheng99 03/20/16 (110)
        現在流行用Spark, 用scala/java/python - 懶得正經 03/20/16 (139)
    Yes. 我自個翻的。有人翻成機器學習。 - 懶得正經 03/20/16 (128)
標 題 (必選項):
內 容 (選填項):
實用資訊
回國機票$360起 | 商務艙省$200 | 全球最佳航空公司出爐:海航獲五星
海外華人福利!在線看陳建斌《三叉戟》熱血歸回 豪情築夢 高清免費看 無地區限制
一周點擊熱帖 更多>>
一周回復熱帖
歷史上的今天:回復熱帖
2015: 金歌:美國護士知多少
2014: 美國胖子為啥那麼多?
2014: 養狗指南:我與狗狗的“五個約定”
2013: 在美國買機票省錢的7大秘訣
2013: 在美國讀大學選擇專業的幾大誤區
2011: 中西方文化在戀愛中不同的表現
2011: 揭秘美國賭場裡的三類華人賭客