設萬維讀者為首頁 廣告服務 技術服務 聯繫我們 關於萬維
簡體 繁體 手機版
分類廣告
版主:納川
萬維讀者網 > 天下論壇 > 帖子
轉貼:(科普惡補)大數據,想象力以及正在被改變的世界
送交者: 求真知 2014年04月05日08:19:13 於 [天下論壇] 發送悄悄話

大數據,想象力以及正在被改變的世界

谷歌位於美國俄勒岡州達爾斯資料中心的機房

概念:大數據與雲計算

早晨我睜開眼,一般第一件事就是去摸枕邊的手機,打開微信,看看朋友圈裡最新的動態,再打開新聞客戶端,看看最新的消息。天氣預報和監測空氣質量的APP已經精確到了以小時計,不用跑到陽台上去看天氣,就能確定穿什麼。洗漱的時候,豆瓣音樂里播放着推薦的最新歌曲。吃過早飯去上班,如果有採訪,出門的時候首先用地圖搜索一下路線。在地鐵上,打開微信公眾賬號看幾篇最新的評論,等採訪對象的時候,打開手機郵箱,溫習一下存在發件箱裡的採訪提綱,至於採訪時的錄音,當然也交給手機完成了。

趁着午飯的時候,用微信跟家人聯繫一下,順便發幾張最新的照片到朋友圈與大家分享。下午的時間,多數時候是在辦公室度過,在網上搜集新聞線索,查找採訪對象的聯絡方式,登錄學術網站下載幾篇相關的論文看看。傍晚下班後,如果不想擠地鐵,可以打開拼車軟件搜索一下附近有沒有同行的人。回家路上,看看已經下載到手機裡的新電影,還可以順便登錄網店買本朋友推薦的新書。

這樣的生活軌跡,相信對絕大部分年輕人來說並不陌生,手機已經成為我們生活中必不可少的夥伴,可以用來工作、娛樂、購物、社交、搜索、找路等等,但我們可能並沒有意識到,所有這些便利的功能,背後都依賴海量數據的運算。同時,我們自己也成為數據“供應商”——當我們使用微信,數據會保存在騰訊的服務器上;當我們查看天氣預報、空氣質量、搜索路線、接發郵件,不僅第三方服務商掌握了這些數據,通信運營商也會了解我們一天的活動軌跡。至於看電影和購物,服務商很容易就此可以判斷出我們個人的喜好。

人類歷史上,從來沒有一個時代像今天這樣與數據緊密相連,各種各樣的智能終端設備使得數據生產無處不在。同時,社交媒體、即時通訊和視頻網站的普及,又使得我們產生的數據不再局限於傳統的文字、表格,非結構數據已經遠遠超越了結構化數據。單純以量來說,一家谷歌公司每天要處理的數據量就超過24PB1PB=1024TB1TB=1024GB),相當於美國國家圖書館所有紙質出版物數據量的上千倍。人們用了很多種類比方式來描述今天的數據量之龐大,但其實,在超越了一定量級之後,數據到底有多少已經不再是最主要的問題。就像一隻螞蟻和一頭大象的對比,當這兩者放在一起的時候,不會有人再去追究大象的具體重量,更重要的問題變成,我們該如何面對海量的數據?

大數據(BigData)並非新鮮事物,但直到20116月,麥肯錫諮詢公司發布了《大數據:下一個競爭、創新和生產力的前沿領域》的研究報告,這一概念才成為業界競相解讀的對象。2012年,牛津大學教授維克托·邁爾·舍恩伯格與《經濟學人》數據編輯肯尼斯·庫克耶合著的《大數據時代》一書出版,頓時掀起一股大數據風潮。

業內普遍用4V來定義它——海量(Volume)、多樣(Variety)、快速(Velocity)、準確(Veracity),但電子科技大學互聯網科學中心主任周濤更傾向於在這後面再加一個V——價值(Value)。“關鍵是我們如何發掘數據的價值。”周濤也是《大數據時代》一書的中文譯者,他告訴本刊記者,“傳統思維對數據的認知大多局限在記錄與查找上,但大數據時代,我們需要重新來認識數據的價值。比如以前不會計入交易記錄的點擊瀏覽,實際上反映了你的興趣偏好,是有價值的。”舍恩伯格在他的書裡強調必須要轉變思維——首先,樣本=總體;其次,承認數據的混雜性;再者,重視數據之間的相關關係,而非因果關係。

作為現代統計學的發明,隨機抽樣其實是一個迫不得已的方法,代表着人類對精確性的孜孜追求。人口普查大概是最早使用隨機抽樣的領域,但隨着人口數量越來越多,1880年美國使用穿孔卡片進行人口普查,要耗時8年才能完成數據匯總,最後得出的還只是一個推測性的結論。這是一個悖論,8年之後,人口規模早已變化。而現在,藉助更先進的存儲和計算技術,我們可以完成全體樣本的精準統計,也不過只要幾天的時間。

與大數據之“大”相比,對數據之間關係的認識則更需要我們來一場思維革命。IBM新興市場部大數據中心總監王曉梅向我們強調,傳統的數據庫處理方式一直強調因果關係,為的是做預測性分析,而大數據時代的思維,則更強調從大量、混沌的數據中去尋找規律。“不需要追究為什麼,只需要告訴我是什麼,只要數據本身是真實的,哪怕不精確,也應該大膽擁抱,只要大到一定的量級,自然可以彌補不精確性的缺陷。”

IBM新興市場部大數據中心總監王曉梅

在對數據關係的認知上,谷歌(Google)公司開創了先河。機器翻譯最早出現在“二戰”以後,當時為了破譯美國間諜截獲的蘇聯信息,IBM公司以計算機中的250個詞語和6條語法法則為基礎,將60個俄語詞組翻譯成了英語,一時振奮人心。但是此後幾十年的發展,機器翻譯始終沒有解決準確度的問題。2006年,谷歌公司涉足機器翻譯,改變了以前的傳統思維模式,不再單純利用兩種語言之間的文本翻譯,不再把精力局限在精確翻譯300萬句話上,而是利用整個互聯網對各種語言數據的記錄,利用那些翻譯質量參差不齊的數十億頁文檔,建立起一個萬億數量級的語料庫。某種程度上,這與之前對某句話、某個詞的精確追求背道而馳,但這個龐大的語料庫卻有效地彌補了這個問題。也許一個人給出的翻譯不準確,但如果能夠收集100萬個人給出的翻譯,使用最多的自然就成了最準確的譯法。這是語言的天性——它的使用基於人類的習慣;這也是谷歌翻譯高效的秘訣——它承認了數據的混雜。

更實際的問題是,即便認識到這些,我們該用什麼樣的方法去存儲與處理大數據——如果離開雲計算來談大數據,則容易浮在雲端;而如果離開大數據來談雲計算,就變成了無本之木。

雲計算的概念最早出現在2006年,在當年8月舉行的搜索引擎戰略大會上,谷歌CEO施密特在回答主持人提問的時候,第一次使用了“雲”(cloud)這個詞來描述他的服務器。但是,在現實中,業界對這一計算方式的探索則要早得多。

每一家互聯網公司,都會遇到一個相同的問題——如何管理和維護成千上萬台服務器。雖然服務器的性能在不斷提升,但隨着數據存儲量呈爆炸式增長,服務器數量也在飛速擴張。幾十台服務器可以人工維護,但如果有幾萬台服務器,怎麼辦?姚宏宇2001年進入美國雅虎的時候,就面臨這樣一個棘手的問題,雅虎郵箱每天都會有海量的數據需要存儲,如何保證服務器系統的容量和穩定。他向本刊記者回憶,那時候,他白天編程,晚上加班組裝服務器是家常便飯,第二天一大早又要趕去公司,因為要趕在股市開盤之前檢查網站的穩定性。對雅虎這樣的大型互聯網公司來說,服務器的數量至少幾十萬台,每年光花在郵箱數據存儲上的費用就高達數億美元。

就在施密特提出“雲計算”幾周之後,亞馬遜推出了EC2業務——將閒置的大量存儲和計算資源向外出租或出售。在姚宏宇看來,這才是雲時代的第一個轉折點,“亞馬遜的貝索斯為雲技術找到了一個行之有效的商業模式,也讓雲計算通過一種具體的服務方式落了地”。而這事兒之所以由亞馬遜公司首創,也在情理之中。作為號稱銷售一切的電子商務網站,為了應對高峰期大規模的交易業務,亞馬遜一直在不斷擴充其服務器等基礎設施建設。但是,這些耗資巨大的服務器,過了銷售高峰期就會陷入大量資源的閒置狀態中,如何利用這些被浪費的資源一直是貝索斯思考的商業方向。

即便是大型互聯網公司的服務器,往往也不是集中在一個地方,如果將他們鏈接起來,通過軟件實現資源的統一調配,存儲和計算能力將會進一步釋放。順着貝索斯思考的方向延伸出去,以英特爾和微軟主導的產業方向,一直在追求更高的CPU性能、更大的存儲空間,但承載它們的是一台台獨立的PC,只是,每個人對PC的使用,畢竟各有不同,總是會有很多資源處於閒置狀態。如果能夠將這些暫時閒置的計算資源整合起來,形成一團虛擬的“雲”,大家就能各取所需。

其實,這樣的想法由來已久。早在1995年,為了對抗快速崛起的微軟,甲骨文(Oracle)公司的CEO拉里·埃里森就推出了一款名為“網絡計算機”的設備,當時售價500美元,不需要安裝微軟的操作系統就可以使用。埃里森揶揄道:“個人電腦(PC)是一種可笑的設備。”他設想這樣一台設備,可以像插入插座獲得電力一樣,即插就能獲得數據。但是,這款設備生不逢時,很快就退出了市場,因為當時的網絡傳輸速度極慢,產生的數據也沒有那麼大,在自家的電腦上就可以輕鬆完成。但是,埃里森的這個想法卻深深地影響了硅谷,奠定了現在雲計算的雛形。

這就是“雲存儲”和“雲計算”的由來。簡而言之,就像是工業革命時期的“福特生產線”一樣,雲計算就是信息時代的社會分工——主機即將消失,未來不管你使用什麼裝備,一台手機或者一部平板電腦,都只是一款簡單的顯示屏和操作平台,而把複雜的存儲和計算交給“雲”端的專業機構——也許是建在荒漠裡的大型數據中心,也許是坐落在城市郊區的小型數據工廠,由此形成“厚雲薄端”的格局。

科技並非憑空想象的產物,而是為了解決現實的問題。為了快速整理海量的數據資源,尤其是那些來自影像、語音等渠道的非結構性數據,雅虎公司還發明了Hadoop技術,這是一種並行分布式計算方式,通俗地講,就是將之前龐大的整體計算任務拆分成無數個小任務並列進行,然後通過一套系統將它們整合起來。

大數據催生了雲計算;反過來,雲計算又進一步激發了人們對大數據的認識。2007年,已經在硅谷聞到“雲”氣味的姚宏宇回國,創辦了現在的友友天宇系統技術有限公司,專門從事基於雲計算技術的軟件開發。在他看來,大數據與雲計算的結合,已經超越了工具性的範疇。“IT技術有過兩次重要的變革,一次是上世紀80年代,以微軟和蘋果為代表的PC革命,推動了信息技術的普及;另一次是本世紀初,以雅虎和谷歌為代表的互聯網革命,實現了信息共享。”他告訴本刊記者,“依照螺旋上升的原理,大數據和雲計算將掀起第三次科技革命,其影響會遠遠超過前兩次變革。”

圖景:現實與未來

一、商業——個性交易

亞馬遜總裁傑夫·貝索斯說過:“如果我的網站上有一百萬個顧客,我就應該有一百萬個商店。”現在的零售網站在挖掘顧客偏好的時候主要有兩種方式:一種是基於用戶,來判斷顧客之間的相似性,比如當你在網上買了一本最新的小說,網站就會自動提醒你買這本小說的顧客中還有65%的人買了另外一本。藉助“群體的智慧”,讓顧客的購買行為來幫助完成“人以群分”。另一種方式是基於商品,通過判斷商品之間的關聯度來完成推薦,比如當你購買了一款剃鬚刀,網站自然就會就推薦一款對應的須後水,由此形成“物以類聚”。

這種基於“協同過濾”技術的推薦引擎,現在已經比較普遍,其實,大數據還能做更多。比如,你登錄購物網站,瀏覽了幾款商品,但最後沒有下單,以前認為這些數據是沒用的,不計入交易記錄,但其實你的網絡路徑已經折射了你的喜好,你尋找某一款商品的方式,你在某一款商品上停留的時間多少,都可以推斷出你潛在的購買意願。專門從事推薦引擎開發的百分點公司就是這一領域的探索者,公司創始人蘇萌告訴本刊記者:“從數據的價值來看,沒買比買了更重要。”

曾在美國學習營銷模型的蘇萌說,大數據將會實現營銷人的終極追求——真正了解每一個人的需求,而不是為群體畫像。未來,隨着大數據的深度挖掘,很有可能會出現這樣一幕場景——你想買一款護膚品,登錄購物網站後,還沒等搜索,就已經有兩款適合你的護膚品顯示在頁面上了,而且還是你心儀的牌子。為什麼網站能了解你的需求,很可能是因為你剛剛在微博上跟朋友討論起這個牌子的護膚品。當然,如果你不喜歡這種略顯“親密”的銷售方式,只需關閉推薦任務即可。

美國婦女尼基·史密斯(左)正在用谷歌翻譯軟件給領養的女兒講笑話

如果你厭倦了網絡購物,周末想跟家人一起去逛逛超市,大數據照樣能夠大顯身手。大型超市宛如迷宮,商品琳琅滿目,很多人不喜歡去超市,主要是因為購物效率太低,找起東西來太麻煩。英格蘭最大的連鎖超市StopShop開發了一套智能購物車系統,他們在超市的購物車上安裝了一個計算機,並在超市內部布置了無線網,顧客只需要在會員卡上勾出自己的購物清單,然後在購物車計算機上刷一下,屏幕上就會自動顯示出你的“最優購物路線”,通過天花板上的位置追蹤系統,指引你到選中的貨架面前。另外一家名為Sensory的公司更進一步,正在開發一種可以和顧客交談的智能系統,取名為“超市阿凡達”。當你站在擺滿薯片的貨架面前猶豫不決時,購物車顯示屏上的“阿凡達”就開口了:“您需要什麼樣的薯片?”“我想要低糖的番茄味。”很快,阿凡達回道:“在上面第二排靠左邊位置,我推薦樂事的。”這背後,依託的就是對大數據快速而精準的運算,因為你的位置信息、語音信息和商品的詳細信息,都可以轉化成數據。

不單零售業,大數據已經開始影響很多傳統行業,比如金融和保險,他們最大的挑戰都是風險控制。百分點公司與一家銀行合作,利用大數據的方式來篩選網上登記的信用卡申請資料。蘇萌向本刊記者介紹,這家銀行的信用卡網上申請,只有1/5的人能夠通過,之所以通過率很低,是因為信息不對稱,僅憑有限的個人資料,銀行不敢貿然發卡。因為百分點的個性化搜索引擎與國內幾十家電子購物網站都有合作,掌握了豐富的消費者數據,成為篩選信用卡客戶的利器。“比如你申請信用卡的這個ID,在過去的兩個月內從網上買過一台數碼相機、一件品牌服裝,就能大概判斷出你的消費水平,從而推斷你的還款能力。”蘇萌介紹說。

另外一家從事大數據業務的天雲融創數據公司正在與一家保險公司合作,其CEO雷濤向本刊記者介紹,保險公司很擔心客戶流失,但對於幾十萬客戶來說,如何判斷哪些人有可能流失是個難題。傳統辦法往往是做抽樣調查,形成分析報告,然後找對策、實施、再評估。這樣一個流程下來,速度慢,而且效果不可控。現在,藉助大數據,保險公司可以通過客戶的保險記錄,清晰地判斷每個人的流失風險,每個銷售員手機上都下載了一個客戶端,可以輕鬆查到自己客戶的流失風險指數,由他們去對症下藥即可,最後再由銷售員反饋效果,自動生成評估結果。雷濤告訴本刊記者:“大數據可以讓系統生成一個閉環操作,扁平化決策,自動化運行。”

 

高德地圖交通信息事業部總經理董振寧

二、醫療——認識自己

大數據在醫療保健領域的應用更加鼓舞人心。認識自己一直是人類不懈的追求,自從1953年詹姆斯·沃森博士和弗朗西斯·克里克博士提出脫氧核糖核酸(DNA)結構之後,基因測序成為人們夢寐以求揭開自身密碼的鑰匙。但是,基因分析需要超強的計算能力,DNA分子由排列成約30億個精密序列的化學基礎組成,即使是單細胞細菌,大腸桿菌的DNA分子也有足以占據整套《大不列顛百科全書》的信息。喬布斯利用基因測序來治療癌症的案例已經廣為流傳,但他花費了十幾萬美元,最終也只是延長了兩年壽命。

現在,隨着大數據計算的發展,專門從事基因測序業務的23andMe公司推出了低至99美元的服務。不管你在世界的哪個角落,只需要吐一口唾沫或拔一根頭髮,郵寄到23andMe位於加利福尼亞州山景城的實驗室里,兩周后你就可以從他們網站上查詢你的“身體秘密”。23andMe公司宣布,通過全基因組上超過100萬個位點的基因信息分析,他們可以對259種疾病提出患病率的預測和祖先遺傳分析,從而提前干預。僅僅在10年前,這項技術卻需要耗費驚人的27億美元,再加上數百科學家13年的時間。不久的將來,諸如23andMe這樣的基因技術公司會越來越多,由此給製藥業帶來的影響將顯而易見,有望實現真正的個性化診斷。

IBM“大數據寶寶的案例就是其中一個代表。在2010年來中國之前,王曉梅一直待在IBM多倫多實驗室里從事傳統數據管理工作。在多倫多,有一家全球著名的病童醫院,專門收治來自世界各地16歲以下的疑難症病童。王曉梅向本刊記者介紹,在醫學領域,如何提高早產兒的存活率一直是醫生面臨的最大挑戰之一。全世界通行的做法是將早產兒放到保溫箱裡,每隔半小時由護士來記錄一次儀器監測數據。但是,早產兒的死亡大多發生在出生後24小時內,因為新生兒的體徵表現不明顯,加之往往早產兒在病發前幾個小時,身體各項指標會表現得特別健康,其實是一種假象。於是,當數據記錄發現問題的時候,往往已經錯過了最佳的搶救時機。

IBM與這家醫院合作,聯合安大略省理工學院,共同開發了一套基於大數據技術的新生兒實時監測系統。在早產兒身上貼上傳感器,通過它們把表皮以下的體徵指數迅速捕捉下來,並且進行實時記錄。這樣一來,雖然數據量變得龐大了許多,但能夠保證數據的準確性與即時性,再通過IBM創造的流計算技術進行實時分析,一旦發現異常,馬上介入搶救,大大提高了早產兒的存活率。

三、地圖——方位魔力

 

美國海軍軍官莫里(Maury)繪製的航海圖,可能是大數據在地圖領域的最早實踐之一。1839年,他因為馬車翻車導致大腿粉碎性骨折,留下殘疾,從此離開了海上生活,美國海軍任命他為圖標和儀器廠的負責人。傳統的航海大多是依靠的老船長的豐富經驗,他們大腦里有一張隱形的航線圖,每次航行還會帶回一沓厚厚的航海日誌。這些手繪的航線圖和日誌塵封在庫房裡,已經積累了數百年。莫里意識到,如果把它們整理到一起,將有可能呈現出一張全新的航海圖。他雇用了20個人來整理數據,把整個大西洋按經緯度劃分成五塊,並按月份標出溫度、風俗和風向,最後繪製出一幅標準的航海地圖。他把航海圖分發給船長們,要求以他們的航海日誌為回報,這樣他就能夠在新航海圖上添加更詳盡的數據。

2002年高德地圖成立時,電子地圖剛剛興起沒多久,現在,基於地理位置的服務(LBS)已經成為移動互聯領域的主力之一。藉助大數據的相關技術,不僅靜態的地圖服務越來越精準,動態的交通管理也開始走向智能化。

以北京為例,交通擁堵一直是個頭疼的問題,很大程度上,是因為信息技術沒有充分利用起來,早晚高峰的時候車輛都集中在主幹道和環路上,而作為毛細血管的支幹道路車輛卻比較少。高德交通信息事業部總經理董振寧告訴本刊記者,經過大數據分析發現,即便在北京最堵車的時刻,比如周五的晚高峰,也只有20%的道路發生嚴重擁堵,另外80%的道路是順暢的,甚至有的路上一輛車都見不到。如果有一套系統,能夠讓大家對全市的交通狀況實時掌握,就可以及時調整出行路線,大大節省交通時間。

傳統的實時交通監測,主要有兩種方式,一種是交通管理部門採用的固定監測法,通過架設在路上的攝像頭、埋在路面下的傳感器,來監測某一地點不同時段的交通流量。另一種是交通廣播電台採用的人海戰術,他們在全市發動了幾千個交通信息播報員,通過他們人工反饋來實時播報交通狀況。但是,這兩種方式都面臨一個問題——覆蓋率不高。現在,有了大數據,我們可以換一種思路——乾脆把車子當作一個自動的信息員。

高德地圖交通信息事業部總經理董振寧向本刊記者介紹,北京現有出租車6萬多輛,基本都裝有GPS定位設備,主要用於安防和調度,海量的行駛軌跡數據沒有充分利用起來。高德與出租公司合作,選取其中的4萬多輛,實時共享他們的行駛軌跡數據,這就意味着在北京布置了4萬多個移動的檢測器。每隔10秒鐘到1分鐘,出租車會自動把自己的位置信息發回大數據中心,大數據中心就能自動計算每條道路的實時交通流量。除此之外,高德還通過與新浪微博合作,發動網友實時上報交通事件信息,比如哪個地方發生了交通事故,哪個地方正在修路或有交通管制。只要有人在微博提及這些,大數據中心就能實時捕捉到關鍵信息,並將這些信息發布到高德地圖的客戶端上。通過基於Hadoop系統的大數據平台,把實時交通流量信息與交通事件信息、紅綠燈延時等信息整合,最後得出一個最優的交通路線,並且預測出每條路線準確的交通到達時間。

這套系統從2007年開始,到現在已經覆蓋了全國60多個城市,如果再加上社會車輛的反饋,每天會有7000萬~1億公里的行駛軌跡數據發回高德,每隔兩分鐘就能刷新一次。除了實時的數據分析,高德還需要對過去3個月的歷史交通數據進行分析,從而總結出交通擁堵的規律性,為實時預測提供指導。

海量的道路行駛軌跡數據還為地圖繪製提供了意想不到的便利。董振寧告訴本刊記者,中國地圖產業的規律是強者恆強,因為中國面積巨大,城市發展太快,地理信息變動太多,每年的地圖數據至少有30%需要更新,而在國外,這一數據一般不超過5%。如何能夠花費最少的成本迅速找出這些變動的信息並進行更新,便成為地圖製造商的核心競爭力。有了這些海量的道路行駛軌跡數據,高德就能夠做到有的放矢,比如,有一條路線上留下的車輛位置信息越來越密集,但地圖上顯示這裡並沒有路,那很可能就是一條新開的道路。“未來,地理位置的信息將像水電一樣成為一種基本的生活資源,可以跟購物、休閒、交通安全等領域進行合作,成為人們生活的一部分。”董振寧向本刊記者展望道,“而所有這些,都有賴於大數據的發展。”

四、物聯——智慧城市

20104月,巴西里約熱內盧發生了特大洪水與泥石流等自然災害,造成785人死亡,13830人被迫逃離家園。作為2014年世界盃和2016年奧運會的舉辦城市,里約熱內盧的城市安全一時陷入爭議。事後的分析報告表明,之所以會暴發如此嚴重的洪澇災害,是因為里約熱內盧的應急管理部門一直使用老式的手動報警設備,安全預警系統老化、孤立,缺少跨部門的信息共享和執行系統。城市的天氣預報系統老舊,甚至連一張宏觀的災害應急管理可視圖都沒有。

災害發生後的第二個月,里約熱內盧就邀請IBM公司對其城市管理系統進行診斷和重建。IBM公司首先對城市的運營中心進行了改造,然後把全市的報警系統、天氣預測、現有的視頻資源等信息統一整合到這個平台上,通過數據聚合,編制出一幅可視的城市運行動態地圖。接着,對全市的排水管網、道路、河流以及特殊建築進行全面統計,並在全市布置了數十萬個傳感器,與運營中心的無線系統連接,能夠實時監測市政設施的運行情況。

2008年,老牌的科技巨人IBM提出了智慧的地球戰略,其基本思路就是依靠布設無數的傳感器,能夠實時監測我們的城市運行、能源輸送、生產製造等領域。IBM新興市場部大數據中心總監王曉梅向本刊記者介紹,智慧地球依賴對大數據的處理,尤其是IBM研發的流計算技術。

2001“9·11”之後,美國聯邦政府與IBM研究院合作,希望後者能夠為美國的敏感建築研發一套實時監測系統,由此誕生了流計算技術,簡而言之,就是通過對一系列複雜事件的監測、分析,來給出最後的預警。比如,美國自由女神像旁邊的樹影發生異常變動,監測系統馬上就會給出一個判斷,看還有沒有其他異常發生,如果沒有,很可能只是一陣風吹過;如果有,比如旁邊的樹卻反方向活動,那說明不是風的原因,系統就會繼續分析,結合其他指標來給出預警指數。

依託傳感器、無線技術和流計算等大數據運行模式,未來整個城市、工廠實現無縫鏈接將會變成現實。一切取決於我們對物理世界的數據收集和分析,可以在生產線上實時監控每件產品的質量而不再依賴事後的抽樣檢查,可以在電力和石油輸送網絡上實時監控安全和完成智能分配,甚至可以讓行駛在道路上的汽車變成一個個智能的機器人,提前躲避危險。

如果說互聯網技術鏈接的是人與人,移動互聯網鏈接的是人與物,那麼未來的物聯網鏈接的就是物與物——智能家庭的夢想不再遙遠。只需要安裝一個芯片,我們的冰箱、電視、洗衣機、空調、廚房設備等家用電器就會變成一個個智能的終端,它們記錄我們日常的生活行為,並且可以進行遠程控制。比如,冰箱裡的雞蛋吃完了,你就會收到及時提醒,如果你連提醒都懶得接收的話,還可以將冰箱與你的購物網站賬號相連,這樣快遞員就會在你還沒有意識到雞蛋快吃完的時候送上門來。

五、娛樂——視頻與體育

大數據正在顛覆傳統的娛樂行業。在今年國慶節期間舉辦的中國網球公開賽上,IBM開始嘗試與賽事主辦方合作,採用一套名為SlamTracker的系統,它是一個在線儀錶板,為正在進行的每場比賽提供統計結果和信息。球迷不僅能夠實時查看每次得分,而且可以點擊比賽時間軸上的一點,以查看球員的詳細表現。

SlamTracker系統對過去7年大滿貫比賽的3900萬個數據點進行了分析,以提供選手的分析評估,以及他們如何才能贏得比賽。這套系統不僅可以幫助賽事解說員來預測比賽結果,可以幫助觀眾來了解球員的歷史表現,更重要的是,它可以成為球員和教練員手裡的一件法寶。可以想象,不久的將來,比如李娜和小威廉姆斯在決賽會師,她們打完第一局後,教練進場指導的時候會手拿着一個iPad,上面清晰顯示了對手和自己的臨場發揮,便可據此找出對手的弱點,調整戰術。大數據和雲計算在體育領域的應用已經非常廣泛。無論是美國的職業棒球隊還是歐洲的足球豪門,都開始用它們來分析球員的身體情況、個人潛能以及受傷風險。

Lytro相機則把大數據運用到了攝影中。與傳統相機只可以記錄一束光不同,Lytro相機可以記錄整個光場裡所有的光,達到1100萬束之多。用戶拍照的時候,沒有必要在一開始就聚焦,只需要輕輕按下快門,之後便可以選擇聚焦圖像中的任一焦點。

娛樂業一直是造星的夢工廠,與普通民眾保持着朦朧的距離,看似很近其實很遠。傳統的視頻播放網站,扮演的也只是一個平台角色,但是,有了大數據幫忙,未來的視頻娛樂可能要發生翻天覆地的變化。今年北美地區最熱的一部電視劇《紙牌屋》,其製作背後就有大數據的影子。

作為世界上最大的在線影片租賃服務商,Netflix在美國有2700萬訂閱用戶,在全世界則有3300萬,它比誰都清楚大家喜歡看什麼樣的電影和電視。每天用戶在Netflix上產生3000萬多個行為,比如你暫停、回放或者快進,訂閱用戶每天還會給出400萬個評分,有300萬次搜索請求,詢問劇集播放時間和設備。所有這些匯聚在一起,Netflix通過大數據分析發現,用戶很喜歡Fincher(社交網絡、七宗罪的導演),Spacey主演的片子表現都不錯,而且英劇版的《紙牌屋》很受歡迎。所以,它乾脆把三者湊在一起,製作出一部真正符合觀眾口味的電視劇,果然成為今年影視界的黑馬。

但是,《紙牌屋》對大數據的應用並不徹底,它是一口氣拍完才上映的。在國內,優酷網站也在展開大數據的收集與分析工作。優酷土豆集團的CTO姚鍵告訴本刊記者,現在每天網站上有超過5億次的播放量,用戶的每一個行為都在展現他的喜好。更關鍵的是,除了行為分析外,未來大數據還可以進行內容分析。比如用戶在觀看的時候,特意在視頻的第47分鐘到49分鐘停留回放了好幾次,那麼,這兩分鐘的內容到底有什麼特點,也許它們是一段異域風景,也許是一段浪漫的愛情表白,也許是一段賽車追逐,通過將用戶行為與觀看內容進行關聯分析,網站就能夠更精準地判斷用戶真正敏感的是什麼。“未來視頻網站不僅僅是一個播出平台,還有可能成為娛樂的製造者。”姚鍵說,“但這種製造並非一廂情願,而是真正由每個人來參與完成,人人都可以成為編劇,人人都可以成為導演,甚至,如果你願意,也可以為自己量身打造一個角色,由自己來出演。”

結語:數據會永生嗎

未來,世間萬物,一切皆可量化,一切皆為數據,這是舍恩伯格在《大數據時代》一書中的感慨。在接受本刊記者採訪的業內人士看來,安全與隱私並非大數據時代的核心問題,因為只要法律法規到位,從技術上講,“把錢存到銀行的保險柜裡總比放在家裡安全”。真正的問題是,當數據主宰一切,甚至數據自身具備了生命力,我們該怎麼辦?

令王曉梅感到困惑的一個問題是“數據有沒有繼承權?”今年夏天,錢鍾書書信被拍賣一事引起社會熱議,但是,聯想到王曉梅在美國的一個科學家朋友正在做的研究,這樣的問題在未來很可能會是另外一個面目。她告訴本刊記者,這位科學家正在嘗試一種“記錄自己”的試驗,他在自己身上貼上很多感應器,記錄身體運行數據,他隨身帶着攝像頭和錄音機,記錄下自己每天見過的人、吃過的飯、說過的話。一段時間以後,朋友向王曉梅演示,一個活生生的自己呈現在了電腦屏幕上——那個數字化的“他”可以像朋友一樣運動、說話、微笑。如果數據足夠大,甚至可以判斷出他的思考方式、個人喜好、生活習慣等等。

王曉梅設想,如果未來一個人去世了,只要他保留了足夠多的數據,完全可以模擬出一個數字化的自己——同樣的音容笑貌,同樣的思維習慣。比如在2200年的一場婚禮上,新娘子會邀請一位虛擬的太爺爺來發表一番祝詞。聽起來是不是挺可怕,但這項技術實施起來並不遙遠,或許,這才是大數據時代的真問題——數據會永生不息嗎?一切取決於你的想象力。

 


0%(0)
0%(0)
標 題 (必選項):
內 容 (選填項):
實用資訊
回國機票$360起 | 商務艙省$200 | 全球最佳航空公司出爐:海航獲五星
海外華人福利!在線看陳建斌《三叉戟》熱血歸回 豪情築夢 高清免費看 無地區限制
一周點擊熱帖 更多>>
一周回復熱帖
歷史上的今天:回復熱帖
2013: 精英們的市場化是將國家交給美帝管理
2013: 習近平在呼喚保衛社會主義的“男兒”
2012: 中國展現了人類歷史上最黑暗的一頁
2012: 理性談談薄熙來
2011: 德孤: 山雨欲來風滿樓:十分詭異的局勢
2011: 知道什麼是核輻射嗎?不是馬上人就完旦
2010: 滿嘴“民主人權”的美國特種部隊被曝掩
2010: 恐怖! 十八層地獄詳細圖解(組圖)
2009: 朝鮮的糧食短缺與飢餓
2009: 轉一好文,反美漢奸們看了會很鬱悶.