| 伍加:新興職業:數據科學家 |
| 送交者: 伍加 2010年03月10日07:30:58 於 [教育學術] 發送悄悄話 |
|
【科學技術(3)】
新興職業:數據科學家 伍加,2010年3月10日 世界正在朝着數字化方向飛速發展:數字媒體、數字電話、數字社區、數字政府、電子病歷、虛擬世界,等等。當世界越來越數字化時,電子信息不斷增加,海量數據不斷膨脹,分析和理解數據就變得越來越重要。 世界上最大的連鎖零售企業沃爾瑪每小時處理一百多萬個客戶,每小時向它的後台服務部的數據庫存入2.5 petabytes 的信息,這相當於 167 個美國國會圖書館的藏書信息。沃爾瑪的信息主管(Chief Information Officer)Rollin Ford 說:“我每天早晨反覆問自己,我怎樣才能把這些海量信息處理好、管理好、分析好?” Facebook 存有400 億張照片,每天都有成千上萬的新照片加入進去。人類基因庫含有 30 億對基因組,針對某組基因製造出“定向”藥品已經進入試驗階段,它需要對基因庫進行快速查詢。對海量信息的處理和管理顯得日益重要,因此一種新的職業“數據科學家”會應運而生。 數字化和信息爆炸會不會帶來不良後果?信息太多了會讓人們感到無所適從;數據無所不在時會出現信息安全的問題,那些不該公布的信息會引起不良後果。比如加 州歐克蘭城市警察局辦了一個網站叫做“歐克蘭犯罪觀察”,它把奧克蘭市警察逮捕罪犯的數據全都公布出來,比如何時何地由於何種原因警察逮捕了何人,等等。根據這些歷史信息,人們發現奧克蘭警察從來不在星期三晚上掃黃打非,這就給做皮肉生意的犯罪分子有機可乘。當然,這只是並不普遍的疏漏而已。利弊相比,數字化和信息爆炸為人類生活帶來的還是利大於弊。 數據已成為企業的原材料,以數據為中心的經濟正在出現。商業智情,也稱作BI(它是英文單詞Business Intelligence的縮寫),就是利用對大量的數據進行分析、挖掘、和綜合,從而為企業決策做出有效的幫助。所以,商業智情可以算作數據科學家的工作內容之一。一些比較專業化的數據科學家也會出現,比如數據分析師、數據挖掘師、數據可視化設計師等等。 數據科學家需要有軟件工程、統計學、圖形學、數據挖掘等領域的知識。面對信息爆炸,面對海量數據,簡單的表格(spreadsheet)工具已經過時。大多數的商業應用需要根據海量數據迅速作出決策,這就需要有對各種數據進行去粗取精、去偽存真、由此及彼、由表及里的有效分析工具,因為那些海量信息可以來自於各類報表,同時也來自於各個部門的異種數據庫,還有大量的數據來自於互聯網,它們有各自不同的數據格式和存取方式。簡單地說,數據科學家需要具備三種能力,精通四門學科。這三種能力是:
目前,我們看到許多在這四門學科中某個學科的專才,將來更需要的是熟悉所有這四門學科知識的通才,這就是數據科學家。 伍加,2010年3月10日 http://blog.creaders.net/invictus/ |
|
![]() |
![]() |
| 實用資訊 | |
|
|
| 一周點擊熱帖 | 更多>> |
| 一周回復熱帖 |
| 歷史上的今天:回復熱帖 |
| 2009: | 請教本壇學物理的大俠們,核聚變能為什 | |
| 2009: | 言真輕: 外行閒聊愛因斯坦的相對論 | |
| 2008: | 佛教與科學--佛陀與科學家 | |
| 2008: | 從FELLOW到住院醫生的逆行之道 | |
| 2007: | 香港第一:閑話當年會考狀元 | |
| 2007: | ddsd:PH.D虧就虧在第一份工作都是Entr | |
| 2006: | 人類十大悲哀學科 | |
| 2006: | 哈佛校長,最令人厭煩的職位 | |
| 2005: | 正在轉變的大眾接收新聞方式 | |
| 2005: | 諾貝爾的遺憾 | |




