| 伍加:NETFLIX 百萬大獎的故事(2) |
| 送交者: 伍加 2011年05月01日05:15:21 於 [教育學術] 發送悄悄話 |
|
【科學技術(8)】
NETFLIX 百萬大獎的故事(2)
伍加,2011年5月1日,周日
也許你會問:改進一個算法怎麼會需要漫長的三年時間? 當時參賽的多數選手也是這麼問的。當 NETFLIX 最初宣布了競賽規則之後,許多人認為這個問題並不難,答案就像是掛在一棵矮樹上的果子,似乎伸手可得。開賽後的幾個月裡,就有參賽者把原有的 Cinematch 算法準確性提高了 5%。比賽進行一年多時,最好的答案已經非常接近 9%。可是事實證明,那最後的 1% 才是真正的攻堅戰。 獲獎團隊的名字叫 BPC (BellKor's Pragmatic Chaos),它由原本是競爭對手的三個團隊重新組團而成,其中的七個成員分別來自奧地利、加拿大、以色列和美國,他們的職業身份分別是電腦工程師、統計 學家和人工智能專家。這七個人原來分屬的三個參賽團隊都是曾經保持最好成績的頂尖團隊,他們的重新組合使得 BPC 的實力大增,如虎添翼。但是,直到最後參加頒獎儀式時,這七個成員在領獎台上才是第一次真正面對面握手相見。原來他們是通過互聯網來進行合作的,這裡又一 次顯示了互聯網的好處;這種跨學科、跨組織的異地合作標誌着今後高效科研的方向,互聯網成為科研突破的重要工具;組建國際團隊、實行虛擬合作也成為科學工 作者的必備能力。 獲獎團隊 BPC 中有兩位來自於 AT&T 實驗室,名叫 Chris Volinsky 和 Robert Bell。 Chris 是分管 AT&T 研發的執行總管,他們參加這項為期三年的 NETFLIX 百萬大獎賽利用了他們的工作時間,因此他們所獲的獎金歸 AT&T 所有,這就是所謂的 “Work for hire” 的成果。最後,AT&T 把這筆獎金捐給了當地的教育慈善機構和中小學,以鼓勵青少年從事科學、技術、工程、數學(STEM)方面的學習和工作。 有趣的是,BPC 團隊最終險勝了另一個參賽團隊叫 The Ensemble,這個團隊也是由幾個名列前茅的前參賽團隊重新組合而成的新團隊。根據比賽規則,各個團隊的得分精確到小數點後第四位,我們來看看這兩個參賽小組的最後得分: The Ensemble 的 RMSE 測試分數: 0.856714,對 Cinematch 算法的改進: 10.06% Bellkor's Pragmatic Chaos 的 RMSE 測試分數: 0.856704,對 Cinematch 算法的改進: 10.06% 我們在後面再討論什麼是 RMSE 測試分數,僅就最終結果看,兩個小組都達到並超過了 NETFLIX 的比賽目標,對原有算法的改進都超過了 10%。遺憾的是,The Ensemble 小組在提交最後結果時比 BPC 小組晚了二十分鐘。“時間就是金錢”在這裡有了絕妙的註解,儘管這兩個團隊的算法效率非常接近,因為 The Ensemble 小組晚了二十分鐘,他們就與獎金無緣,只能望洋興嘆。 在總結這次賽事時,NETFLIX 的首席執行官哈庭斯說:“我們經歷了一次非常激烈的比賽,參賽團隊開始時候獨立作戰,後來協同作戰,終於將影片推薦效率提高到了 10% 以上。在接近比賽截止日期時,還有新的參賽作品不斷快速地提交上來,讓整個比賽過程變得非常曲折和驚心動魄。”要知道,把這個算法的預測效率提高10%以 上可不是一件輕而易舉的事,這個效率目標是 NETFLIX 的科學家們在過去的十年裡面都沒有辦法逾越的瓶頸。 隨着一百萬美金大獎的頒發,NETFLIX 很快宣布了第二個百萬美金大獎。 第一個百萬大獎成功地解決了一個巨大的挑戰,為已有評級的觀眾準確地預測了他們的口味和對新影片的喜好。第二個百萬大獎的目標是,為那些不經常做影片評級或 者根本不做評級的顧客推薦影片,這就要求使用一些隱藏着觀眾口味的地理數據和行為數據來進行預測。如果能解決這個問題,NETFLIX 就能夠很快向新客戶推薦影片,而不需要等待客戶提供大量的評級數據後才能做出推薦。新的比賽用數據集有一億條數據,包括評級數據,顧客年齡,性別,居住地 區郵編,和以前觀看過的影片等信息。 儘管所有的數據都是匿名的,沒有辦法把這些數據直接關聯到 NETFLIX 的任何一位顧客,但是把顧客的年齡、性別、居住地郵編等信息公開讓許多人感到不安。美國聯邦政府交易委員會開始關注這項大賽對顧客隱私的損害,有一家律師 事務所也代表客戶遞交了對NETFLIX的訴狀。為了防止官司纏身,NETFLIX 在 2010 年 3 月宣布取消了第二個百萬美金大獎賽。 伍加,2011年5月1日,周日
http://blog.creaders.net/invictus/
|
|
![]() |
![]() |
| 實用資訊 | |
|
|
| 一周點擊熱帖 | 更多>> |
| 一周回復熱帖 |
| 歷史上的今天:回復熱帖 |
| 2010: | 王立山毀於中國人通病:自卑 | |
| 2010: | twocentsworth:英語發音網上學 | |
| 2009: | 空軍大院: 紀念54運動90周年:中國知識 | |
| 2009: | to xpt: english is tumbling u! | |
| 2007: | 再談方舟子“美國眼科科學院” | |
| 2007: | 方舟子真的輸了,輸在心胸狹隘和輕浮淺 | |
| 2006: | 袁隆平為什麼不是中國科學院院士? | |
| 2006: | 從院士評選,看大湖區的幾個主要學校 | |




