| 伍加:NETFLIX 百萬大獎的故事(3) |
| 送交者: 伍加 2011年05月03日04:02:24 於 [教育學術] 發送悄悄話 |
|
【科學技術(8)】 NETFLIX 百萬大獎的故事(3)
伍加,2011年5月3日,周二
獲勝的團隊的名字叫 Bellkor's Pragmatic Chaos,這個名字其實是由三個領先團隊組合起來的:第一個是來自 AT&T 統計研究部的 BellKor,第二個是來自加拿大蒙特利爾的 Pragmatic Theory,第三個是來自於奧地利的 BigChaos。這種最優合併的方法也出現在其它參賽的團隊裡,比如這次競賽的第二名 The Ensemle 團隊就有三十幾名成員,他們都是在前期比賽階段獲得較好成績的選手,後來自願重新組合,最終在競賽中脫穎而出。 每一位參賽者都有自己的強項和弱項,團隊重組可以使參賽者之間取長補短,優化合作。這種優勢互補的方法也適用於不同算法之間的合併,事實上,探討優秀算法之間的強強結合已經成為一個很活躍的研究方向。 NETFLIX 在這次大賽中使用兩組數據:第一組數據是用戶對電影的評的歷史數據,它有 100480507 條,這是由 480189 名用戶從 1999 年到 2005 年這六年間對 17770 部電影的評級數據,這組數據是用來讓參賽者進行數據挖掘和數據分析的,如下圖中的綠色左段所示。這組數據是公開數據,參賽者根據對這種數據的分析、挖掘研 究而建立自己的模型和算法,並用這組數據對該算法進行訓練和修正。 第二組數據被用來測試算法的可靠性和精確性,這組數據不對參賽者公開,只被裁判用來測試參賽者的算法效果。裁判們用來評判算法優劣的標準是均方根誤差 RMSE (root mean squared error),它是誤差平均數的平方根,用來表明實際觀測值和預測值之間的平均誤差水平,其計算公式如下: 獲勝團隊 BPC 的算法的高明之處在於考察了用戶評級數據中的時間和“頻率”,用戶在為影片打分時往往帶有情緒影響,而情緒是與時間有關的。另外,用戶的口味也許隨着時間 的變化而變化;對比一位用戶五年之前的打分和他最近的打分,肯定他最近的打分更為準確地反映了他當前的好惡標準,在決定他明天可能喜好哪些電影時所起的作 用更大。於是 BPC 團隊就研究用戶評分的結果與他們打分的時間以及頻率之間的關係,建立了相關性模型。比如用戶在周一和周五在打分時所用的標準有差異,有些用戶在周日的情緒 最好,這時所打的分數比平時偏高。通過這樣的分析,他們能更精確地發現用戶對電影的喜好口味,進而對他們打分的規律預測得更為準確。下面的公式就是 BPC 算法中的核心部分: 實際的算法帶有幾個控制常數,需要在運行過程中精細調整,以便得出最佳的 RMSE 結果。要詳細解釋這個算法需要許多數學準備知識,這裡就不贅述了。NETFLIX 的產品總監杭特博士解釋了這個算法的重要性,他說,“成功地預測客戶分別喜歡哪些影片是我們服務中一個非常關鍵的環節。個性化推薦的極端的例子是你進入了 一間有 10 萬部影片的商店,那些你最感興趣的影片馬上就能在你的面前排成了一排,讓你儘快地發現自己要看的影片。我們用預測模型來為顧客推薦影片,相信我們的顧客一 定會非常享受這項服務”。 互聯網絡正從一個“搜索知識”的 時代進入一個“發現知識”的時代,推薦引擎無所不在。它能為你推薦看什麼電影,讀什麼文章,聽什麼音樂,買什麼商品等等。搜索引擎需要一個龐大的數據庫和 快速搜索算法,推薦引擎需要有一個精確的用戶模型和預測決策算法;搜索引擎注重於數據,推薦引擎側重於知識;兩者相比,開發推薦引擎的難度更高。 隨着算法的不斷改進,推薦技術越來越普遍地應用,計算機會不會越來越多地介入我們的日常生活,甚至於控制人類?在現實生活中,有時候我們並不十分清楚自己是 否肯定需要某個東西,或者不完全清楚自己的具體需求,在這樣的時候,計算機就像一位善解人意的私人秘書一樣幫助你做些推薦,這是很不錯的進步。當然像推薦 引擎這樣的技術應用如果過於泛濫,無孔不入,當人們過於依賴於機器的時候,它對人類生活的副作用也不容忽視。 伍加,2011年5月3日,周二
http://blog.creaders.net/invictus/
|
|
![]() |
![]() |
| 實用資訊 | |
|
|
| 一周點擊熱帖 | 更多>> |
| 一周回復熱帖 |
| 歷史上的今天:回復熱帖 |
| 2010: | DNA,靈魂(或者說是鬼魂),輪迴,在人 | |
| 2010: | 中共包庇鑽人頭骨喝人腦漿的柬共,如同 | |
| 2009: | 俺說兩句“民主自由” | |
| 2009: | 有人說我支持專制反民主,從某種意義上 | |
| 2008: | 遭遇美國教育[一] (1) | |
| 2008: | 遭遇美國教育[一] (2) | |
| 2007: | 從雙胞胎分析看如何閱讀科研文獻 | |
| 2007: | 中國文化的病根 – 給國學熱潑潑冷水 | |
| 2006: | 中國年青學者造假是普遍性的問題 | |




