設萬維讀者為首頁 廣告服務 聯繫我們 關於萬維
簡體 繁體 手機版
分類廣告
版主:諍友
萬維讀者網 > 教育學術 > 帖子
18世紀的貝葉斯定理成為Google計算的新力量
送交者: Kanellos 2005年06月15日11:11:17 於 [教育學術] 發送悄悄話

18世紀的貝葉斯定理成為Google計算的新力量


前言


  Thomas Bayes,一位偉大的數學大師,他的理論照亮了今天的計算領域,和他的同事們不同:他認為上帝的存在可以通過方程式證明,他最重要的作品被別人發行,而他已經去世241年了。

  18世紀牧師們關於概率的理論成為應用發展的數學基礎的一部分。

  搜索巨人Google和Autonomy,一家出售信息恢復工具的公司,都使用了貝葉斯定理(Bayesian principles)為數據搜索提供近似的(但是技術上不確切)結果。研究人員還使用貝葉斯模型來判斷症狀和疾病之間的相互關係,創建個人機器人,開發能夠根據數據和經驗來決定行動的人工智能設備。

  雖然聽起來很深奧,而這個原理的意思--大致說起來--卻很簡單:某件事情發生的概率大致可以由它過去發生的頻率近似地估計出來。研究人員把這個原理應用在每件事上,從基因研究到過濾電子郵件。


  在明尼蘇達州大學的網站上能夠找到一份詳細的數學概要。而在Gametheory.net上的一個Bayes Rule xxxx程序讓你能夠回答諸如“如果你測試某種疾病,有多大風險”之類的問題。

  貝葉斯理論的一個出名的倡導者就是微軟。該公司把概率用於它的Notification Platxxxx。該技術將會被內置到微軟未來的軟件中,而且讓計算機和蜂窩電話能夠自動地過濾信息,不需要用戶幫助,自動計劃會議並且和其他人聯繫。

  如果成功的話,該技術將會導致“context server”--一種電子管家的出現,它能夠解釋人的日常生活習慣並在不斷變換的環境中組織他們的生活。

  “Bayes的研究被用於決定我應該怎樣最好地分配計算和帶寬,” Eric Horvitz表示,他是微軟研究部門Adaptive Systems & Interaction Group的高級研究員和分組管理者。“我個人相信在這個不確定的世界裡,你不能夠知道每件事,而概率論是任何智能的基礎。”

  到今年年底,Intel也將發布它自己的基於貝葉斯理論的工具包。一個關於照相機的實驗警告醫生說病人可能很快遭受痛苦。在本周晚些時候在該公司的Developer Forum(開發者論壇)上將討論這種發展。

  雖然它在今天很流行,Bayes的理論並不是一直被廣泛接受的:就在10年前,Bayes研究人員還在他們的專業上躊躇不前。但是其後,改進的數學模型,更快的計算機和實驗的有效結果增加了這種學派新的可信程度。

  “問題之一是它被過度宣傳了,” Intel微處理器實驗室的應用軟件和技術管理經理Omid Moghadam表示。“事實上,能夠處理任何事情的能力並不存在。真正的執行在過去的10年裡就發生了。”

Bayes啞元

  Bayes的理論可以粗略地被簡述成一條原則:為了預見未來,必須要看看過去。Bayes的理論表示未來某件事情發生的概率可以通過計算它過去發生的頻率來估計。一個彈起的硬幣正面朝上的概率是多少?實驗數據表明這個值是50%。

  “Bayes表示從本質上說,每件事都有不確定性,你有不同的概率類型,”斯坦佛的管理科學和工程系(Department of Management Science and Engineering at Stanford)的教授Ron Howard表示。

  例如,假設不是硬幣,一名研究人員把塑料圖釘往上拋,想要看看它釘頭朝上落地的概率有多大,或者有多少可能性是側面着地,而釘子是指向什麼方向的。形狀,成型過程中的誤差,重量分布和其他的因素都會影響該結果。

  Bayes技術的吸引力在於它的簡單性。預測完全取決於收集到的數據--獲得的數據越多,結果就越好。另一個優點在於Bayes模型能夠自我糾正,也就是說數據變化了,結果也就跟着變化。

  概率論的思想改變了人們和計算機互動的方式。“這種想法是計算機能夠更象一個幫助者而不僅僅是一個終端設備,” Peter Norvig表示。他是Google的安全質量總監。他說“你在尋找的是一些指導,而不是一個標準答案。”

  從這種轉變中,研究獲益非淺。幾年前,所謂的Boolean搜索引擎的一般使用需要把搜索按照“if, and, or but”的語法進行提交,然後去尋找匹配的詞。現在的搜索引擎採用了複雜的運算法則來搜索數據庫,並找出可能的匹配。

  如同圖釘的那個例子顯示的那樣,複雜性和對於更多數據的需要可能很快增長。由於功能強大的計算機的出現,對於把好的猜測轉變成近似的輸出所必須的結果進行控製成為可能。

  更重要的是,UCLA的Judea Pearl這樣的研究人員研究出如何讓Bayes模型能夠更好地追蹤不同的現象之間條件關係的方法,這樣能夠極大地減少計算量。

  例如,對於人口進行大規模的關於肺癌成因的調查可能會發現它是一種不太廣泛的疾病,但是如果局限在吸煙者範圍內進行調查就可能會發現一些關聯性。對於肺癌患者進行檢查能夠幫助調查清楚習慣和這種疾病之間的關係。

  “每一個單獨的屬性或者徵兆都可能取決於很多不同的事情,但是直接決定它的卻是為數不多的事情,”斯坦佛計算機科學系(computer science department at Stanford)的助理教授Daphne Koller表示。“在過去的15年左右的時間裡,人們在工具方面進行了改革,這讓你能夠描繪出大量人群的情況。”

  和其他一些項目一樣,Koller是使用概率論技術來更好地把病症和疾病聯繫起來,並把遺傳基因和特定的細胞現象聯繫起來。

記錄演講

  一項相關的技術,名為Hidden Markov模型,讓概率能夠預測次序。例如,一個演講識別應用知道經常在“q”之後的字母是“u”。除了這些,該軟件還能夠計算“Qagga”(一種滅絕了的斑馬的名稱)一詞出現的概率。

  概率技術已經內置在微軟的產品中了。Outlook Mobile Manage是一個能夠決定什麼時候往移動設備上發出一封內勤的電子郵的軟件。它是從Priorities發展而來的,Priorities是微軟在1998年公布的一個實驗系統。Windows XP的故障檢修引擎也依賴於概率計算。

  隨着該公司的Notification Platxxxx開始內置在產品中,在未來的一年中會有更多的應用軟件發布,微軟的Horvitz這樣表示。

  Notification Platxxxx的一個重要組成部分名為Coordinate,它從個人日曆,鍵盤,傳感器照相機以及其他來源收集數據,來了解某個人生活和習慣。收集的數據可能包括到達的時間,工作時間和午餐的時間長度,哪種類型的電話或電子郵件被保存,而哪些信息被刪除,在某天的特定時間裡鍵盤被使用的頻率,等等。

  這些數據可以被用來管理信息流和使用者收到的其他信息。例如,如果一位經理在下午2:40發送了一封電子郵件給一名員工,Coordinate可以檢查該員工的日曆程序,然後發現他在下午2:00有一個會議。該程序還可以掃描關於該員工習慣的數據,然後發現該員工通常會在有會議之後大約一個小時才重新使用鍵盤。該程序可能還能夠發現該名員工通常會在5分鐘之內回復該經理的電子郵件。根據上面這些數據,該軟件能夠估計出該員工可能至少在20分鐘之內不可能回復該電子郵件,該軟件可能會把這條信息發送到該員工的手提電話上。同時,該軟件可能會決定不把別人的電子郵件也轉發出去。

  “我們正在平衡以打攪你為代價所獲得信息的價值,” Horvitz表示。使用這個軟件,他堅持道,“能夠讓更多的人跟上事情的發展,而不被大量的信息所淹沒。”

  Horvitz補充道,隱私和對於這些功能的用戶控制是確定的。呼叫者並不知道為什麼一條信息可能會被優先或推遲處理。

  微軟還把Bayes模型使用在其他的一些產品上,包括DeepListener 以及Quartet (語音激活),SmartOOF 以及TimeWave (聯繫控制)。消費者多媒體軟件也獲益非淺,Horvitz表示。

  Bayes技術不僅僅被應用在PC領域。在University of Rochester,研究人員發現一個人的步伐可以在一步前發生改變。雖然這種改變對於人類來說太過於細微,一台和電腦連接在一起的照相機可以捕捉並跟蹤這種動作。如果行走異常出現,計算機就能夠發出警報。

  一個實驗用的安全照相機採用了同樣的原理:大部分到達機場的人都會在停車以後直接走向目的地,所以如果有人停了車,然後走向另一輛車就不太正常,因此就可能引發警報。今年秋天一個創建Bayes模型和技術信息的基本引擎將會公布在Intel的開發者網站上。


理論衝突

  雖然該技術聽起來簡單易懂,關於它的計算可能卻比較慢。Horvitz回憶說他是斯坦佛20世紀80年代僅有的兩個概率和人工智能的畢業生之一。其他所有的人學習的是邏輯系統,採用的是“if and then”的模式和世界互動。

  “概率論那時候不流行,” Horvitz表示。但是當邏輯系統不能夠預測所有的意外情況時,潮流發生了轉變。

  很多研究人員開始承認人類的決策過程比原來想象的要神秘的多。“在人工智能領域存在着文化偏見,” Koller表示。“人們現在承認他們並不知道他們的腦子是如何工作的。”

  即便在他的時代,Bayes發現他自己置身於主流之外。他於1702年出生於倫敦,後來他成為了一名Presbyterian minister。雖然他看到了自己的兩篇論文被發表了,他的理論很有效,但是《Essay Toward Solving a Problem in the Doctrine of Chances》卻一直到他死後的第三年,也就是1764年才被發表。

  他的王室成員身份一直是個謎,直到最近幾年,新發現的一些信件表明他私下和英格蘭其他一些思想家看法一致。

  “就我所知,他從來沒有寫下貝葉斯定理,” Howard表示。

  神學家Richard Price和法國的數學家Pierre Simon LaPlace成為了早期的支持者。該理論和後來George Boole,布爾數學之父,的理論背道而馳。George Boole的理論是基於代數邏輯的,並最終導致了二進制系統的誕生。也是皇室成員之一的Boole死於1864年。

  雖然概率的重要性不容置疑,可是關於它的應用的爭論卻沒有停止過。批評者周期性地聲稱Bayes模型依賴於主觀的數據,而讓人類去判斷答案是否正確。而概率論模型沒有完全解決在人類思維過程中存在的細微差別的問題。

  “兒童如何學習現在還不是很清楚,”IBM研究部門的科學和軟件副總裁 Alfred Spector這樣表示。他計劃把統計學方法和邏輯系統在他的Combination Hypothesis之中結合起來。“我最初相信是統計學的範疇,但是從某方面說,你將會發現不僅僅是統計學的問題。”

  但是,很有可能概率論是基礎。

  “這是個基礎,” Horvitz表示。“它被忽略了一段時間,但是它是推理的基礎。”

0%(0)
標 題 (必選項):
內 容 (選填項):
實用資訊
回國機票$360起 | 商務艙省$200 | 全球最佳航空公司出爐:海航獲五星
海外華人福利!在線看陳建斌《三叉戟》熱血歸回 豪情築夢 高清免費看 無地區限制
一周點擊熱帖 更多>>
一周回復熱帖
歷史上的今天:回復熱帖
2004: 火熱高考與大學畢業生“滯銷”
2004: “讀研究生,讓我心虛!”
2002: 華裔首次獲圖靈獎(計算機界的諾貝爾獎)
2002: 清華當有自己的自信、自負--兼論清華的