最近李世石和阿發狗的人機大戰在中文網站上被熱議。阿發狗的出色表現更是讓人始料不及。許多人因此引發出人工智能最終將征服(奴役或毀滅)人類的驚呼。
最近李世石和阿發狗的人機大戰在中文網站上被熱議。阿發狗的出色表現更是讓人始料不及。許多人因此引發出智能機器人最終將征服(奴役或毀滅)人類的驚呼。
本人對人工智能了解甚少。但根據本人的理解,智能機器人無非是在接獲各種通過傳感器外部信息數據的輸入後作出各種判斷和決策。而這種判斷和決策一定是建立在人類理性思維基礎之上的,所以也一定和決策論(包括博弈論)和決策模型有關。
大凡決策論,簡而言之通常包含兩大部分。第一個部分是所有可供決策者選擇的對策或策略的集合。第二部分是目標函數(objective
function)。它給每個對策賦予一個收益值(pay-off),從而確立了決策者的價值取向和目標。所以目標函數也稱收益函數或效用函數(utility
function)。決策論的任務是如何尋找最佳策略,使得目標函數的收益值最大化。決策者的“理性”也就在於此:他/她採取的策略有明確的目的性。這個目的性就體現在目標函數的最大化上。判斷一個人的行為是盲目的還是理性的,就在於他/她的行為是否在一定程度上符合或接近某種目標函數的最大化。如果根本找不到一個目標函數來刻劃他/她的行為,那麼我們可以稱他/她的行為是盲無目的的。說得難聽點,他/她就是個不可理喻的瘋子。
當然,每個人的價值取向很不相同。張三的目標函數不等於是李四的目標函數。張三不能因為李四的行為不符合張三自己的目標函數最大化原則,就稱李四是盲目的,或罵李四是個瘋子。反之亦然。雖然很多問題上,人們有共同的價值趨向(比如各種投資策略都是為了儘可能多的賺錢),但在其它很多社會實問題上,不能用單一的目標函數刻畫所有理性人的行為模式。
通常的決策模型中,目標函數和對策集合都是給定的。因此,剩下的就是個如何找到最佳策略這個純粹的數學計算問題。計算的難易程度拒絕於對策集合及建立在這之上的目標喊函數的複雜程度。比較具有挑戰性的計算問題是所謂的動態決策問題(dynamic
programming)。其中每個對策都分好幾個步驟, 每個步驟都會有一個動態的收益值。最後的目標函數是將所有動態的收益指綜合在一起。
但是對於象下圍棋一類的問題,自己每一步都有N種可能的走法。自己每走一步,對方又有N種可能的走法。因此博弈每一方的對策集合,雖然理論上仍是有限的,但卻是個天文數字,且又是個離散的集合。既不能用解析的方式(即連續函數)來表述,更無法用枚舉的方式,將所有對策窮盡。所以只能將以往的經驗作為整個對策集合的子集合輸入機器。從這個子集合開始,讓機器在實踐中不斷積累更多的對策及每一個對策的收益值(勝算概率),從而不斷擴充對策集合和集合上的收益值,並不斷修正收益值的估算(勝算概率)。這就是人工智能所謂的動態“學習”過程。然而,萬變不離其衷,最後仍可歸結為前文描述的決策過程。
如果你同意人工智能可以用上述決策模型來概述,那麼我想可以回答這個問題了:人工智能最終是否會奴役甚至毀滅人類?