最近李世石和阿发狗的人机大战在中文网站上被热议。阿发狗的出色表现更是让人始料不及。许多人因此引发出人工智能最终将征服(奴役或毁灭)人类的惊呼。
最近李世石和阿发狗的人机大战在中文网站上被热议。阿发狗的出色表现更是让人始料不及。许多人因此引发出智能机器人最终将征服(奴役或毁灭)人类的惊呼。
本人对人工智能了解甚少。但根据本人的理解,智能机器人无非是在接获各种通过传感器外部信息数据的输入后作出各种判断和决策。而这种判断和决策一定是建立在人类理性思维基础之上的,所以也一定和决策论(包括博弈论)和决策模型有关。
大凡决策论,简而言之通常包含两大部分。第一个部分是所有可供决策者选择的对策或策略的集合。第二部分是目标函数(objective
function)。它给每个对策赋予一个收益值(pay-off),从而确立了决策者的价值取向和目标。所以目标函数也称收益函数或效用函数(utility
function)。决策论的任务是如何寻找最佳策略,使得目标函数的收益值最大化。决策者的“理性”也就在于此:他/她采取的策略有明确的目的性。这个目的性就体现在目标函数的最大化上。判断一个人的行为是盲目的还是理性的,就在于他/她的行为是否在一定程度上符合或接近某种目标函数的最大化。如果根本找不到一个目标函数来刻划他/她的行为,那么我们可以称他/她的行为是盲无目的的。说得难听点,他/她就是个不可理喻的疯子。
当然,每个人的价值取向很不相同。张三的目标函数不等于是李四的目标函数。张三不能因为李四的行为不符合张三自己的目标函数最大化原则,就称李四是盲目的,或骂李四是个疯子。反之亦然。虽然很多问题上,人们有共同的价值趋向(比如各种投资策略都是为了尽可能多的赚钱),但在其它很多社会实问题上,不能用单一的目标函数刻画所有理性人的行为模式。
通常的决策模型中,目标函数和对策集合都是给定的。因此,剩下的就是个如何找到最佳策略这个纯粹的数学计算问题。计算的难易程度拒绝于对策集合及建立在这之上的目标喊函数的复杂程度。比较具有挑战性的计算问题是所谓的动态决策问题(dynamic
programming)。其中每个对策都分好几个步骤, 每个步骤都会有一个动态的收益值。最后的目标函数是将所有动态的收益指综合在一起。
但是对于象下围棋一类的问题,自己每一步都有N种可能的走法。自己每走一步,对方又有N种可能的走法。因此博弈每一方的对策集合,虽然理论上仍是有限的,但却是个天文数字,且又是个离散的集合。既不能用解析的方式(即连续函数)来表述,更无法用枚举的方式,将所有对策穷尽。所以只能将以往的经验作为整个对策集合的子集合输入机器。从这个子集合开始,让机器在实践中不断积累更多的对策及每一个对策的收益值(胜算概率),从而不断扩充对策集合和集合上的收益值,并不断修正收益值的估算(胜算概率)。这就是人工智能所谓的动态“学习”过程。然而,万变不离其衷,最后仍可归结为前文描述的决策过程。
如果你同意人工智能可以用上述决策模型来概述,那么我想可以回答这个问题了:人工智能最终是否会奴役甚至毁灭人类?