《纳什均衡与博弈论》

下载本书

添加书签

纳什均衡与博弈论- 第6部分


按键盘上方向键 ← 或 → 可快速上下翻页,按键盘上的 Enter 键可回到本书目录页,按键盘上方向键 ↑ 可回到本页顶部!

  不过,问题并没这么简单,关于效用还有一个重要的方面是冯·诺依曼和摩根斯特恩不得不讨论的。首先,是否能够用数值的方法定义效用,以使它更易符合数学理论?(伯努利曾提出一种计算效用的方法,但是他没有尝试证明这个概念可以为做理性抉择提供可靠一致的基础)。只要效用可以用数值的概念来体现,金钱(显然是数值的)绝对是对效用的复杂概念的一个很好的替代。既然这样,他们要解决的问题就转化为证明效用可以用一种严格的数学的方式定义。这意味着确认原理,从其中,效用的表达可以被推导出,并能得到量化。

  正如事后证明的那样,效用可以量化,使用的方法和物理学家用来建立有关温度的严密的科学定义的方法并无差异。毕竟,效用和温度的原始表述是近似的。效用,或者说优先选择,可以被看作是排序,如果你认为A优于B,B优于C,当然也就认为A优于C了。但是,要想用数字来表示A优于B多少,B优于C多少,就不那么容易了。这曾经与热力学极为相似——在热力学发展起来之前,我们能做的是比较两个物体的冷热,但并无必要说出相差多少,当然这也不精确。但是现在,基于热力学原理的绝对温度值给予温度一个精确量化的意义。冯·诺依曼和摩根斯特恩说明了如何类似地将排序转换为对效用的数值上的精确衡量。

  这种方法的本质可以从“大家来交易”(let's make a deal)这个游戏的改进版中看出来[年轻的读者可能对此不熟,这是名噪一时的电视游戏秀,在这个游戏里,主持人芒太·霍尔(Monty Hall)会给游戏选手一个交换他们手中奖品的机会,当然,交换的结果可能是更有价值的东西,但是也得冒着得到一个不值钱小礼物的风险]。假设,芒太给你3个选择:一部宝马敞篷车,一台高端宽屏等离子电视,或者是一辆二手三轮车。我们认为你最想要宝马,其次是电视机,最后是三轮车。在这种情况下对这3种产品的相对效用进行排序是很容易的。难的是怎么抉择,你的选择会得到那台等离子电视,或者50%的机会得到宝马。也就是说,已知电视机在1号门后,宝马则在2号或3号门的后面,另一个后面就是那辆三轮车了。

  这样你就得好好想想了。如果选择1号门,那就意味着你认为电视机的价值比一半宝马的高,但是假设游戏更加复杂,有更多的门,并且获得宝马的机会变成60%甚至70%,怎么办?在某一点,你将可能想去选择获得宝马的机会,这时,你就可以得出结论:效用在数值上是相等的。也就是说,对于你而言,等离子电视机价值等于宝马的75%(为了技术上的精确,还要加上三轮车的25%)。由此,我们得出结论:如果要给“效用”一个数值的价值,就不得不武断地给一种选择赋值,这样一来,利用“大家来交易”里概率的思想,就可以拿这个给定数值的选择和其他选择相比较了。

  到此为止,一切看起来都显得如此合理。但是,还有一个问题:在社会经济中,问题不仅仅是你个人的效用,你必须考虑其他人的选择。在小规模的“盖里甘岛”经济中,纯粹的战略选择可能会被诸如部分游戏参与者之间的联合这样的因素破坏。如何解决呢?热力学理论再一次为我们提供了帮助。

  温度是对分子运动快慢的衡量,总体而言,描述单个分子的速度就像计算鲁宾逊·克鲁索的效用一样简单。但是对于“盖里甘岛”,就变得很困难了,这就像热力学中,要想计算较少数目的相互作用的分子的速度实际上是不可能的。但是如果计算的是亿万以上的分子,情况又不一样了,此时分子间的相互作用趋于平均,利用热力学理论就可以对温度做出精确的预测(当然,这背后的数学是统计力学,在之后关于博弈论经历的章节中,将会看到它更为重要的作用)。

  冯·诺依曼和摩根斯特恩指出:“大数目通常要比小规模的数目更容易处理”。这也正是阿西莫夫(Asimov)在《心灵历史学家》中提出的观点,他认为:对于数目庞大的问题,尽管不能监测每个分子个体,但能预测它们的整体行为,这正是测量气体温度时所使用的方法。这种情况下,可以测量和所有分子的平均速度相关的某个数值,这个数值能反映单个分子之间是如何相互作用的。那么,为什么不能用同样的办法来处理人与人之间的问题呢?哈瑞·塞尔登(Hari Seldon)想到了这一点。对于一个规模足够大的经济,这个方法是适用的。“当参与者的数目变得尤为庞大时,”冯·诺依曼和摩根斯特恩写道,“每个参与者个体的影响就有可能可以忽略不计。”

  借助在书的开端对“效用”建立的坚实的基础,通过将金钱作为对效用的衡量,两位作者后面的工作就进展得很快了。书的主体也就投入了探讨如何寻找获得最多金钱的最佳策略的问题上面。

  基于这一点,一个很重要的问题需要弄明白,那就是书中的策略究竟指的是什么。在博弈论中,策略是一种特定的行为过程,而不是游戏中的一般玩法。例如,这和打网球不同,网球中,策略仅仅指“主动进攻”和“保守打法”。博弈论中的策略是对可能出现的种种情况所做出的一系列的选择。在网球比赛中,你的战略可能是“当对手发球时绝不冲到网前;无论比赛时是平局还是领先都要尽力发球和截球;落后时一定要呆在后场”。当然对其他情况你还有其他的应对策略。

  博弈论中有关策略的另外一个关键点是——“单纯策略”与“混合策略”的区别。在网球赛中,你可能会在每次发球后迅速地冲到网前(这是一个单纯策略),你也可能每3次发球中有一次冲到网前,另两次守在底线(这就是混合策略)。通常,要想让博弈论发挥作用,混合策略是不可或缺的。

  对于任何一件事情,问题不在于是否总存在一种好的普遍适用的策略,而是是否存在涵盖所有可能情况的策略行为的一系列最优的准则。事实上,对于二人零和博弈,答案是肯定的。利用冯·诺依曼1928年发表的论文中的最小最大化原理,一定可以找到这种最佳策略。他的关于这个原理的证明是出了名的复杂。但是其本质精华可以被提炼为简单易记的道理:打扑克时,虚张声势不可避免。

  第六节 掌握最小最大化原理

  在二人零和博弈中使用最小最大化原理的奥秘在于,你要铭记,一方赢得什么,另一方就失去什么(这正是零和的定义)。所以,你的策略就是尽可能使自己的收益最大化,这必将使对手的收益最小化。不过,显然你的对手也会这么想。

  当然,由于游戏的原因,很可能不论你玩得多好,最后什么也赢不到。游戏的规则和风险常常是先出招的人获胜,如果你第二个出招,你就输惨了。而且,某些策略可能会导致输得更多,这样一来,你就应当尽量最小化对手的收益(和你的损失)。问题是,采取什么样的策略可以达到这样的效果呢?是不是每次都应该坚守这种策略呢?

  事实证明,在有些博弈中,你的确可能找得到一种纯策略,在这种策略下,不论对手采取什么行动,它都能使你的收益最大化(或损失最小化)。显然,你将使用这个策略,并且如果游戏重复,你将每次重复使用相同的策略。但是有时,受游戏规则的影响,你的最佳选择与对手的选择有关,而你又可能不知道对手的选择,这正是博弈论所感兴趣的。

  首先,我们来看一个简单的例子。假设鲍勃欠爱丽丝10美元,他提议玩个游戏,如果他赢了,他欠的债将被减免(在现实社会中,爱丽丝会要求鲍勃花费多于10美元的代价去郊游野餐来抵消)。但是我们的目的是阐述博弈论思想,假设爱丽丝同意了这笔交易。

  鲍勃建议游戏这么玩:他和爱丽丝在图书馆见面,如果他先到,就付爱丽丝4美元,如果爱丽丝先到,就付爱丽丝6美元,如果两人同时到,鲍勃付5美元(正如我之前说过的,爱丽丝肯定会让他再加大数目的)。

  现在,假设两人住在一起,或者至少是邻居。两人都有两种策略到达图书馆:走路或者乘公共汽车(假设两人都很穷,都没有车,这也是鲍勃会为这10美元折腾的原因)。两人都知道公共汽车会比走路快。因而,这场游戏很简单了,两人都会选择坐公共汽车,这样两人最后同时到达,鲍勃给爱丽丝5美元。下面讲的就是博弈论中的收益矩阵,告诉人们如何选取策略。下表中的数字代表左边一栏中的局中人(爱丽丝)的收益。

  注:在零和博弈中,收益矩阵中的数字代表矩阵左方的局中人(本例中的爱丽丝)的收益(因为是零和博弈,当然也就代表了矩阵上方的局中人鲍勃的损失了)。如果是负数,说明矩阵上方的局中人获得收益(也就意味着爱丽丝的损失)。在非零和博弈中,每一个矩阵单元包含两个数字,分别对应每个局中人(如果局中人更多,那么矩阵将很难写出)。

  显然,爱丽丝必须选择乘公共汽车,因为无论鲍勃如何选择,这至少等同于,甚至高于走路的收益。而鲍勃也会选择乘车,因为不管爱丽丝怎么做,这都会使他的损失最小。选择走路最多有可能出现一样的结果,但也有可能更糟。

  当然,这个例子太简单了,完全用不着博弈论。下面来看一个来自真实的世界战争的例子——博弈论教材的经典案例之一。

  在第二次世界大战中,乔治·肯尼将军得知日军将向新几内亚岛派遣一支补给护航舰队。盟军自然想炸沉这支舰队。但这支舰队可能有两条可行路线——一条到达新不列颠的北边,一条到达南边。

  每条路线都需要3天的行程,所以,原则上说,盟军有3天的袭击敌军的时间。但是,天气影响不可排除。据天气预报,如果走北边路线,会有1天的阴雨天气,使袭击时间最多为2天;而南边路线一直是晴天,为3天时间的轰炸提供清晰的能见度。肯尼将军必须做出选择,是将侦察飞行队派往北边还是南边。如果选择南边,而敌军舰队却走北边的话,他就少了1天的袭击时间(而可行的袭击时间也仅有2天)。如果侦察队去了北边,在敌军舰队走南边的情况下仍然还有2天的袭击时间。

  经过分析,得出收益矩阵。如下表,表中数字代表盟军的收益,即袭击的天数。

  如果只是从盟军的角度来看这个矩阵,并不能一眼看出采取了什么策略。但是从日军的角度出发,很容易得出走北边路线是唯一有意义的方案。如果日军舰队选择南边路线,至少要受到两天的袭击,甚至三天;但是如果选择北边,则最多受到两天袭击(有可能只有一天),这样和选择南边一样或者更好,而不会更差。肯尼将军因此可以肯定日军会让护送舰队走北线,这样一来,盟军当然只能派侦察飞行队也走北线了(事实上,日军最后的确走了北线,在盟军的炮轰下损失惨重)。

  当然,合适的策略并不总是显而易见的。我们重新回到爱丽丝和鲍勃的例子,看看如果爱丽丝拒绝玩鲍勃的这个愚蠢的游戏,会发生什么。在知道如果玩鲍勃的游戏则无论如何也拿不回她的10美元时,爱丽丝会提出另一种玩法,这可让鲍勃费尽脑筋想策略了。

  在爱丽丝的游戏里,他们连续在一个月里每个工作日去图书馆一次。如果两人都是乘车去的,那么鲍勃付爱丽丝3美元;两人都走路去,则付4美元。鲍勃乘车而爱丽丝走路去,因而爱丽丝后到,鲍勃付5美元;鲍勃走路而爱丽丝乘车,因而爱丽丝先到的话,鲍勃付6美元。是不是被搞糊涂了?不要紧,鲍勃也被搞糊涂了。看看下面的收益矩阵吧:

  鲍勃很快就意识到,这个游戏可不简单。如果他乘车去,则只需要付3美元,但是爱丽丝意识到这点后,就会走路去,这样鲍勃就得付5美元了。这样一来,鲍勃可能会决定走路去,因为这样一来,就有可能只付4美元了。可是爱丽丝也会算到这一点,这样她就会乘车,这样的话鲍勃可就得付6美元了。鲍勃和爱丽丝都不知道对方会怎么走,因而也就没有明显的“最佳”战略了。

  不过,要记住这点,爱丽丝有要求这个游戏要重复的进行,总共20次,但并没有哪条规则说你必须每次都采取同样的策略(这就是纯策略了——永远不会改变的策略)。相反的,爱丽丝会意识到她应当采取混合策略,也就是说她会有时乘车,有时走路,这样就能让鲍勃猜不透了。当然鲍勃也会这样做,采取混合策略,让爱丽丝来猜他。

  这其实就是冯·诺依曼天才见解的本质核心内容。在二人零和博弈中,你总是能找得到一种最佳策略,而在很多情况下,最佳策略即混合策略。

  在这个特定的例子里,很容易得出爱丽丝和鲍勃的各自的最佳策略。记住,混合策略是一系列纯策略的混合,每一个纯策略被采用的百分比是特定的(或者说,有一个特定的概率)。因此鲍勃想要计算出选择走路和乘车的策略的比例,图书馆的一本古老的有关博弈论的书帮了他的忙。按照书中的理论,他会将爱丽丝选择走路时他采取每种策略的收益(也就是矩阵的第一行)和爱丽丝乘车时的收益(也就是第二行)进行比较,也就是从第一行中减去第二行(结果是…2和2,不过这里的负号无关紧要)。这两个数字决定了鲍勃选择两种策略的比例——2∶2,或者说50∶50(要注意了,这里第二列的数决定采取第一种策略的比例值,第一列的数决定第二种策略的比例值,只是在这个特殊的例子中两个数值是相同)。对于爱丽丝,就要用第一列减去第二列,得到…3和1(这里负号没有影响),因此她应该采取第二种策略(走路)是第一种策略(乘车)的3倍。

  结果即为:爱丽丝应当在1/4的时间里乘车,另外的3/4的时间里走路,而鲍勃则应当

小提示:按 回车 [Enter] 键 返回书目,按 ← 键 返回上一页, 按 → 键 进入下一页。 赞一下 添加书签加入书架