互惠的博弈分析 互惠的博弈分析

互惠的博弈分析

  • 期刊名字:制度经济学研究
  • 文件大小:379kb
  • 论文作者:罗伯特·萨金,皮建才
  • 作者单位:东英格兰大学经济学,南京大学经济学院
  • 更新时间:2020-09-25
  • 下载次数:
论文简介

互惠的博弈分析'0罗伯特.萨金”皮建才律”.[摘要]本文从博弈论的角度分析了互惠的形成以及形成互惠的稳定均衡策略。[关键词]互惠囚徒困境扩展博弈针锋相对勇敢互惠谨慎互惠中图分类号: F063.1 文 献标识码: A-、囚徒困境假设你是一个美国的学者,我是一个英国的学者。我们互访彼此的大学,并且我们互换住处。因为遇到了一群很爱热闹的美国人,所以我打算在我返回英国之前举行-个晚会。我知道这将会把你的房子搞得乱七八糟一烟头烧坏椅子,啤酒弄脏地毯,但是这在很大程度上与我无关,因为我以后再也用不着忍受这些乱七八糟的东西。与此同时,你遇到了-群不紧不忙的英国人,所以你也打算在离开之前为他们举行-一个晚会.......假设不管每个聚会造成什么样的破坏,求助法律都是不可能的。你不会因为毁坏地毯而被引渡。假设- -旦我们的互访结束,不管是我们还是我们的●本文译自罗伯特.萨金( Robert Sugden) 的著作《权利、合作与福利的经济学》 (The Eco-nomics of Rights, Cooperation and Welfare) 第6章,翻译时把标题“互惠”改成了“互惠的博弈分析",摘要和关键词为泽者所加。本文在翻译时得到了韦森教授的指导。作者罗伯特.萨金( Robert Sugden),东英格兰大学经济学教授( Profesor of Economics, Uni-versity of East Anglia)。中国煤化工...译者:皮建才,博士后,南京大学经济学院教师;IYHCNMHG:学商学院安中大楼281信箱(210093); E-mail: jiancaipi@ hotnail om。●212●互惠的博弈分析机构都不会有任何彼此之间的交往。这样的话,我们正在进行的就是-一次性的博弈:交访博弈( the exchange -visit game)。我们每个人都可以从两个策略中选择- -个:或者进行聚会,或者不进行聚会。从我的观点来看,我将把我们都进行聚会的事态当做已知数,并且赋予这个结果零效用。这样- -来,“不进行聚会”将会给采取这种行动的人带来成本,却给另-方带来了好处。用c代表当我不进行聚会时损失的效用,用b代表当你不进行聚会时我得到的效用。对我来说最坏的结果就是我没有进行聚会但你却进行了聚会,这个结果对我的效用是-c。对我来说最好的结果就是我进行了聚会而你却没有进行聚会,这个结果对我的效用是b。如果我们都不进行聚会,我得到的效用是b-c。不用多说,b和c都是正的。我将设定b>c:相对于我们都进行聚会我更加喜欢我们都不进行聚会的结果。现在假设博弈从你的观点来看和从我的观点来看是一样的,那么(暂时不考虑标识性非对称)我们得到的对称博弈如图1所示。对手的策略合作不合作(不进行聚会) (进行聚会)(不进行聚会)b-e参与人的策略(进行聚会)b0注意: b>c>0且π>c/b。图1交访博弈 .当然,这个博弈就是著名的囚徒困境博弈的一个版本。在囚徒困境博弈中,每个参与人都可以选择两个策略(合作和不合作)中的一个。对每个参与人而言,最坏的结果是他合作而他的对手不合作。第二坏的结果是他们都不合作。比这更好的结果是他们都合作。但是对每个参与人而言,所有结果中最好的结果是他不合作然而他的对手合作。在交访博弈中进行聚会是不合作策略,而不进行聚会则是合作策略。我赋予了交访博弈结果的效用值,用以保证我的博弈结构和囚徒困境的博弈结构一样。现在想象- -一个学术社区的世界,其中每个人和其他人进行重复但不匿名的交访博弈。因此,总体上每个人积累了博弈的经验,但是并不是关于特定对手的行为的经验。这样,博弈的分析非常简单。这里仅仅有一个均衡策略,即纯策略“不合作”(进行聚会)。并且,这个均衡是稳定的。注意到“不合作”是唯-一的最好回应( best reply), 不仅对这个策略自身而言而且对所有的策略而言,不管是纯的策略还是混合的策略.都是这样。用常识性的话说,我做的任何事情都不能中国煤化工进行聚会,由于直到你回家时你才会知道我做了什么MHCNMHG最好也。 213.制度经济学研究进行聚会。而且,如果你不进行聚会,那么无论如何我仍然最好利用你的好品性进行聚会。因为“不合作”是一个占优策略,所以不管参与人认识到博弈是对称的还是非对称的都无关紧要。不管我的角色是什么也不管我期望你做什么,对我来说不合作总是最好。描述这个结果的一种方式是考虑-一个互利交易的机会一我们都想要达成不进行聚会的协议一-但 是我们不可能利用这个机会,因为尽管我们能够达成协议,但我们却不能实施这些协议。(我们每个人可能许诺照看对方的房子,但是我们每个人都有违背诺言的激励)我们还有类似问题的另一个例子。我把它叫做交易博弈(thetradinggame)。假设你从一个远方集邮的亲戚那里继承了一些稀有的邮票。你对这些邮票不感兴趣,从务实的角度出发打算卖掉它们。你在杂志上做了广告,并且接到了一个集邮者的电话,他给你开价50英镑。你接受了。现在你必须决定如何安排邮票和金钱的交换。集邮者住的地方远在300英里,因此碰面是不实际的。你建议他邮寄给你50英镑现金,你-收到这些钱就马上把邮票邮寄过去。这样的话你就可以防止他骗走你的邮票。他回应了一个相反的建议:你把邮票邮寄给他,他-收到邮票就马上把钱邮寄给你。这样的话他就可以安全了。很明显,你的位置和他的位置是彼此对称的,你们不可能都是安全的。因此最后你同意一个对称的解决方案。 你许诺直接寄邮票,他许诺直接寄钱。他会遵守诺言吗?你会吗?这个博弈和交访博弈有相同的结构:遵守诺言是合作的策略,而违背诺言则是不合作的策略。我们将再一次(假设进行重复的匿名博弈)得到唯一-的稳定均衡,在这个均衡中所有的人总是不合作,尽管每个人都可以从交易中获利,但是没有人交易。下面是最后-一个例子,是由休谟( Hume)给出的:你的庄稼今天熟,我的庄稼明天熟。我今天和你-起劳动并且你明天帮助我,对我们来说是有利的。我不会对你仁慈,也知道你不会对我仁慈。因此,我不会不辞辛苦地帮你收割你的庄稼;并且如果我和你--起劳动来收割你的庄稼,我知道在期望回报方面我会失望,我只能徒然依靠你的感激。结果自然就是我不帮你,你也不帮我。季节轮回,我们每个人都失去自己的收获,因为我们缺乏相互间的信任和保证。这个博弈和前面两个博弈稍微有些不同,在休谟的博弈中参与人轮流选择(而不是同时选择)合作还是不合作。但是这个区别并不显著;充分分析休谟的博弈我们就可以发现唯一的稳定均衡( 假设为重复匿名博弈)是谁都不帮谁。实际上,那正是休谟自中国煤化芏俗地表口日址山达出来。YHCNMHG●214.互惠的博弈分析二、扩展囚徒困境博弈中的互惠我在第- -部分考虑的博弈都是匿名的。在匿名情形下,守诺是不可能获得益处的。在-一次博弈中如果你违背诺言,被你欺骗的人并没有办法采取报复行动,因为我们假设他下一次不会遇到你一或 者即使他遇到你也不会认出你。并且,因为我们另外假设你的对手从来就不知道你在以前的博弈中表现如何,所以也就没有办法为你遵守诺言建立声誉。现在我将要考虑的是,如果参与人有机会下次见面,那么交访博弈或囚徒困境博弈将会发生什么情况。我将通过分析囚徒困境博弈的扩展彤式来做到这-一点。扩展博弈由同样两个个体的一- 系列回合构成,每一个回合从它自身的角度来看都是-一个简单的博弈,其中每个个体从他可以选择的策略或行动中进行选择。我将分析这样的扩展博弈,每个回合采取如图1所示的形式,也就是说,博弈由交访博弈的重复行动构成(交访博弈无疑是囚徒困境博弈的-一个例子)。扩展博弈的每一回合之后都有π的可能性结束博弈,否则,就进行另一个回合。因此博弈不会永远持续下去,但是不存在这样-一个阶段,该阶段的参与人知道他们正在进行最后一次见面。我认为,这就是人类交互作用的方式。现在我们可以运用通常的均衡和稳定性概念来分析扩展博弈。这种分析的主要困难是存在大量的可能策略。--个策略就是进行整个扩展博弈的一个计划。由于一一个策略会使得参与人在-一个回合中采取的行动依赖于他的对手在以前的回合中采取的行动,所以可能的策略的数量会随着可能进行的回合的数量而爆炸性地增长。如果囚徒困境博弈仅进行- -回合,那么每个参与人只有两个可能的策略。如果进行两个回合,就有8个可能的策略;如果进行三个回合,就有128个策略;如果进行四个回合,就有2"或32 768个策略;如果进行五个回合,就有2"或大约2150 000 000个策略!当然,我分析的扩展博弈并没有对可能进行的回合数设限。启动分析非常复杂的博弈的一种方式就是仅考虑-些相当简单的策略。然而,在做这件事情之前,我将对π的值作出重要的假设。贯穿本章我都将假设π>c/b。为了弄清楚这意味着什么,我们可以想象两个参与人达成了一个协议,即他们在每- -回合中相互合作。如果协议被遵守,每个参与人都可以获得(b-c)(1 +π+π? +..或者(b-c)/(1-π)的期望效用。现在假设参与人知道一旦他违背协议。他的对手就再也不会同他合作(注意这是他的对手所能做的最严厉H中国煤化工人在第- -回合违背了协议,而他的对手却遵守了协议CNMHG得到的i.215.制魔经济学研究效用为b。之后他将从每个回合中得到的效用为0,因为没有人会和他合作。遵守协议值不值,依赖于(b-c)/(1-π) 比b大还是比b小,或者用等价的说法,依赖于π比b大还是比b小。假设π >c/b意味着存在相互合作的协议的可能性。当πc/b并不意味着典型的博弈进行的回合很长。举个例子,如果b=2且c=1,那么当π>1/2时-也就是博弈的平均回合数大于2. 0时一-假 设就得到满足。现在我将考察扩展囚徒困境博弈的一-些简单策略。我主要关心使参与人的合作依赖于他的对手的合作的那些策略,即互惠策略。但是我将首先分析其中两个最简单的策略。这就是无条件的合作一在每一回合都进行合作而不管你的对手的行为一以 及无条件的不合作一在每一 回合都不进行合作。我将用S (代表容易受骗的人)和N (代表品质恶劣的人)表示这些策略。一即刻明 显的是,S不可能是-一个均衡策略。如果你知道你的对手不管你做什么都将和你进行合作的话,你的合作就没有任何意义。对S最好回应的唯一策略就是像N这样的回应策略一在每一 -回合中都不合作; S对它自身来说并不是最好的回应。同样明显的是,N是-一个均衡策略。如果你知道不管你怎么做你的对手都会不合作,那么你曾经的合作就没有任何意义。因此对N最好回应的唯一策略就是在每一回合中都不合作的回应策略。因为N是这样-一个策略,所以它是对自身的最好回应。换句话说,在一个大家都不合作的世界里,你最好的策略就是自己也不合作。N是稳定均衡策略吗?对N的唯一最好回应是这些策略一一和 N博弈时每- -回合都不合作。但是N并不是具有这种性质的唯一策略。我认为,参与人会遵循谨慎的策略,除非他的对手先前合作过至少- -次,否则他永远不会合作。N是谨慎的策略,但是它并不是唯- -的这种策略。很容易明白的是,所有的谨慎策略(而不是别的策略)都是对N的最好回应。我们也要注意,如果遵循谨慎策略的参与人相互碰面,他们永远不会合作。因此,只要所有的人都遵循这样或那样的谨慎策略,所有的谨慎策略就会产生相同的结果:没有人会合作。这样的结局就是没有力量阳止N刑参与人被某些别的谨慎策略侵占,但是没有任何力量能够培育中国煤化工是漂走(drift)中的一种。YCNMHG,216●互惠的博弈分析如果我们想对N的稳定性或不稳定性进行更多的讨论,我们就必须考虑到参与人时而不时犯错误的可能性。我将通过如下的假设来模型化错误,即,在每一回合中总是存在着很小的可能性一那些本来打算不合作的参 与人实际上却合作了,反过来也是这样。我将假设,犯错误的参与人会立即意识到他做了什么;他的对手知道实际上被采用的行动,但是他不知道这些行动是有意的还是无意的。考虑这些假设,假定你的对手采用N策略,也就是说,他打算在每一回合都不合作。他要是合作了,这只是一个错误,而不是一个他打算将来合作的信号。所以你的最好回应一你的唯 一的最好回应一- 就是审慎地从来不与他合作,不管你的对手做什么。换句话说,N是对它自身的唯- - 最好回应:它是-一个稳定均衡策略。然而,这并不是说N是唯- -的稳定均衡策略。现在我将考虑- -种简单的互惠策略一与 同你合作的人合作。这就是针锋相对策略(简写为T)。遵循T策略的参与人在第一回合中合作。在每一个后续回合中他将跟他的对手在先前的回合中采用的策略( 合作或不合作)相同。注意,如果两个T型参与人相遇,他们会在每一回合中都合作。然而,如果-一个T型参与人遇到了一个N型参与人,T型参与人只会在第一回合中合作,之后他就会不合作。这样一来,T型参与人愿意同他们一样的人合作,但是他们并不准备成为轻易上当受骗的人。T是稳定策略吗?下面的讨论基于阿克塞尔罗德( Axelrod, 1981) 的文献。假定你知道你的对手采用T策略,并且假定你打算把博弈进行到第i回合。这里有两种可能性,依赖于这是不是第-回合,如果不是的话,依赖于你在先前的回合采用的策略:或者你的对手将在第i回合合作,或者他在第i回合不合作。你知道情形会是哪- -种。给定上述知识,你就有可能为剩下的博弈找出对你的对手的行动的最好回应(因为他在第i+1, i+2, .回合的行动将完全由你有待采取的行动决定)。另外,不难发现, i的价值与你的计算无关。你在第i+1, i+2, ..回合采取的行动独立于i。因此下面的两个问题将有独立于i的确定的答案:1.如果你的对手在第i回合合作,那么你也在第i回合合作是最好回应的一部分吗?2.如果你的对手在第i回合不合作,那么你在那- -回合合作是最好回应假定问题1的答案是“是”。然后令i=1。你知道你的对手将会在第-回合合作,所以你也合作是-个最好回应。但是如果你在第- -回合合作, 你的对手在第二二回合将合作。那么你也合作将是一个最好向应_诸加此类。因此,如果问题1的答案是“是”,在每-回合中国煤化工应。现在反过来假设问题1的答案是“不是”MHCN MH可应都,.217.制度经济学研究是在第- -回合不合作。这保证你的对手在第二回合不合作。现在有两种可能性,它们依赖于问题2的答案。如果那个问题的答案是“不是”,任何对T的最好回应都是在第二回合也不合作。诸如此类。在每一回合中不合作是对T的最好回应。如果反过来问题2的答案是“是”,那么你在第二回合中合作将会是一个最好回应。这将会保证你的对手在第三回合合作。这重复了第一回合的位置,所以你将再次不合作。诸如此类。在奇数回合中不合作而在偶数回合中合作是对T的最好回应。现在考虑对T的三种可能的回应: T自身, N (例如在每- -回合都不合作)和一个新策略A。A (为了交替)是一种在奇数回合中合作、在偶数回合中不合作的策略。我们从上面段落的讨论中知道,这三种策略中肯定有一种是对T的最好回应。我们现在可以估计出采取每种策略来回应T时获得的期望效用。运用图1中的效用指数:E(T, T)=(b-c)(1 +π+π2 +..)=(b-c)/(1-π)(1)E(N, T) =b(2)E(A, T)=b-mc+πb-π'e+π'b..=(b-πc)/(1-π')(3)不难算出,如果π>c/b (正如我已经假设的),那么E(T, T)>E(N,T)且E(T, T) >E(A, T)。换句话说,作为对T的回应,T比N或A更好。但是由于它们中有一个是对T的最好回应,所以T必定是对它自身的最好回应,即针锋相对策略是一个均衡策略。三、惩罚和补偿针锋相对是惯例吗?我已经指出针锋相对策略是扩展囚徒困境博弈中的均衡策略。我也指出它并不是唯一的均衡。策略N (从来不合作)也是一个均衡,每个人都不合作使坏的均衡是稳定的。根据我的定义,惯例就是两个或多个稳定均衡策略中的-一个;因此为了说明针锋相对策略是一个惯例,我必须说明针锋相对策略是-一个稳定均衡策略。在第二部分中,针锋相对策略T的唯- -最好回应是这样的策略,和T博弈时每一回合 都合作。T有这样的性质一这 就是为什么T是- -个均衡策略一但是别的策略也这样。其中最为明显的例子就是S一容 易受骗的人的无条件合作策略。和S对招时,S和T-样成功。只要每个人遵循这两种策略中的这种或那种,就从来不会有不合作出现。这意味着并没有力量阻止T型参与人的世界被S型参与人侵占;但是也没有力丹平培美汶样的侵占。中国煤化工我们再一次得到漂走( drift)的情形。因此我将像先前一样假定,参与人有时MH.CNMH.没定,我●218●互惠的博弈分析需要在定义针锋相对策略时进行--下小的改动。假设你很有把握你的对手将采用针锋相对策略。因此你在每- -回合都合作,并且你的对手也合作。接着在一个回合中,比如说回合i,你犯了一个错误,你想要合作但结果却没有合作。你现在应当怎么做呢?你会预期到你的对手为了回应你的偶然的不合作会在第i+1回合不合作。如果你遵循严格的针锋相对原则,你将在第i+2回合以不合作回应,接着你的对手将在第i+3回合也不合作,依次类推。通过在第i+2回合合作来缩短报复和反报复的无休止的链条似乎更好。我将这种隐藏在变种的针锋相对策略中的直觉称为T1。T1开始于拥有好名声的概念。其中的精髓思想是拥有好名声的参与人有权利或资格来与他的对手合作。博弈开始时每个参与人都被认为有好名声。一个参与人可以保持好名声,只要他经常按照T1的限定来合作。如果●任-一个参与人在当T1限定他应当合作时没有合作,他就会失去他的好名声;在后续的博弈中合作后他就会重新得到他的好名声(这就是为什么我把这个策略称为T1;如果需要两个回合的合作才能重新得到好的名声,这个策略就是T2,依次类推)。给定所有这些,T1可以被系统地阐述如下:“当你的对手拥有好名声时,或者当你不拥有好名声时,合作;否则,不合作。”对一个从来不犯错误的参与人来说,T和T1是相互等价的(如果你遵循T1且不犯错误,你就会一直有好名声,因此T1将限定你的对手在每一回合都合作。因此你的对手是否在任- -回合中都拥有好名声完全依赖于他是否在先前的回合中与你合作。如果他在第i-1回合合作,T1就要求你在第i回合合作;如果他在第i-1回合不合作,T1就要求你在第i回合不合作)。T1和T的区别仅涉及参与人在犯了错误不合作后采取的行动。假设将遵循T1并将博弈第i回合;你和你的对手都有好名声。因此你应当在第i回合合作。然而,假设当你的对手合作时你犯错误没有合作。接着你失去了你的好名声。现在,根据T1,你应该在第i+1回合合作。由于你已经失去了好名声,你的对手在第i+1回合不合作也不会失去他的好名声,因此不管他在第i+1回合怎么做, T1都会要求你在i+2回合合作。只要犯错误的概率充分小,T1就是-一个稳定均衡策略。为什么?假设你知道你的对手将遵循T1,并且你将进行第i回合的博弈。假设不管过去发生了什么,你和你的对手都不会犯更深层次的错误。我将指明在这样的假设下唯一的最好回应就是“当你的对手拥有好名声时,或者当你不拥有好名声时,合作;否则,不合作。”但是,如果当没有进--步犯错误的可能性时这是唯一的最好回应一也就是说, 如果这个回应严格优于其他回应一那么当有进一步(犯)错误的可能性时,只要犯错误的可能性足够得小,它就必定保持为唯- -的最好回应。因此,我将中国煤化工的可能.性但可能性足够小时,“当你的对手拥有好名HCNMHG好名声●219.制度经济学研究时,合作;否则,不合作”是对T1的最好回应。但是这个回应是T1。所以我将证明T1是一个稳定均衡策略。现在我们将进行证明。当你进入第i回合时,只有三种可能性:1.或者你和你的对手都拥有好名声,或者你们都不拥有好名声。这样你的对手将在第i回合合作并且之后采用针锋相对策略(例如,重复你最后的行动)。2.你的对手拥有好名声,但是你却没有好名声。这样他将在第i回合不合作并且之后采用针锋相对策略。.3.你拥有好名声,但是你的对手却没有好名声。这样他将在第i回合合作,在第i+1回合再次合作,并且之后采用针锋相对策略。注意到在博弈的第- -回合,情形1必定适用。因此这就是我们在第二部分分析的情形,其中我证明如果不犯错误,对策略T的最好回应是在每一回合都合作(这个证明实际上是阿克赛尔罗德的)。所以我们知道在情形1你在第i回合的唯一的最优行动就是合作。现在考虑情形2。注意到如果你在第i回合中合作,那么第i+1回合将会是情形1的步骤:你的对手在那一回合中合作,接着采用针锋相对策略。我们知道在情形1你的唯一的最优回应是“合作,合作,...”.. 所以如果在第i回合合作是最优行动,那么在第i+1回合合作也是最优行动,依次类推。反过来如果你在第i回合不合作,那么第i+1回合就是情形2的另一个步骤;因此如果第i回合不合作是一一个最优行动,在第i+1回合不合作必定,是一个最优行动,依次类推。因此,回合i, i+1, .的两种序列行动中的一种必定是-个最好回应一或者 “合作,合作,...或者“不合作,不合作,....考虑到假设π>c/b,前一种序列产生更大的期望效用。因此,在情形2下,就像在情形1下一样,你在第i回合的唯-最优行动是合作。最后考虑情形3。在这种情形下,在第i回合你可以不合作而不会丧失自己的好名声;不管你在第i回合做什么,第i+1回合都将是情形1的一个步骤。所以你的最优行动必定是在第i回合不合作。这就完成了证明:当你的对手拥有好名声时,或者当你不拥有好名声时(情形1和2),你在第i回合的最优行动是合作;否则,就不合作(情形3)。这样一来,T1策略就是一个稳定的均衡一一-但不是唯一稳定的均衡。.(回忆起无条件不合作也是一个稳定的均衡)换句话说,T1是-一个惯例。考虑一下这个惯例用日常的措词怎么说。它从开始就很明显是-一个互惠惯例:只要他的对手愿意合作,一个遵循T1策略的人就愿意合作。但是它也是一一个惩罚惯例。假设在某个i回合当你合作的时候你的对手错误地没有合作,那中国煤化工你成了轻易受骗的人。现在惯例规定在下一回合你MHCNMHG合作时●220.互惠的博弈分析他应当合作。这样在第i+2回合你们都再次合作。发生在第i+1回合的事情可以看成是对你的对手的先前的违背惯例的惩罚:他在那一回合中得到了最坏的可能结果( 效用损失为c)。注意到这个结果比他像你一样第i+1回合不合作的结果要差。在这个意义上,你的对手愿意接受惩罚(知道如果他不这样,对他来说长期结果仍将会更加糟糕)。但是,说你的对手已经被惩罚了只不过讲了故事的一半。在第i+1回合你得到最好的可能结果一效用收益为 b。对你来说这比相互合作的回合的结果更好,更不要说相互不合作的回合的结果了。所以第i+1回合的事件不仅对你的对手施加了伤害,而且使你获益。换句话说,正在进行的不仅是惩罚,而且是补偿。我们可以这么说,惯例规定你的对手进行补偿行动。你在第i+1回合的不合作以及他的合作都是这个行动的一部分。策略T1规定补偿的回合伴随任何不合理的不合作(也就是说,任何不合作并不是由T1规定的)。这一回合过后,两个参与人再次合作。为什么仅有一个补偿回合呢?毕竞,这种补偿并没有充分抵消受害方从另一个参与人的违背惯例中所遭到的损失。最初的违背一比 如说在第i回合一对受害方施加了成本b:这是他本来应该从他的对手的合作行动中得到的利益。第i+1回合的补偿行动允许受害方节省c,因为他从对手的合作行动中获得了利益而不会招致他自己合作的成本。但是我们知道b>c。另外,节省c的成本必须被贴现以考虑第i+1回合不会进行的可能性。答案是补偿的程度本身就是一一个惯例。受害方要求的补偿跟他期望他的对手容许让与的一-样多,并且他的对手提供的和其预期第-个参与人坚持要求的一-样多。我们想象策略T2 (规定对每个不合理的不合作有两回合的补偿),或者策略T3 ( 规定三回合的补偿),等等。我们可以证明( 但是在这里我将不会给出)任何一个像Tr的策略都是一个稳定的均衡,只要π' >c/b。因此如果π充分地接近1,任何Tr策略都是一个稳定的均衡,但是r的值越大,π的值必须越接近1以保证稳定性。这是为什么呢?r的值越大,参与人犯错误后重新获得好名声就得付出更大的补偿;我们可以说,遵循阿克塞尔罗德(1981), r值越小的策略越容易被宽容。-一个可以成为均衡的策略有多宽容有一个明显的限制:补偿必须足够地难以负担以阻止有目的的不合作。但是,即使对T1一所有策略中最宽容的策略来说,这也是真的。超过这一点不宽容就是一种危险。一旦犯了一次错误,参与人并不是被迫补偿,他也许反过来屈从于他的好名声的丧失,并且继续不合作。他的对手越不宽容,后一种选择的吸引力就越大。π的值越小它也会更具吸引力,因为博弈可能结束得越快,保持好名声的收益就越小。中国煤化工YHCNMHG制度经济学研兖四、演化偏佑互惠吗我一直考虑的针锋相对策略是大族中的成员,我把这个大族称为勇敢互惠策略。这些策略有两个定义性的特征。第一,对每- -回合都不合作的对手而言,这些策略是,除了在第一-回合以外每- -回合都不合作。第二,如果两个勇敢互惠策略的参与人相遇,他们在每一回合都会合作(再次提醒,只要没有犯错误)。注意两个参与人不需要遵循同样的策略。一个策略能够只满足第二个条件,如果它在第- -回合总是合作(直到进行了第一回合,没有参与人能够知道关于他的对手的策略的任何事情)。这就是我为什么称这些策略为“勇敢”的原因。在有证据显示你的对手将互惠以前就准备合作,就为你总是被不合作的对手利用敞开了大门。如果你遵循勇敢互惠策略,这种利用将仅限为-回合,但这仍然是利用。如果你遵循任何“与它自身合作”的策略,这都是不得不付出的代价一也就 是说,任何一种策略一当 参与人双方在博弈中都遵循它时,他们将相互合作(如果除非别的参与人已经合作过,没有参与人愿意合作,他们将永远压根儿不会合作;因此如果一个策略是和它自身合作,那么它就必须在有证据显示对方有同样的合作意愿之前就愿意合作)。现在假设当人们进行扩展囚徒困境博弈时,他们仅考虑两种类型的策略一-勇敢互惠策略和无条件背叛不合作策略(N)。 当然,当实际可得的策略的数字无限大时,这只是一一个大胆的简化。(回忆起即使是五个回合的扩展囚徒困境博弈也有超过20亿个策略!)但是我们必须从某个地方开始。现在有三种可能性。第一,两个N型参与人可能相遇。他们在每一回合都不合作,每个人只能从博弈中得到零效用。第二,一个N型参与人遇;到某个遵循勇敢互惠策略的人(我把他叫做B型参与人)。除了第一回合,他们将在所有回合都不合作;但是在第-回合N型参与人不合作,而B型参与人合作。因此从整个博弈中N型参与人得到的效用为b,而B型参与人得到的效用为-c。第三种可能性是两个B型参与人相遇。他们在每- ~回合都合作,从而在每一回合中得到的效用为b-c;这一效用流的期望值是(b-c)/(1-π)。注意,B型参与人遵循同样的策略与否无关紧要;重要的是每个B型参与人遵循某种勇敢互惠策略。这种情形可以用图2所示的简单对称博蛮来描述。现在这个博弈可以用中国煤化工通常的方式进行分析。PYHCNMHG.222.互惠的博弈分析对手的策略B(合作)(无条件不合作)(b-c)/(1-π)-参与人的策略N (无条件不合作)注意: b>c>0 且π>c/b。图2扩展囚徒困境博弈的-个简单版本注意,N是对N的最好回应,并且只要π>c/b, B就是对B的最好回应。因此参与人会选择哪-一个更好的策略依赖于他的对手选择-种策略而不是另一种策略的可能性。令p表示一个随机的对手选择策略B的可能性。那么将有p的某个临界值,比如说p", 根据p是否大于、等于或小于p°来使得B比N更加成功、一样成功或更不成功。很容易计算出这个临界值是:p° =cl一π/[π(b-c)](4)如果再--次遇到对手的概率相当高,那么这个p的临界值可能非常接近于零。举个例子,假设b=2且c=1 (这看起来和任何-一个假设- - 样中立)。这样当π=9时,意味着博弈的平均长度为10回合,p的临界值是0.11。当π=0.98时,结果是博弈的平均长度为50回合,临界值是0.02。这反映的事实是采用B策略是一种有风险的投资。冒着在第一回合有可能被N型参与人利用的风险,你就能够跟B型参与人在每- -回合都合作。博弈可能进行的时间越长,从成功的投资上获得补偿的时间就越多。这个结果似乎表明,在平均拥有多个回合的博弈中,勇敢互惠的惯例有很好的机会演化出来。即使开始时大多数参与人都是品质恶劣的人,这些品质恶劣的人的也可能做得比少数遵循勇敢互惠策略的人差;这样- -来,少数群体就会有-一个增长的自我加强的趋势。注意,即使少数团体中的成员并不都遵循同样的策略,这个观点也是对的。换句话说,在任何关于补偿的特定惯例之前,勇敢互惠的一-般惯例就会自己建立起来。现在有另一个观点,希望演化偏佑勇敢互惠策略。这个观点并不要求有临界数量的勇敢互惠者:只要有任意一些勇敢互惠者,勇敢互惠惯例就能够演化出来。然而,有必要假设所有的勇敢互惠者遵循同样的关于补偿的惯例。注意,可能有谨慎的互惠策略而不是勇敢的互惠策略(- 一个谨慎的策略就是从来不会先去合作,见第二部分)。遵循谨慎互惠策略的个体会等待他的对手采用第-一个合作的行动;那样,并且只有那样,他才会合作。这种类型策略的很大的优势是它会导致跟勇敢互惠者会作而又不会引起被品质恶劣的人利用的风险。当然,它的主要YH中国煤化工自身合作:谨慎参与人不能够从对手中区分出谁是CNMHG的(参..223●制度经济学研究见第二部分)。如果谨慎的策略想要成功,它们就需要进行调整以适应在勇敢对手中流行的补偿惯例。举个例子,假设所有勇敢参与人都遵循T1--针锋 相对策略-一规定对每次不合 理的不合作只有一个补偿回合(参见第二部分)。因此,一个在第一-回合没有合作却发现他的对手已经合作的参与人实际上确定对手正在采用T1策略(并不是完全确定,因为对手可能有意不合作,但却犯了一个错误)。现在谨慎的参与人和T1型参与人处于同样的位置, T1型参与人几乎确定他面对的对手和他- -样偶尔在第一回合不合作。所以谨慎的参与人的最好的计划是跟T1型参与人正好做得一样:在下两回合合作,接着采取针锋相对。下面是这种类型策略的一个简单表述:“ 在第一回合不合作。如果你的对手在第- -回合不合作,你就在所有的后续回合都不合作。如果你的对手在第一回合合作,你就在所有的后续回合中采取似乎是T1的策略,把你在第一回合的不合作看成似乎是一一个错误。”我把这个策略称为CI ( 很容易看出策略C2, C3, .,可以被设计成与勇敢策略T2, T3, ..吻合)。现在考虑当我们假设唯- -的可得策略为N. T1和C1时博弈的结果。这个博弈表示在图3中。为了解释这个观点,我将用到数值b=2, c=1和π=0.9,这给出图4所示的博弈。然而,并没有什么会依靠这些数字;对验证这个观点来说重要的是(正像我在通贯本章中假设的) π>c/b。对手的策略T1C1N(b-c)/(1-π)(b-c)/(1-π)-b+πc参与人的策略Cl(b-c)/(1 -π) -b+ πc0注意: b>c>0且π>c/b。图3扩展囚徒困境博弈的另一 一个版本r1;1108.9-参与人的策略C19.2注意:这些指数是通过令b=2, c=1和u=0.9得到的。图4图3 中博弈的说明性的效用指数现在考虑-一个社区,其中刚开始有一些人遵循T1, - -些人遵循C1,一些人遵循N。令与这些策略相联系的概率分别为pq. p(1-a)和1-p.换句话说,p是- -个随机的对手采用互惠策略IYH中国煤化工定- -个对手正在采用互惠策略,q是他采用勇敢互CNMHG.224.互惠的博弈分析只要pq>0,最好的策略必定或者是T1或者是C1 (N被CI占优:在对付采用T1策略的对手方面它做得比C1更坏,并且在对付任何策略方面都至少和C1-样好)。因此,只要一些人遵循T1,随着人们通过经验学习不去采用N, p的值- -定会稳定上升。但是要注意,T1是对T1和C1的最好回.应。因此,如果p的值足够地高,T1一定会是最成功的策略。因此,即使T1刚开始并不是最成功的策略,它最终也将变成最成功;并且它将保持最成功,不管多少人转而采用它。转变成更为常识意义上的话,想象-一个社区,其中刚开始几乎所有的人都是品质恶劣的人。在这个社区中,成为一个勇敢的互惠者并不会受益,因为合作的倡议人几乎总是被击败。但是成为一个谨慎的互惠者并不会失去任何东西:这允许你与自己碰巧遇见的任何-一个勇敢互惠者合作,却能够保护你不被品质恶劣的人利用。因此人们会慢慢弄明白,谨慎的互惠能够获得好处。但是谨慎的互惠者有可能因为太谨慎而不能相互合作:他们只能够和勇敢互惠者合作。随着谨慎互惠者数量的增长,并且随着品质恶劣的人的数量的下降,勇敢会获得好处的时间将会来临。在这个模型中,谨慎互惠的作用更像是某些类型的生长在被扰乱的土地上的植物一-这些植物拓殖别的物种发现不适于生存的生存地,但是它们的出现有助于产生这样的条件,这些条件偏佑最终占领和接管的其他物种。现在我已经给出了两个论据,认为社会演化的过程可能偏佑那些勇敢互惠策略。但是,我必须承认没有任何一个论据是完全令人信服的。问题是,很难看出任何一个旨在表明演化将偏佑某些特定类型策略的论据不只是提示性的。在扩展的囚徒困境博弈中有数不清的数以亿计的策略;看起来我们只有限制在一-些基本类型的策略中才能分析这个博弈,这意味着任何分析都是不完全的。我认为,这个问题永远不会被解决;但是阿克塞尔罗德(1981) 给出了一个具有吸引力的方法,这一方法有某种程度的进步。阿克塞尔罗德的方法一他称之 为锦标赛方法一就是 具体指定- -种特定形式的扩展冈徒困境博弈并接下来让来者递交进行博弈的策略。然后让这些策略在某种类型的锦标赛中彼此自由地对抗,在这种锦标赛中所有的策略对抗所有的策略(allplay against all), 看谁将胜出。这种方法的动人之处在于,尽管分析的策略是有限的一那当然是不可避免的,但并没有强加任意的限制。没有人会抱怨分析者通过排除可能做得更好的特定策略从而固定了他的分析结果,或者抱怨他因为太患钝从而不能认识到特定策略的优点进而忽略了这些策略。如果你有一个自己做得好的得意策略,你所做的全部就是让它进入锦标赛。仅有的限制是由人类创造力施加的一当然那种中国煤化工活的博弈中。YHCNMHG●225.制度经济学研究阿克塞尔岁德组织了一个这种类型的锦标赛。他采用的扩展囚徒闲境博弈的版本与我一直分析的博究稍微不同。在我的版本的博究中,一个参与人(当对手不合作时不合作,当对手合作时合作,当对手合作时不合作,当对手不合作时合作)的四种可能的结果的效用指数是0,b-c, b和-c,且有b>c>0。而阿克塞尔罗德的博弈的效用指数是1, 3, 5和0。这两种类型的表述并不能严格地兼容,但是博弈的本质结构却是相同的。π的值被设定在0.99654,以便博弈的中间数长度为200回合;期望长度为289回合。锦标.赛根据回合知更鸟原则( round-robin principle) 组织,策略作为计算机程序被递交。阿克塞尔罗德的锦标赛有62个进人者。他报道说,进人者包括“经济学、心理学、社会学、政治科学和数学的博弈理论家”和“演进生物学、物理学和计算机科学的教授”(阿克塞尔罗德,1981)。 获胜者是由博弈理论家拉波波特( Anatol Rapoport)递交的简单的针锋相对策略。在解释这个结果时,我们的脑海中必须想着一些条件。 第一,π的值要相当高,相对于谨慎的或不合作策略而言,这会倾向于偏佑勇敢互惠策略。第二,回合知更鸟锦标赛并不跟演化过程- -样。在回合知更鸟锦标赛中,通过对付拙劣的对手表现优异而积累高分是可能的,然而演化过程却倾向于在一一个早期的阶段就淘汰那些最不成功的策略。第三,在惯例的演化中,凸显性(prominence)起到了重要的作用;并且凸显性有时事关想象地跳跃和思想的联结,这些并不能够轻易地简化成数学。通过进行抽象的数学形式的实验,并且通过要求把策略写成计算机程序,阿克塞尔罗德不经意间形成了对凸显性的数学概念的偏心(bias)。然而,所有这些都说明,阿克塞尔罗德的锦标赛中针锋相对策略的成功是显著的。它为我们提供了更深层次的基础,使我们相信:如果扩展囚徒困境型的博弈在一个社区中重复地进行,勇敢互惠的惯例将倾向于演化出来。参考文献1. Axelrod, R.,1981, “The Emergence of Cooperation among Egoists" ,American Political Science Revierw, 75, pp. 306 -318.中国煤化工MYHCNMHG●226.互惠的博弈分析A Game Theory Approach to ReciprocityRobert Sugden( University of East Anglia)[ Abstract} This paper provides an analysis of the formation of reciprocity and thestable equilibrium strategies of reciprocity from the perspective of game theory.[ Key words ] reciprocity prisoner's dilemma extended game tit-for-tat bravereciprocity cautious reciprocityJEL Classifications: C700 D640中国煤化工MYHCNMHG227.

论文截图
上一条:床旁分析技术
版权:如无特殊注明,文章转载自网络,侵权请联系cnmhg168#163.com删除!文件均为网友上传,仅供研究和学习使用,务必24小时内删除。