强互惠行为的生物理性本质：行为博弈与演化博弈的比较研究.doc

资源描述

1、1强互惠行为的生物理性本质：行为博弈与演化博弈的比较研究摘要：强互惠行为是在行为博弈实验中发现的一种特殊人类行为，也是当今经济学研究重点关注的领域。通过比较行为博弈与演化博弈的分析范式以及强互惠行为与跟风策略发现，在方法论选择上行为博弈重视数据资料，演化博弈重视逻辑推理。行为博弈以演化博弈为导向，演化博弈以行为博弈为基础，两者具有互补性。强互惠行为与跟风策略的殊途同归，证明了强互惠行为的生物理性本质，也说明了行为博弈与演化博弈的逻辑联系。关键词：行为博弈；演化博弈；强互惠；生物理性；跟风策略；博弈论中图分类号：F224.32 文献标识码：A 文章编号：1007-2101（2013）05-0

2、037-06 一、引言博弈论的开创者为数学家冯诺依曼（John von Neumann）和经济学家奥斯卡摩根斯坦（Oskar Morgenstern），二人应用博弈论研究人类在战略和经济上的决策行为，发现了理性行为的数学原则，并归纳出理性行为的典型特征。1随后，约翰纳什（John Nash）拓展了二人的理论，区分了合作博弈和非合作博弈，创造了简明且影响深远的“纳什均衡”概念。2在 20 世纪五六十年代，博弈论的研究以合作博弈为2主。而在 20 世纪七八十年代，约翰海萨尼（John Harsanyi）提出了不完全信息博弈和海萨尼转换；莱茵哈德泽尔腾（Reinhard Selten）定义了子博

3、弈精炼的概念。3由此，博弈论研究的重点转向了非合作博弈。在 20 世纪 90 年代，行为博弈和演化博弈突破了经典博弈的完全理性人假设：行为博弈应用心理学规律弱化了理性假设，通过实验模拟来修正理论与实际的偏差，它关心的是参与者在实际中如何行动，而不是理论逻辑上的推理；4演化博弈假设博弈方是从大的总体中随机抽取的，他们是按照生物或社会的方式反复进行博弈。5或者说，行为博弈运用实验的方法来研究行为动机、认知能力和推理过程之间的结构关系；演化博弈则分析演化的动态过程和经济行为的学习特征，并重构了博弈均衡（ESS，演化稳定策略）。如果说经典博弈论的力量在于它的普适性和数理精确性，那么行为博弈与演化博弈

4、的优势就是它解释问题的现实性，所以实验与模拟是构建有限理性博弈的基础，但目的并非“证伪”博弈论，而是通过建立规则来改进它。强互惠（Reciprocity）最深刻的含义在于：它是一种具有“利他”倾向的第三方惩罚行为或惩罚机制，虽然和我无关，甚至需要我付出巨大代价，但我仍然要对“恶”人宣战，以此来“惩恶扬善”6。强互惠行为的证据大多来自可控行为博弈实验：在“最后通牒”博弈中，多数实验参与人拒绝了不公平的分配方案，以此来惩罚对方的非友善行为；7在“公共物品”博弈中，惩罚可以减少搭便车行为从而提高捐赠水平，但需要个人承担一定的成本；8在劳动市场博弈中，当雇主获得惩罚和鼓励雇员权力时，雇员的努力水平会

5、显著提高。此外，许多学者对不同3经济领域中的强互惠行为进行了解读：强互惠视角下的工资刚性；9商业活动中平等规范的盛行；10产业组织理论中的强互惠11。在众多的强互惠研究中，以美国桑塔费研究员金迪斯等人所做的跨文化最后通牒博弈最为引人关注。金迪斯等人在 12 个国家中的 15 个有着极为不同的经济和文化环境的小规模社会中招募研究对象并进行实验，结果与经济学规范模型自利假设发生系统性偏离：除了物质利益之外，很多实验对象更关注公正和互惠，愿意为修正物质利益的分配而承担个人损失。从现有的研究文献来看，强互惠理论产生于行为博弈实验，并在此基础上进行了拓展性研究。但现代经济学研究往往只局限于行为博弈的视

6、角，提出强互惠行为是一种非理性的情感行为。那么，强互惠行为到底是不是非理性行为？其中的情感因素从本质上来看是什么？以及为什么会有这样的情感因素出现？显然，通过深入分析行为博弈和演化博弈之间的逻辑联系，探索强互惠行为背后的内在生物学机制，对正确理解人类行为是非常必要和重要的。二、行为博弈的分析范式与强互惠行为的发现行为博弈是将行为及实验经济学与标准博弈论相融合的结果，意在对个人或团体在各种策略条件下行动做出与实际更为一致的解释和预测。与传统博弈论注重逻辑推理相比，行为博弈以数据和心理学材料为分析工具，实验及其结果是其理论构建的基础。所以，从某种程度上来看，行为博弈的分析范式是一种实验的范式。

7、（一）行为博弈实验的设计 1. 实验对象的选择。人类群体中个体种类很多，究竟应该选择那类4群体作为行为博弈实验的研究对象便成为实验设计首先要关注的问题。在现有的行为博弈实验中，大多数实验者选择了在校大学生作为自己的研究对象，一方面是因为大学生群体相对比较简单，与社会联系较少，考虑的外生变量较少；另一方面是因为大学生群体受到一定的文化教育，能够很好地理解实验过程，并按照实验者的要求做出相关经济行为。选择大学生群体作为实验对象是行为博弈实验设计的一个显著特征。其实，在大学生群体中，不同专业之间的学生表现出了不同程度的互惠行为：经济学专业的学生出价要比其他专业的学生低 7%而索取的要高 7%。12

8、 2. 实验操作指导。实验操作指导在实验开始前告诉参与人需要知道的各种信息，主要包括博弈顺序和博弈支付两个方面，即有关信息的完全性和完美性的说明。清晰而明确的操作说明是保证实验成功的关键，且一般情况下大声朗读实验说明是确立“公共知识”的主要方式。从本质上来看，实验操作说明是一种控制信息的手段：一方面，确保实验对象可以利用足够的信息去计算均衡；另一方面，通过对信息的控制来发现参与者的能动性，比如，在学习模型中，实验者有意控制关于支付的信息，目的在于探索人的学习能力。13 3. 匿名与否。匿名是行为博弈实验的基本要求。实验对象的博弈行为受到对方的身份、年龄、相貌、语气等个人特征的影响。只有在匿名博

9、弈的前提下，实验发现的才是个人的真实偏好，一旦知晓对方的个人信息，将会影响实验对象行为的策略选择。霍夫曼等人进行了两个“相互蒙蔽”的独裁者博弈。14实验结果显示：一半以上的实验对象未分出任何金额的美元，并且平均剩余钱数只有总额的 10%，明显小于无“相5互蒙蔽”条件下的结果。对这种现象可解释为“相互蒙蔽”增加了实验对象之间的“社会距离” 。15此外，一些个人特征也会对实验参与者的行为产生影响，比如拥有较好面貌的实验者能够得到对方更多的分配比例或更不易被对方拒绝；16宗教信仰能够促使实验者提出更公平的分配方案或更不易拒绝对方；17女性比男性能提出更公平的分配方案，也能接受更低的分配比例18。所以

10、，要想在行为博弈实验中发现参与人行为之间的真实差异，必须排除人口统计因素的影响，而匿名处理成为必然选择。 4. 激励方式。现金激励和非现金激励对人的行为产生不同的影响，仅仅得到分数支付的实验对象倾向于无规则的达到竞争均衡，而且比能得到现金的实验者更快地厌烦实验，即假设的奖励更易变、更不可信和更容易满足。相反，现金支付会减少理性预测反应的偏差。所以，对实验对象支付现金迅速成为实验经济学中的标准方式。那么，奖金的多少对行为博弈实验的结果产生怎样的影响呢？许多研究已经进行了增加奖金的实验。大多数理论推断当奖金上升时，回应者会拒绝的出价将上升而他们会拒绝的比例份额会下降。然而，有的研究却显示，随着奖金

11、的增加拒绝比率并未出现显著的变化。19根据当地的购买力，卡梅龙（Cameron）在印度尼西亚、斯络尼姆和罗思（Slonim and Roth）在斯洛伐克、里斯特和凯瑞（List and Cherry）在佛罗里达州均进行了创见性的实验。研究结果表明奖金的较大变化对拒绝行为只有有限的影响，对提议者的出价比例也几乎没有影响。总之，行为博弈实验的设计涉及很多因素：实验方法论因素（重复与否、奖金形式和匿名与否等）、人口统计因素（性别、种族、专业、年6龄和相貌等）、文化因素（语言问题等）、描述性因素（说明方式、语境等）。博弈论专家通过对这些因素的控制和度量进行了拓展性的研究，结果表明：公平是人们

12、对参与者行为或其结果的一个判断，并且这个判断会影响其对行为和分配的偏好。（二）强互惠行为的发现强互惠行为是人们对善意或非善意互动的反应，体现出人们对公平的显著性偏好（Falk，2001）。那么，人们如何区分善意和非善意的举动呢？关键在于两个因素：一是行为导致的后果；二是潜在的企图。相关实验研究表明第二个因素起主导作用，若提议者的分配方案是随机产生的，那么回应者对相同方案的拒绝率要低于非随机情况，即表现出一种友好行为。20所以，强互惠行为违反了传统经济学中人的“自虑”假设，是一种典型的“他虑”行为，而规范经济学中将其定性为非理性的情感行为。为揭示强互惠行为的本质，必须从发现这种行为的大量

13、行为博弈实验开始。由于影响实验设计的因素很多，所以现存的实验证据也比较复杂。无论是在经济学和心理学实验领域，还是在社会学和人类学实验领域，均发现了强互惠行为的存在，这说明了该人类行为的普遍性。然而，最具说服力的证据大都来源于可控的实验室实验：在最后通牒博弈中，许多人拒绝了较低的出价以惩罚提议者的非友善企图；在投资博弈和礼品互换博弈中，友善行为得到了回报。21在众多行为博弈实验中以桑塔费研究院所作的跨文化最后通牒博弈研究最为突出，影响也最为广泛。来自经济学、人类学、社会学、心理学和博弈论等诸多领域的专家历时7近 10 年完成了这项实验：研究对象来自 12 个国家中的 15 个小规模社会；在大多数

14、实地实验中，受试者是匿名参加的；多数博弈实验选取的标的是钱，少数选取了烟草等替代品；在所有的实验中，均根据应征者对实验的理解程度来选择实验参与者。研究结果表明：传统的“自虑”假设未在任何一个小规模社会中得到证实；市场化程度越高，提议者出价越高，行为博弈实验中的合作水平越高；个体层次上的变量不能解释群体之间的行为差异；实验中的行为与小规模社会中的经济模式相一致。22 总之，强互惠行为的发现违反了规范模型中理性人追求自身利益最大化的假设。在各种形式（对不同的因素进行控制和度量）的行为博弈实验中，最后通牒博弈支付均严格为正，而且在大多数实验中，实验参与人一般都拒绝出价较低的提案。更为重要的是，经济选

15、择中的这种强互惠偏好并非像传统经济理论中所假设的那样是外生的。相反，它是在日常的经济、社会互动中逐渐形成的，即强互惠偏好是内生的。这为探索强互惠行为的根源指明了方向，即从演化的视角来分析这一人类偏好，指出它的生物理性本质。三、演化博弈的分析范式与占优的跟风策略演化博弈理论是研究群体进化的一种动态方法，其研究对象是频率制约选择下的进化动态。其中，个体的适应度并非常数，而是依赖于不同表现型在群体中所占的比例。演化博弈理论源于博弈论与生物学之间的互动：首先，生物学家尝试运用博弈论建构各种生物竞争演化模型，比如生存竞争、性别比例等；23然后，生物学家将种群思想引入博弈8论之中，比如适应度概念、进化

16、稳定策略、复制方程等；24最后，经济学家借鉴生物学家提出的理论，继续发展了演化博弈，从演化稳定均衡扩展到随机稳定均衡。不论演化博弈理论如何发展，独特的分析范式是其核心特征。（一）演化博弈的分析范式 2. 演化稳定策略。演化稳定策略（ESS，Evolutionarily Stable Strategy）是演化博弈中一个非常关键的概念。25其核心思想是，如果一个现存策略是演化稳定策略，那么，必须存在一个正的进入障碍，使得当变异策略的频率低于这个障碍时，现存的策略能够比变异策略获得更高的收益26。假设现存策略为 x，变异策略为 y，而变异者进入后占总体的比例为？着（0uy，？着 y+（1-？着）x

17、，则现存策略 x 被称为演化稳定策略。27因此，演化方法关注的是单个大总体中的对称配对博弈，即侧重两个策略之间互动关系，而不涉及两个以上的多态个体间的博弈。此外，演化稳定性并未解释策略的来源，只是检验策略一旦出现，在演化压力下是不是稳定。所以，从本质上来看，演化稳定性是每次只针对一个变异的稳定性检验，强调的是变异的作用。 3. 复制动态方程。演化过程是两个基本要素的组合：一个是产生多样性的变异机制；一个是倾向一些种类的选择机制。演化稳定性强调变异的作用，即个体策略的随机变动，而复制动态强调的则是选择的作用。（二）占优的跟风策略一种人类行为如果经历了漫长的演化过程，即经过变异的入侵检验和选择的

18、动态复制，能够生存下来。那么，就可以说这种人类行为是演9化稳定的。通过前面的分析可知，要想揭示强互惠行为的内生性和生物理性本质，必须从演化的视角进行解读。那么，在演化博弈中应该如何来解释强互惠行为呢？对这一问题的回答可以从演化博弈中的关键性概念“跟风策略”开始。跟风策略（TFF，Tit for Tat）又称“一报还一报”策略，即开始时选择合作，然后不断重复对方上一步的选择。29它是由多伦多大学博弈论专家阿纳托尔拉帕波特（Anatol Rapoport）在罗伯特阿克塞尔罗德（Robert Axelrod）重复囚徒困境计算机竞赛中提出的一个博弈策略。阿克塞尔罗德在 20 世纪末进行了三次计算机模

19、拟实验，目的在于探讨人类合作能否从有着自己利益最大化推理逻辑的行动者的行为互动中自发产生。在第一次实验中，共有 15 种策略参赛、225 场比赛，模拟结果显示，跟风策略平均得分 504.5，即基准分 600 的 84%，排名第一；在第二次实验中，阿克塞尔罗德将参赛策略增加到 63 个，并将第一次实验的结果告知参赛者，模拟结果显示，跟风策略平均得分为基准分的 96%，在此排名第一；在第三次实验中，阿克塞尔罗德并未增加新的策略，而是从演化博弈的角度出发，试图发现史密斯的“演化稳定策略” （ESS），模拟结果表明，跟风策略在演化迭代中依旧表现出色，而“诡诈型”策略在 200 代以后完全消失。通过三

20、次重复囚徒困境博弈实验，阿克塞尔罗德发现：跟风策略稳定成功的原因在于它综合了善良性、报复性和宽容性。30善良性，即从不首先背叛；报复性，也称可激怒性，即对方若背叛，则自己将在下轮对其惩罚；宽容性，即一旦“改过” ，自己以合作对待。正是这三种特性保证了跟风策略在与各种策略的博弈过程中能够获得较高的平均支付，具有较强的适应10性，即跟风策略具有演化稳定性。正如生物学家道金斯所说，即使有自私的基因掌权控制，好人仍能得好报。31 四、行为博弈与演化博弈的比较（一）差异性经典博弈论最根本的失误在于，缺乏一套关于参与人何时以及如何共享心理建构的理论。经典博弈论失灵的地方，演化博弈论却大获成功。策略互动

21、的模拟演化分析有助于理解行为的涌现、转化和稳定性。在演化博弈论中，成功的策略在参与人群体中扩散，而不是由脱离实际的理性主体来归纳学习。而且，理性的个体甚至从不尝试学习针对复杂博弈的最优策略，而是复制他们所遇到的成功的主体的行为。所以，演化博弈计算机模拟得出了占优策略跟风策略，而采取这种策略的个体将有更高的几率生存下去。相反，行为博弈才运用行为实验的方法，对个体的真实经济行为进行数据统计分析，然后基于这种数据资料的实证性和描述性发现了一种特殊的人类行为强互惠行为。所以，演化博弈与行为博弈的差异性主要体现在方法论层次上。演化博弈分析是基于有限理性人假设的逻辑推理，而行为博弈分析是基于行为实验的实证研究。演化博弈注重演绎，而行为博弈注重实验结果。在主流博弈理论中，逻辑推理的分析范式一直处于主导地位，而对实验方法重视不够，这就导致了理论与现实之间的差距，即博弈理论并不能解释真实的经济行为。如果缺少一套广泛的事实体系来加以理论化，就必然存在着某种花过多时间建立精巧模型然而和实际行为却毫无联系的危险。32目前，实证知识是严重不足的，数据对于博弈论来说尤为重要，因为均衡一般有多

展开阅读全文