1、1基于演化视角的“纳什均衡”观察与思考摘 要:从演化的视角对纳什均衡所在的策略空间做了一个观察,认为纳什均衡所在的策略空间是不断变化的,这种变化源于策略空间本身的变化而不是决策,并以“生产力”与“生产关系”的类比对此给出了一种解释。通过“囚徒困境”中策略空间的演化进一步说明了演化的必然性,同时得到决策是基于所处的策略空间演化过程中的位置的结论,相应的策略空间中的某个纳什均衡并不能成为一种持续的决策所依赖的均衡。 关键词:演化;纳什均衡;囚徒困境;策略空间;决策 中图分类号:F08 文献标志码:A 文章编号:1002-2589(2013)09-0127-03 一、纳什均衡的定义 在博弈 G=(S
2、1,Sn:u1,un)中,如果由各个博弈方的各一个策略组成的某个策论组合(s1*,sn*)中,任一博弈方 i 的策论 si*,都是对其余博弈方策略的组合(s1*,s*i-1,s*i+1,sn*)的最佳对策,也即 ui(s1*,s*i-1,si*,s*i+1,sn*)ui(s1*,s*i-1,sij*,s*i+1,sn*)对任意 sijSi 都成立,则称(s1*,sn*)为 G 的一个纳什均衡157。很显然该策论组合(s1*,sn*)为策论组合空间 S 的一个子集,那么首先需要讨论的2是 S 的性质。 二、S有限性还是无限性 上述纳什均衡的定义并未明显陈述 S 是有限还是无限,但纳什本人关于纳什
3、均衡的定义中明确提到“有限个纯策略” (anassociated finiteset)2287。克雷普斯也提到“经济学家用纳什均衡分析经济问题,其前提是相应形势下存在明确的博弈过程”333。所以经典的纳什均衡认为可供选择的策略是明确而且有限的。但是如果这个空间本身只是 N 维空间的一个有限空间,那么即使得到了“纳什均衡” ,也仅能认为该“纳什均衡”只是这个有限空间的“纳什均衡”而很可能不是“无限理性空间”即 N 维空间的纳什均衡。 可是,如果说该 S 空间即为抽象的无限理性的,那么,我们做决策是否还有意义,正如哈耶克所说“不知道的也是不能计划的”496 谁能断定不能预知的策略组合不是更好的?基
4、于此,作者认为所谓的决策是基于现有存在的有限的策略空间而非未来不确定的无限的策略空间。而如果说决策是基于现有存在的有限的策略空间,甚至是明确清晰的策略空间,那么为什么我们所做的决策常常出现并不是基于这个有限的策略空间的最优呢?西蒙的“有限理性”观念似乎不能解释这种矛盾,当然,在我们假设策略方案有限性的时候的确已经包含了“有限理性” ,所以作者的一种解释是决策者的决策是基于现有存在的有限的策略空间,可与此同时,决策者有限理性地清楚自己的有限理性。从上面的讨论能看到即使对于近乎确定的策略空间决策者也并不一定能做出基于该策略空间的最优决策。而客观上策略空间本身不是一成不变的,也就是说它3本身在演化,
5、这种演化以决策者的决策为前提,而之所以实施决策却源于策略空间的变化。到此得到一个近乎悖论的结论:演化的原因与结果均是策略空间本身的变化。 三、一种解释 上节非但没能完全回答 S 空间有限性无限性的问题,反而得到了一个近乎悖论的结论:演化的原因与结果均是策略空间本身的变化。事实上,这是不矛盾的。策略空间本质上是一种“生产力” ,而各方所做的选择是相应的“生产关系” ,当“生产力”发展到一定程度,必然有相应的“生产关系”去适应这种“生产力” ,而“生产力”发展了必然引起“生产关系”的改变。这与以生物进化学的观点类比演化的做法是有差异的,他们认为演化以“适应性”为核心,也即拉马克强调的“变异的主动性
6、”586。而以生产力和生产关系的角度来讲,我们看到的更多是“自发性”,也即演化的自然发生。形象一点,生物进化论的观念:目的是“生产关系” ,演化的原因是决策;而本文的观念:目的是“生产力” ,也即创造更适宜的策略空间,策略空间本身决定了演化的必然。自然地,我们还会发现另外一个重要的端倪策对于路径的依赖,也即某个演化的起点的重要,这将决定演化的最终方向和终点,这是宏观层面;而另外更重要的也是我们可能忽略的是参与演化的个体的演化起点,这决定着演化的路径。但我们要明白的是演化的终点不会是至少不会一直是我们设定的终点,正如弗格森所说演化的结果是“人类行为的结果却不是人为设计的结果”658。也即索罗斯所
7、谓“均衡点之不可企及”721。本文同样认为均衡是相对的,而演化是绝对的,也就是说,均衡仅仅是4演化动态过程的某一点(甚至是事实上未达到的某一点) ,作者将以纳什均衡中经典案例“囚徒困境”做具体的观察与思考。 四、 “囚徒困境”观察与思考 囚徒困境表述如下:警方逮捕甲、乙两名嫌疑犯,但没有足够证据指控二人有罪。于是警方分开囚禁嫌疑犯,分别和二人见面,并向双方提供以下相同的选择,见表 1.1: 若一人认罪并作证检控对方(相关术语称“背叛”对方) ,而对方保持沉默,此人将即时获释,沉默者将判监 10 年。 若二人都保持沉默(相关术语称互相“合作” ) ,则二人同样判监半年。 若二人都互相检举(互相“
8、背叛” ) ,则二人同样判监 2 年。 讨论该案例的文献多将重点放在均衡的分析,本文侧重策略空间的性质这个策略空间的历史路径。我们有理由相信:在最初阶段,抓到嫌疑犯后警察提供的选择是“你们(注意是你们)认罪还是不认罪,如果认罪只判刑 2 年,要是不认罪,5 年!”那么,在只有两种选择的策略空间中,罪犯当然“赶紧”认罪,因为那是两者中最优化的策略。可是,两人在牢里天天受牢头欺负的罪犯就开始寻思呀:牢里日子可真不好受,我们是不是被警察骗了,假如我们不承认,警察能判我们 5 年吗?是的,我们不承认就不等于我们没有罪吗?没有罪警察怎么能判我们的刑?在此时,新的方案凸显了不承认,将判无罪!那么这个并不是
9、警方想看到的结果!于是警方陷入了僵局,警方想要的是双方都认罪,而出现的是不认罪的对罪犯有利的方案,因为如果都不认罪的话他5们确实无法给罪犯定罪,这个时候警方就提出了新的方案你们认罪的话,我们不但不给你们判刑,而且还给你们数量 1 的奖励,此时,便出现了新的“显性”的策略空间:都不认罪都不判刑;都认罪得到 1 的奖励;如果说仅是这两种方案,很显然他们会承认;可是,由于有第一回合的博弈(已有的演化经验) ,其中一个很可能“回忆”起认罪被判 2 年的经历!也就是说,在这个时候,认罪有两个可能的结果:(1)数量 1 的奖励;(2)判两年。也即不确定性出现了,于是就出现了最重要的也是首次的分化:一个认罪
10、,一个未认罪;一个被判 1 年,一个被判 3 年他们事前并未意识到的其中一种结果(自以为聪明的未认罪者认为他甚至看到了隐藏在警察提供的两种方案后面的第三个方案:认罪的话要判 2 年!) ;正是基于群体内的首次分化,分开审讯的想法便出现了,也就相应出现了新的方案:若一人认罪,而对方不认罪,认罪者判 1 年,不认罪者判 3 年。可以想到:在该方案出来之初,由于其中的不确定性,罪犯会均倾向于选择认罪(或者一方认罪) ,但随着相应的策略空间的稳定,罪犯们会选择另一个明显有利的策略都不认罪!随着罪犯选择的稳定,策略空间又会发生变化,警察会提供新的“显性”策略空间:若一人认罪,而对方不认罪,认罪者无罪释放
11、,不认罪者判 4 年。值得注意的是,此时,都不认罪与都认罪均是该空间的纳什均衡。在该方案出来之初,罪犯会均倾向于选择认罪(或者一方认罪) ,也就是说从其中的一个均衡逐渐变到了另外一个均衡,但同样的,随着相应的策略空间的稳定,罪犯们会选择另一个明显有利的策略都不认罪!直到“显性”的策略空间演化为文中囚徒困境的案例中6警方提供的选择空间。图 1.1 为该演化过程的一个简图。 需要说明的是,上述演化过程只是其中一种可能的演化路径中几个可能见到的切面,而真实的演化过程是我们无法事先确定,也是更为复杂的。但是从上述演化中我们还是能得到一些启发性的思考:其一,不论是真实的策略空间,还是“显性”的策略空间,
12、它们都是在不断变化的,其二,真实的策略空间和“显性”的策略空间往往是在对方趋于稳定的状态下变化的,且呈交替变化的状态;其三,真实的策略空间和我们“显性”的策略空间大多数时间是不一致的,也有一致的时候,但是由于真实策略空间本身在不断演化,即使二者一致,作为单个的决策者(他们往往经历过“显性”空间和真实空间的不一致)做出的决策并不是整体最优。换句话说,博弈并不仅仅是横向策略空间的识别与认知,更是当前策略空间与历史策略空间的博弈。所以决策是基于经验的,基于他所处的策略空间演化过程中的位置的。这种决策对于路径的依赖为多个纳什均衡中如何判断到底哪个纳什均衡是决策者倾向于选择的纳什均衡提供了思路。那就是决
13、策者往往选择与他所处的位置最靠近的那个均衡。其四,如果真实的策略空间相对固定见图中(3)(6),那么“显性”策略空间也会相对固定(见图中 67) ,也就是说这个时候决策者是能做出整体最优的决策的。然而这种均衡状态依然不能持久,其原因是随着“显性”策略空间的趋于稳定,真实的策略空间改变了。其五,经典囚徒困境实验的结果是囚徒均认罪这个纳什均衡占多数,初看与本文所持观念有出入(见“其四” ) ,但仔细探究会发现,实验的结果正是文中强调的演化过程的必然结果,之所以两个罪犯都趋向认罪,其实质并不是7他们受到了纳什均衡点的“吸引” ,而是在策略空间长期演化的过程中,罪犯往往得知的是:两人都不认罪,按真实的
14、策略空间,他们都不会被判刑;可是等到他们真的都不认罪,警方在后期的调查中又找到新证据呢?那么他们会重判!且这种情况是较普遍的。也即他们知道无论如何也无法预知所谓“理性空间” (见注释) ,仅能基于他所处的策略空间演化过程中的位置做出判断。其六,演化过程中,纳什均衡本身的变化相对缓慢。 五、结论 本文首先从演化的角度对纳什均衡所在的空间做了一个观察,认为纳什均衡所在的策略空间是不断变化的,这种变化以决策者的决策为前提,而决策者实施决策源于策略空间的变化,也即策略空间的变化互为因果,然后以“生产力”与“生产关系”的类比对此给出了一种解释。最后通过“囚徒困境”中策略空间的演化进一步说明了演化的必然性
15、并对演化的规律做了初步的分析,同时得到决策是基于所处的策略空间演化过程中的位置的结论,相应的策略空间中的某个纳什均衡并不能成为一种持续的决策所依赖的均衡。 参考文献: 1王则柯,李杰.博弈论教程M.北京:中国人民大学出版社,2010. 2Nash J.Non-cooperative gamesJ.Annals of Mathematics,1951, (54):286-295. 83美戴维M.克雷普斯.博弈论与经济模型M.邓方,译.北京:商务印书馆,2006. 4F.A.哈耶克.致命的自负M.冯克利,胡晋华,译.北京:中国社会科学出版社,2000. 5白瑞雪.生物学类比与演化经济学的发展阶段J.教学与研究,2011, (3):84-90. 6雷国雄.不确定性、创新不足与经济演化M.北京:科学出版社,2012. 7美索罗斯.金融炼金术M.孙忠,侯纯,译.海口:海南出版社,1999.