1、1第十章 对策论对策论(game theory)又称博奕论、策略运筹学等.对策论的主要研究对象是带有对抗性质的现象.它是在竞争场合下,双方(或多方)如何针对对手采取策略的一种定量分析方法.在人类社会生活中有许多带有竞争或对抗性的现象,小到打扑克、下棋之类的游艺比赛,大到人类与大自然之间的斗争、国际上政府间的各种外交谈判、医院与医院之间争夺国内外医疗市场等等,都存在着竞争.在这类现象中,由于竞争各方为取得胜利或尽可能好的结局,努力采取好的策略去对付对方,所以,这类现象被称为对策现象.对策论就是研究对策现象的数学理论与方法.由于它研究的对象以及处理问题的方法有明显的特色,所以日益引起人们广泛关注,
2、同时许多经济问题使经济学和对策论的研究结合起来,为对策论的应用提供了广泛的场所,也加快了对策论体系的形成.特别是在1994 年 10 月瑞典皇家科学院宣布把该年度的诺贝尔经济奖授予美国普林斯顿大学教授约翰纳什(J.Nash) 、加州大学教授约翰豪尔绍尼(J.Harsanyi)和德国波恩大学教授赖因哈德泽尔腾(Reinhard Selten) ,以表彰他们把对策论应用于现代经济分析所做出的突出贡献以后,对策论的理论研究及其应用研究在世界范围内又掀起新的高潮.不仅经济学家、企业界的巨头,而且许多军事、政府机构都十分关注这门科学的发展.对策论对于探索我国经济体制改革,发展和完善社会主义市场机制有着很
3、强的现实意义,许多管理者正努力地运用它去寻找市场竞争的策略,以提高自己的竞争地位.因此,作为卫生管理专业的大学生学点对策论,对于他们开拓视野,吸收新观念,提高竞争素质和科学决策水平是大有裨益的.本章将介绍一些对策论的基本概念、基本方法及其在管理中的应用.第一节 对策论的基本概念虽然对策来源于竞争,但并非所有的竞争都构成对策.例如,两个人玩掷一粒骰子竞赛,出现点数最多者获胜,这只是两人竞争胜负,但不构成对策,而两个孩子玩锤子、剪刀、布的游戏,就构成对策.也就是说要构成对策,必须具2备对策的基本要素.下面用我国古代“齐王赛马”的例子来说明对策的基本概念.在战国时期,齐国的国王有一天提出要与田忌进行
4、赛马.田忌答应后,双方约定:各自出三匹马;从上、中、下三个等级的马中各出一匹;每匹马都得参加比赛,而且只参加一次;每次比赛各出一匹马,一共比赛三次;每次比赛后负者要付给胜者千金.当时的情况是:在同等级的马中,田忌的马不如齐王的马,因而从总体情况来看,田忌要输掉千金了.但是,如果田忌的马比齐王的马高一等级,则田忌的马可取胜.于是,田忌的好友孙膑便给田忌出了个主意:每次比赛先让齐王说出他要出哪匹马;叫田忌用下马对齐王的上马(负) ;用中马对齐王的下马(胜) ;用上马对齐王的中马(胜).比赛结果:田忌二胜一负反而得千金.这是对策问题中以弱胜强的典型例子.一、对策的三个基本要素 (一)局中人 我们把对
5、策的每一方称为局中人(players ).这里的局中人必须是在一局对策中有权决定实施策略的人,而那些在一局对策中,既不作决策而结局又和他的得失无关的人(如棋赛时的公证人等) ,就不算局中人.显然,在齐王赛马的例子中,局中人是齐王和田忌,而不是参加比赛的马,也不是田忌的好友.在后面的讨论中,我们把一局对策中全体局中人的集合用符号 I 表示.局中人或为个人,或为集体,我们把那些利益完全一致的参加者们看作一个局中人,也可把大自然理解为局中人.我们还假定局中人都是同样聪明、有理智的.我们称只有两个局中人的对策现象为两人对策(two-person game) ,而多于两个局中人的对策称为多人对策.例如“
6、齐王赛马”就是一个两人对策.(二)策略及策略集 我们把局中人预先拥有的用来对付其它局中人的完整的行动方案和手段,称为局中人的一个策略(strategy).这里所说的策略必须是局中人选择的实际可行的通盘筹划的完整的行动方案,并非指竞争过程中某一步所采取的局部方案.例如在齐王赛马的例子中, “先出上马”只是作为一个策略的一个组成部分,并非一个完整的策略,而完整的策略是一开始就要把各人的三匹马排好次序,然3后依次出赛.那么三匹马排列的一个次序就是一个完整的行动方案,称为一个策略.如田忌先出下马,然后出中马,最后出上马(简记为(下、中、上) )就是田忌的一个策略.每个局中人拥有的策略的个数可以相同,也
7、可不相同,可以是有限个,也可以是无限个.我们把各局中人的策略的全体,称为这个局中人的策略集.上面赛马例子中,齐王和田忌各有六个策略:(上、中、下) ,(上、下、中) ,(中、上、下) ,(中、下、上) ,(下、中、上) ,(下、上、中) ,这六个策略构成局中人的策略集.我们用符号 表示局中人 的策略iSi集.如果在一局对策中,各个局中人都有有限个策略,我们称为有限对策(finite game),否则称为无限对策(infinite game).例如,齐王赛马就是一个有限对策.而市场竞争中,因价格变动可能有无限多个值,故可认为是无限对策.(三)赢得及赢得函数 局中人采用不同策略对策时,各方总是有得
8、或有失,统称赢得(payoff)或得失.在齐王赛马的例子中,最后田忌得 1 千金,而齐王损失 1 千金,即为这局对策(结局时)双方的赢得.可以用 1 和1 来表示.实际上,每个局中人在一局对策结束时的赢得,是与局中人所选定的策略有关,例如在齐王赛马的例子中,当齐王出策略(上、中、下) ,田忌出策略(下、上、中)时,田忌得千金;而如果齐王与田忌都出策略(上、中、下)时,田忌就得付出三千金了.所以用数学语言来说,一局对策结束时,每个局中人的赢得是全体局中人所取定的一组策略的函数,通常称为赢得函数(payoff function) .我们用符号 表示局中人 的赢得函数 .iHi在对策论中,从每个局中
9、人的策略集中各取一个策略,组成的策略组,称为一个局势(situation) ,用 表示.于是赢得是局势的函数.如果在任一局势中,S全体局中人的赢得相加总和等于零时,这个对策就称为零和对策(zero-sum game) ,否则就称为非零和对策.例如“齐王赛马”就是一个零和对策. 二、 对策的数学模型 一个对策模型就是由局中人、策略集、赢得函数这三部分组成的,用符号 IiSHIiSnIGi,214表示.对策的进行过程是这样的:每个局中人都从自己的策略集合 中选出一个iS策略 ,就组成一个局势 ,把局势 代iiiS, niSS121,入每个局中人的赢得函数 中,局中人 就获得 ,这局对策就结束了.H
10、i iHi例 10-1 猜硬币游戏两个参加者甲、乙各出示一枚硬币,在不让对方看见的情况下,将硬币放在桌上,若两个硬币都呈正面或都呈反面,则甲得 1 分,乙付出 1 分;若两个硬币一反一正,则乙得 1 分,甲付出 1 分.这时甲、乙分别是局中人甲和局中人乙,他们各有两个策略,出示硬币的正面或反面.用 分别表示局中人甲出示正面和反面这两个策略;用21,分别表示局中人乙出示正面和反面这两个策略.21,.当两个局中人分别从自己的策略集中选定一个策略,212SS以后,就得到一个局势,这个游戏的局势集合是.两个局中人的赢得函数2121121 , 是定义在局势集合上的函数,由给定的规则可得到,H1,1,1,
11、1, 2222112 HHH例 10-2 三个人作一个游戏,每个人同时出示一个硬币的正面或反面.如果三个人出示的全是正面或全是反面.则三个人的支付都是 0.如果有两个人出示正面,一个人出示反面,则出示反面的人扣两分,两个出示正面的人每人各得一分.如果有两个人出示反面,一个人出示正面,则出示正面的人扣两分,两个出示反面的人每人各得一分.这是一个三人对策,局中人集合 ,每个局中人有两个策略:3,21I出示正面或反面.如果用 1 代表出示正面,用 0 代表出示反面,那么1,032SSS5是局中人甲、局中人乙、局中人丙的策略集,局势为 3,21,0,321321 ixxSi用 表示局中人甲的赢得函数,
12、则1,xH1,0,1,10,20, 20111 H同样可以求出局中人乙、局中人丙的赢得函数 ,32,x.3213,xH现代对策论内容十分丰富,可以依据不同的原则进行分类.总体上可分为静态对策和动态对策两大类.在静态对策中,根据局中人之间是否允许合作又分为结盟对策和不结盟对策.结盟对策又分为联合对策和合作对策.在不结盟对策中,按策略多少分为有限对策和无限对策;按局中人的数目可分为二人对策和多人对策;按对策值分为零和对策和非零和对策等.在众多对策模型中,占有重要地位的是二人有限零和对策(finite two-person zero-sum game) ,这类对策中赢得函数可用矩阵表示,又称为矩阵对
13、策.矩阵对策是一种最简单的对策形式,最容易描述和分析,它是到目前为止在理论研究和求解方法方面都比较完善的一类对策,而且这类对策的研究思想和理论结果又是研究其它类型对策模型的基础.因此,本章主要介绍矩阵对策的基本理论和方法.第二节 矩阵对策一、矩阵对策的数学模型矩阵对策是指这样的对策:有两个局中人,每个局中人的策略集都是有限的,即 ,两个局中人的赢得函数nmSS , 21221 具有性质 .这类对策的局势集合是21,H0njmiji ,21;,21 包含 个局势.nm6设 njmiaHjji ,21;,21,1 就有 .jijji ,;,2 这样赢得函数就可以用一个 阶矩阵 来表示.称为赢得矩阵
14、njiaA(或支付矩阵).于是,我们就得到矩阵对策的数学模型为 nmjinaASSASG , 212m2121 其 中前面例 10-1 就是一个矩阵对策,其模型为,其中S,21 1,2121SS二、矩阵对策的解对于一个确定的矩阵对策,如何求出对策的解,也就是两个局中人如何选择自己的策略来对付对方,使得自己的收益最大或损失最小,这是下面我们要讨论的问题.为求出对策模型的解,首先需要对双方的对策条件作如下的假设:1对策双方的行为是理智的,对策略的选择不存在任何侥幸心理.2局中人选取策略的目标是收益最大或损失最小.3局中人同时选取各自的行动策略,且不知道对方选取哪一个策略.4对策中的有关规定和要求,
15、局中人是知道的.下面分两种情况讨论矩阵对策的解.(一)有鞍点的对策例 10-3 设一矩阵对策 ,其中 为局中人ASG,21321,S甲的策略集, 为局中人乙的策略集, 为甲的赢得矩阵43212,S2765437为了求出这个对策的解,我们分析一下对策双方的行动.局中人甲希望自己赢得多些,因为 的元素即甲的赢得,因此他希望能取到 中较大的元素,Ajia在 中最大的元素是 7,他如果想赢得 7,就应该选取策略 ,如果此时局中A 3人乙选取策略 ,则局中人甲就实现了他的预期理想.但是局中人乙的利益与2局中人甲恰好相反,他当然希望自己输的少些,也就是说,他希望取到 中较jia小的元素.如果他猜到了局中人
16、甲的企图,当局中人甲取策略 时,他取策略3,这就使局中人甲不仅赢不到 7,反而输 2.同样的,如果局中人甲知道局中4人乙取策略 时,他就取 而赢得 6.由于在零和对策中双方的利益正相反,42因此双方就必须考虑到:对方会设法使自己处于最不利的地位.假定局中人甲选取策略 ,相应于局中人乙选取不同的策略 ,1 4321,局中人甲的赢得分别是 1,1,3,4.其中最不利的是当乙选取 时,甲得到1.同样,局中人甲取策略 时,最不利的是得到 .当局中人26,543min甲取策略 时,他最不利的是得到 .这些“最不利的情况”32,47in实际上就是局中人甲的选取某个策略时不依赖于对方的选择所能得到的最小赢得
17、,称为甲采取其策略时的安全水准.例如局中人甲取策略 时,安全水准为11;取策略 时,安全水准为 3;取策略 时,安全水准为2.如果局中人23甲不想冒险的话,较为明智的选择是选取安全水准最高的策略,即 .2从局中人乙的立场看,当他取策略 时,最不利的情况是局中人甲取1时输去 ;乙取 时最不利的情况是输去 ;乙22,31max2 7,41max7取 时最不利的情况是输去 ;乙取 时最不利的情况是输去34,53ax4.因此他较为明智的选择是选取最不利情况中输得最少的策略,,64a即 ,此时不论甲采取怎样的策略,乙最多输 3(这是乙安全水准的反号,即1乙至少可得到3 的赢得).8一般地,对矩阵对策 ,
18、可列出下表:ASG,21nj mmniaaaa 2121212其中 ianii ,1,n21 是局中人甲采取策略 时的安全水准.injamjjj ,2,ax21 是局中人乙采取策略 时安全水准的反号.jjijimaVx,a211 称为策略 的最大最小值 .局中人甲取到 的策略称为甲的最大最小策略.G1Vjiijnaa,in212称为策略 的最小最大值 .局中人乙取到 的策略称为乙的最小最大策略.在上例中, ,所以 是局中人甲的最大最小策略.3,max1V2, 是局中人乙的最小最大策略,这里 .我们把36,57in2V1 21V的对策称为有鞍点的对策,把 称为对策 的值.这时无论1 21VG局中
19、人乙采用什么策略,局中人甲都采用一种策略 而无论局中人甲采用什么策略,局中人乙都采用一种策略 .因为,当局中人甲采用 时,如果局中12人乙不采用 而用其它的 ,则他要输的多一些(或一样多) ,可见 是局中1j 1人乙对付局中人甲的最好方法,因此我们把它称为局中人乙的最优纯策略.反过来,如果局中人乙采用 ,局中人甲若不采用 而用其它 ,则他要赢得少1 2i一些(至多一样多) ,因此也将 称为局中人甲的最优纯策略. 称为对策2 12,9的最优纯局势.这时,任一方想改变他的策略都不会得到好处.在双方不愿冒G风险的情况下, 是双方都满意的局势 .双方的竞争在局势 下达到12, 12,一个平衡状态.这时
20、也称 为对策 的一个平衡局势.把最优纯策略对12,G称为对策 在纯策略意义下的解.又称 为对策 的鞍点.例 10-312,12,G中的对策 就是一个有鞍点的矩阵对策,其在纯策略下的解为 ,对策值G12,为 3.在一般情况下,我们有:定义 10-1 设 为矩阵对策,其中ASG,21nmjinmaS , 21221 若等式 1 0axiniaxjijiijjji成立,称 为有鞍点的对策, 为对策 的值,称使(10-ASG,21 jiaVG1)式成立的纯局势 为对策 在纯策略下的解(对策 的平衡局势或鞍jiG点) , 分别称为局中人甲,乙的最优纯策略.ji,对于有鞍点的矩阵对策,求它在纯策略下的解和
21、它的值是很容易的.例 10-4 设矩阵对策 ,其中 ,ASG,214321,S,赢得矩阵 给出如下,试求出它的解和值.3212,SA065342解 在矩阵 的右边加一列 ,下边加一行 ,算出 , ,得Aiaja1V21064054032j iaAa4,min5x21V,因此对策 为有鞍点的对策.对策 在纯策略下的解是 ,对策21VGG12,的值 .4、例 10-5 设矩阵对策 ,其中 ,AS,214321,S,赢得矩阵 给出如下,试求出它的解和值.43212,S 1650202313A解 在矩阵 的右边加一列 ,下边加一行 ,算出 , :iaja1V2035601203A,minax21V,因此对策 为有鞍点的对策.对策的值 . 都是能取到对策值21VG0、V31,的纯策略,因此都是局中人甲的最优纯策略. 都是能取到对策值的纯策略,42,因此都是局中人乙的最优纯策略.所以 43234121 , 都是对策 在纯策略下的解 .G