范里安-中级微观经济学2014版-29博弈论的应用-东南大学曹乾

范里安-中级微观经济学2014版-29博弈论的应用-东南大学曹乾 29博弈论的应用曹乾（东南大学 caoqianseu@163.com） 588 曹乾曹乾曹乾曹乾●●●●经济学译丛精品系列经济学译丛精品系列经济学译丛精品系列经济学译丛精品系列 Intermediate Microeconomics:Intermediate Microeconomics:Intermediate Microeconomics:Intermediate Microeconomics: A Modern ApproachA Modern ApproachA Mode...

29博弈论的应用曹乾（东南大学 caoqianseu@163.com） 588 曹乾曹乾曹乾曹乾●●●●经济学译丛精品系列经济学译丛精品系列经济学译丛精品系列经济学译丛精品系列 Intermediate Microeconomics:Intermediate Microeconomics:Intermediate Microeconomics:Intermediate Microeconomics: A Modern ApproachA Modern ApproachA Modern ApproachA Modern Approach (8th Edition) Hal R. Varian 范里安范里安范里安范里安中级微观经济学中级微观经济学中级微观经济学中级微观经济学：：：：现代方法现代方法现代方法现代方法（（（（第第第第 8888 版版版版））））完美中文翻译 2014 版 29.博弈论博弈论博弈论博弈论应用应用应用应用（（（（含全部习题详细解答含全部习题详细解答含全部习题详细解答含全部习题详细解答））））曹乾译（东南大学 caoqianseu@163.com） 29博弈论的应用曹乾（东南大学 caoqianseu@163.com） 589 29博弈论的应用博弈论的应用博弈论的应用博弈论的应用在上一章，我们介绍了博弈理论中的几个重要概念，并分别举例进行了分析。在本章，我们分析博弈理论中的四个重要问题——合作、竞争、共存和承诺——看看它们在各种策略互动中是如何运行的。为了做此事，我们首先引入一个重要的分析工具，即最优反应曲线．．．．．．（best response curves）。我们可用这个工具求出博弈的均衡解。 29.1最优反应曲线最优反应曲线最优反应曲线最优反应曲线我们以两人参与的博弈进行分析，假设你是其中一个选手。对于对方的任何选择，你的最优反应．．．．（best response）就是使的你的收益最大化。如果有若干个选择都能使你的收益最大，那么你的最优反应是这些选择的集合。例如，考虑表 29.1 中的博弈，我们在上一章曾用该博弈说明纳什均衡的概念。如果位于列的选手 Column（以下简称 C）选择左，位于行的选手 Row（以下简称 R）的最优反应是选择上；若 C选择右，则 R的最优反应是选择下。类似地，若 R选择上、下时，C的最优反应分别为左、右。表表表表 29.1：一个简单的博弈。我们将这些信息列于下表： C的选择：左右 R的最优反应：上下 R的选择：上下 29博弈论的应用曹乾（东南大学 caoqianseu@163.com） 590 C的最优反应：左右注意，若 C认为 R会选择上，则 C会选择左；而且而且而且而且．．若 R认为选择左，则 R会选择上。因此（上，左）这对选择是相互一致（mutually consistent）的，因为这对选择是由每个选手对对方选择的最优反应组成的。考虑一个更一般的两人博弈，其中 R的选择为 Rrr ,...1 ，C的选择为 Ccc ,...1 。对于 R的每个选择 r，令 )(rbc 表示 C的一个最优反应；对于 C的每个选择c，令 )(cbr 表示 R的一个最优反应。则一个纳什均衡为满足下列条件的一对策略 ),( ** cr ： )( ** rbc c= )( ** cbr r= . 选择的“相互一致性”其实就是指的是纳什均衡。若 R预期 C会选择左，则 R会选择上，而且若 C预期 R选择上，则 C会选择左。因此，纳什均衡时，选手之间的信念信念信念信念．．（beliefs）和行动行动行动行动．．（actions）实现了相互一致。注意，有些情形下，其中一个选手可能对他的几个最优反应是无差异的。这也就是为什么我们只要求 *c 是 C的一个一个一个一个．．最优反应， * r 是 R的一个一个一个一个．．最优反应即可。如果每个选择的最优反应是唯一的，那么最优反应曲线可用最优反应函数函数函数函数．．表示。这种看待纳什均衡概念的方式，使我们更容易明白纳什均衡只不过是第 27章介绍的古诺模型的一般形式。在古诺模型中，选择变量是产量，它是个连续变量。古诺均衡具有下列性质：给定其它企业的选择，每个企业选择的是能使利润最大化的产量。我们在第 27章还介绍过伯特兰模型，该模型是价格策略的纳什均衡。给定其它企业的选择，每个企业选择能使利润最大化的价格。这些例子表明最优反应曲线是以前模型的一般形式，借助最优反应曲线我们可以更容易求出纳什均衡解。这些性质使得最优反应曲线成为求解博弈均衡的非常有用的工具。 29.2混合策略混合策略混合策略混合策略下面我们用最优反应曲线分析表 29.2所示的博弈。表表表表 29.2：求解纳什均衡。 29博弈论的应用曹乾（东南大学 caoqianseu@163.com） 591 我们对混合策略均衡和纯策略均衡同样感兴趣，因此，令 r表示 R选择上的概率， r−1 表示他选择下的概率；类似地，令c表示 C 选择左的概率， c−1 表示他选择右的概率。由纯策略的定义可知，当 r和 c等于 0或 1时，就是纯策略。下面我们计算如果 R以概率 r选择上并且 C以概率c选择左时，R的期望收益。请看下表：组合概率 R的收益上，左 rc 2 下，左 cr)1( − 0 上，右 )1( cr − 0 下，右 )1)(1( cr −− 1 为了计算 R的期望收益，我们将上表第 3列的收益乘以以第 2列的相应概率（权重），然后相加，可得 R的收益= )1)(1(2 crrc −−+ ，整理可得 R的收益= rccrrc +−−+12 . 现在假设 R考虑将 r提高 r∆ 。收益将会怎样变化？ R的收益变化= .)13(2 rcrcrrc ∆−=∆+∆−∆ 当 13 >c 时，上述表达式为正，当 13 c 时，R会提高 r；当 3/1r 时，C会提高c；当 3/2c 时，R的最优反应为 1=r 。 29博弈论的应用曹乾（东南大学 caoqianseu@163.com） 592 这些曲线如图 29.1所示。容易看出，它们在三个地方相交： )0,0( , )3/1,3/2( 和 )1,1( ，它们分别对应着该博弈的三个纳什均衡解。这三组策略中有两组是纯策略，一组是混合策略。图图图图 29.1：：：：最优反应曲线最优反应曲线最优反应曲线最优反应曲线。蓝色曲线表示选手 R的最优反应曲线，黑色曲线表示选手 C的最优反应曲线。这两条曲线的交点均为纳什均衡解。在这个例子中，有三个均衡解，其中两个是纯策略均衡解，一个是混合策略均衡解。 29.3合作博弈合作博弈合作博弈合作博弈利用最优反应曲线，我们现在开始分析合作博弈合作博弈合作博弈合作博弈．．．．（coordination games）。合作博弈是指当选手能调和他们的策略时，他们的总收益最大。在实践中，这类博弈的问题是要找到能使选手合作的机制。性别大战合作博弈中的一个经典例子就是所谓的性别大战（battle of the sexes）。在这个博弈中，一个男孩和一个女孩希望约会去看电影，但是没约好看哪一步电影。他们又没带手机，因此 29博弈论的应用曹乾（东南大学 caoqianseu@163.com） 593 无法商量看什么样的电影，只能猜测对方的偏好。表表表表 29.3：性别大战。男孩想看新上映的动作片，而女孩则喜欢看文艺片，但是与不约会相比，他们宁愿看同样的电影。这些偏好的相应收益如表 29.3 所示。注意合作博弈的特征：合作时的收益比不合作时的收益高。这个博弈的纳什均衡是什么？幸运的是，这个博弈恰好就是我们上一节用于介绍最优反应曲线的那个博弈。我们已经知道该博弈有三个均衡解：两人都选择动作片，两人都选择文艺片，或者每人以 2/3的概率选择他（她）喜欢的电影。由于这三个解都是可能的均衡解，因此仅靠上述信息我们很难确定他们具体会选哪一个。一般来说我们需要依靠博弈以外的因素来确定该博弈的解。比如，假设播放艺术片的影院离其中一人较近等。因此，这两个人可能认为一起看艺术片就是均衡的选择。当所有选手有合理的理由认为其中一个均衡比其他均衡更“自然”，则这个均衡称为该博弈的一个焦点焦点焦点焦点．．（a focal point）。囚犯的两难我们上一章分析的囚犯的两难博弈，也是一个合作博弈。我们已知道这个博弈说的是：每个囚犯都可以选择认罪从而供出了另一方，或者选择不认罪。该博弈的收益矩阵如表 29.4 所示。图图图图 29.4：囚犯的两难 29博弈论的应用曹乾（东南大学 caoqianseu@163.com） 594 这个博弈的突出特征是认罪是占优策略，尽管合作（双方都不认罪）的总收益更大。合作能使得每个罪犯的收益最大，但问题是在只有一轮的博弈中，几乎找不到能让他们合作的方法。囚徒两难的一种解决方法是拓展该博弈，比如增加新的选择。我们在上一章已知道，无限次重复的囚犯两难博弈，可以通过以牙还牙策略实现合作的结果。以牙还牙指的是在将来的行动中奖励合作惩罚背叛。该情形下，新增加的选择就是今天的不合作将会导致后来的惩罚。另外一种“解决”囚犯的两难问题的方法，是选手之间可以签订合同彼此约束，和上面类似，这也是为原博弈增加备选策略的一种方法。例如，两个选手在合同中约定彼此坚持选择合作的策略。如果任何一方违约，则需要支付罚金或者受到其他惩罚。合同有助于实现博弈的各种结果，但是合同依赖于法律系统，即需要法律保证这些合同的约束力。商业合同的约束力通常可由法律保证，但是对于军事博弈或国际谈判这类情形，似乎没有合适的法律能够约束人们的行为。保证博弈（assurance games） 1950 年代美国（U.S.）和前苏联（U.S.S.R）展开军事竞赛，每个国家都可以选择制造原子弹或者不制造。这些策略的收益如表 29.5 所示。双方最好的结果是不制造原子弹，此时收益为（4,4）。但是如果一个不制造而另外一个制造，那么制造者得到的收益为 3，而不制造者得到的收益为 1。双方都制造时的收益为（2,2）。图图图图 29.5：军事竞赛博弈不难看出，该博弈有两个纯策略纳什均衡（不制造，不制造）和（制造，制造）。然而，（不制造，不制造）对于双方更有利。问题在于，哪一方都不知道对方的策略选择。在承诺不制造之前，每个国家都希望对方率先做出不生产的保证。做出保证的一种方法是，其中一个国家率先做出表率，例如允许对它进行检查。注意，这种行为可以是单方面的，至少在它相信该博弈的收益时它会这么做。如果一个国家宣布它 29博弈论的应用曹乾（东南大学 caoqianseu@163.com） 595 停滞制造原子弹，并且能够向对方展示足够的停产证据，那么它就会相信对方也会停止制造，因为此时的收益(4,4)是最大的。谁是懦夫？我们分析的最后一种合作博弈叫懦夫博弈（chicken game）（一），你在电影中经常会看到这样的场景：两个小伙（Row和 Column，以下分别简称 R和 C）分别从街道的两头，开着车笔直地向对方冲去。谁首先转弯谁就被讥笑为懦夫；如果两个人都不转弯，那么他们就会撞车。可能的收益见表 29.6。这个博弈有两个纯策略纳什均衡（R 转弯，C 转弯）和（C 转弯，R 不转弯）。C 更喜欢第一个均衡，而 R 更喜欢第二个。注意该博弈和保证博弈的区别，在前面的那个保证博弈中，我们知道，两个选手的选择相同时（都制造原子弹或都不制造原子弹），它们各自的状况比其他选择更好。然而，在懦夫博弈中，两个选手的选择相同时（都不转弯或都转弯），它们的状况比其他选择更差。每个选手都知道，如果他承诺绝不转弯，另外一个选手就会妥协。但是当然，每个选手也都知道撞车是很疯狂的事情。因此，其中一个选手如何实施他喜欢的均衡？一种重要的策略是承诺。假设 R夸张地将方向盘锁定从而只能直行。C认识到 R 除了直行之外别无选择，所以 C 会选择转弯。当然，如果两个选手都锁定了方向盘，结果将是灾难性的撞车！图图图图 29.6:懦夫博弈。如何合作？如果你是某个合作博弈的选手，你可能希望对方与你合作：在合作博弈中，你希望对方选择你们都偏爱的均衡；在性别大战博弈中，你希望对方选择你们其中一方偏爱的均衡；在囚徒的两难博弈中，你希望对方选择的不是实现均衡的策略（即希望对方不认罪）；在懦（一）国内教科书通常叫做“斗鸡博弈”，显然是误译。不过联系上下文可知，这个误译不是太离谱。 29博弈论的应用曹乾（东南大学 caoqianseu@163.com） 596 夫博弈中，你希望对方做出选择从而达到你喜欢的结果。在保证博弈、性别大战博弈和懦夫博弈中，实现合作的方法是其中一个选手率先行动，并且他向对方承诺坚持某个既定的选择。对方于是可以观察他的行为，从而相应做出反应。在囚犯的两难博弈中，这种方法不可行：如果一个选手选择不认罪，则对方会选择认罪。“解决”囚犯的两难问题的主要方法是重复博弈和签订合同。 29.4竞争博弈竞争博弈竞争博弈竞争博弈竞争博弈是与合作博弈相反的另外一个极端。这种博弈就是有名的零和博弈．．．．（zero-sum games），这是因为在这种博弈中，一方的收益等于另一方的损失。绝大多数体育比赛都是零和博弈：一个队伍得到一分，另外一个队伍就失去一分。这种博弈的竞争非常激烈，因为不同选手的利益正好相反。我们以足球为例进行分析。选手 R 来踢罚球点球，选手 C防守。R可以踢向球门左方也可以踢向右方；为了扑出点球，C可以扑向左方也可以扑向右方。我们以期望得分（期望进球机率或期望扑出机率）表示这些策略的收益。显然如果 C 扑错了方向，R 的收益会更高。另外一方面，这个博弈可能不是完全对称的，因为 R 可能只擅长向某一个方向踢，C也可能只擅长向某个方向扑。假设 R踢向左，若 C扑向右时，R进球的机率为 80%，但 C也扑向左时，R进球的机率只有 50%；R踢向右，若 C扑向左时，R进球的机率为 90%，但 C也扑向右时，R进球的机率只有 20%。这些收益如表 29.7所示。表表表表 29.7：足球赛中点球的博弈注意，每个小方格中的两人收益之和为零，这表明选手得分正好完全相反。R 和 C 都希望使得自身的期望收益最大化，换句话说，就是使对方的收益最小化。显然，如果 C 知道 R 的踢球方向，C 将具有明显优势。意识到这一点，R 会尽量让 C 29博弈论的应用曹乾（东南大学 caoqianseu@163.com） 597 猜测。具体地说，R有时会踢向自己擅长的方向，有时踢向自己不擅长的方向。也就是说他的测了是一种混合策略．．．．（a mixed strategy）。假设 R以概率 p踢向左，若 C扑向右，则 R的期望收益为 )1(9050 pp −+ ，若 C扑向右，则 R的期望收益为 )1(2080 pp −+ 。R极力使自己的期望收益尽量大，C则极力使 R的期望收益尽量小。例如，假设 R 选择踢向左的概率为 50%。如果 C 扑向左，R 的期望收益为 702/1902/150 =×+× ，若 C扑向右，则 R的期望收益为 502/122/180 =×+× . C当然也可以进行类似推理。若 C相信 R踢向左的概率为 50%，则 C会扑向右，因为这样的选择能使 R的期望收益最小（因此最大化 C自己的期望收益）。图 29.2表明了 R选择不同概率值 p时的期望收益。画出这个图并不难，只要画出函数 )1(9050 pp −+ 和 )1(2080 pp −+ 的图形即可。由于这两个函数都是 p的线性函数，因此它们的图形都是直线。图图图图 29.2：R 的策略的策略的策略的策略。两条曲线表明，R 的期望收益是 p的函数，其中 p为他踢向左方的概率。不管 R选择怎样的 p值，C都会极力使得 R的收益最小。 R知道 C会极力使得 R的期望收益最小。因此，对于任何概率水平 p，R能获得的最大收益是他的两个策略的收益值中最小最小最小最小．．的那个。我们用黑色粗线段表示这些最小值。 29博弈论的应用曹乾（东南大学 caoqianseu@163.com） 598 这些最小收益中的最大值在哪个地方出现？显然，它位于黑色粗线段的顶点，或者说位于这两条直线相交之处。我们可以使用代数方法求解此时的概率值 p , =−+ )1(9050 pp )1(2080 pp −+ 由此可得 7.0=p . 因此，若 R 以 70%的概率踢向左，而且 C 以做出了最优的反应，则 R 的期望收益为 623.0907.050 =×+× 。 C 的结果如何？我们可以对 C 的选择进行类似分析。假设 C 以概率q扑向左方，以概率 q−1 扑向右方。因此，C扑向左方时，R的期望收益为 )1(8050 qq −+ ；C扑向右方时， R 的期望收益为 )1(2090 qq −+ 。对于每个概率水平q，C 都会极力使得 R 的收益最小最小最小最小．．，但是 C也知道 R会尽量使得这个收益最大最大最大最大．．。因此，若 C 以概率 1/2 扑向左方：他知道若 R 踢向左，则 R 的期望收益为 652/1802/150 =×+× ；若 R 踢向右，则 R 的期望收益为 552/1202/190 =×+× 。在这种情形下，R当然会选择踢向左方。图图图图 29.3：：：：C的策略的策略的策略的策略。两条曲线表明，C的期望收益是q的函数，其中q为他扑向左方的概率。不管 C选择怎样的q值，R都会极力使得他自己的收益最大。 29博弈论的应用曹乾（东南大学 caoqianseu@163.com） 599 我们可以画出这两条收益曲线，如图 29.3所示，这个图和 29.2类似。从 C的观点来看，他关注的是这两条曲线的最大值，因为最大值反映了对于 C所选择的概率q，R的最优反应。因此，我们用黑丝粗线段表示这些最大值。和前面一样，我们可以找到 C的最优q值，该 q 值恰好使得 R从他的最大收益集中选出了最大的那个。这个最大值发生在 =−+ )1(8050 qq )1(2090 qq −+ 由此可得 6.0=q 我们已经计算出了这两个选手 R和 C的均衡策略。R应该以概率 0.7踢向左，C应该以概率 0.6扑向左。此时，不管对方选择何种策略，R和 C的期望收益是相同的，因为我们计算这两个概率的方法就是令对方两个策略的期望收益相等。因此，当 R选择以概率 0.7踢向左，则 C在扑向左还是扑向右之间是无差异的，或者说此时 C可以以任意概率q扑向左。特别低，C最喜欢以概率 0.6扑向左。类似地，若 C 以概率 0.6 扑向左，则 R 在踢向左还是踢向右之间是无差异的，或者说他可以随便扑向左或右。特别地，R最喜欢以概率 0.7踢向左。因此，（R以概率 0.7踢向左， C以概率 0.6扑向左）是一个纳什均衡：给定对方的选择，每个选手选择的策略都是最优的。在均衡时，R 进球的概率为 62%、不进球的概率为 38%。如果 C 的反应是最优的，这是 R 能实现的最好结果。如果 C的反应不是最优的，结果会如何？R能实现更大的收益吗？为了回答这个问题，我们需要使用本章一开始介绍的最优反应曲线。我们已经知道，当 p小于 0.7时，C会扑向左；当 p大于 0.7 时，C 会扑向右。类似地，当q小于 0.6 时，R 会踢向左；当q大于 0.6 时，R会踢向右。 29博弈论的应用曹乾（东南大学 caoqianseu@163.com） 600 图 29.4：最优反应曲线最优反应曲线最优反应曲线最优反应曲线。图中分别画出了 R和 C的最优反应曲线。R的最优反应曲线是他踢向左的概率 p的函数；C的最优反应曲线是他扑向左的概率q的函数。图 29.4画出了 R 和 C 的最优反应曲线（一）。注意，这两条曲线在 7.0=p 且 6.0=q 时相交。最优反应曲线的优点在于，不论对方的选择是否是最优的，它都能告诉选手自己如何进行选择。对最优反应的最优反应，就是这两条曲线相交之处，在这一点上实现了纳什均衡。 29.5 共存博弈在前面，我们将混合策略解释为选手随机选择策略。在罚点球的博弈中，若 R 的策略是以 0.7的概率踢向左方、以 0.3的概率踢向右方，则我们认为 R将“混合使用他的策略”： 70%的时间内踢向左方、30%的时间内踢向右方。但是，还有另外一种解释。假设我们随机地选择一批罚球选手，而且假设这些选手中 70%的人总是踢向左方，30%的人总是踢向右方。那么，从守门员的角度来看，这相当于他面对这样一个罚球手：他以 70%的概率踢向左方、以 30%的概率踢向右方。这种解释对于罚球博弈来说不太合理，但是对于动物行为来说则是合理的。此处的思想是，动物的各种行为来自遗传，能够生存下来的种群通常具有稳定的进化能力。近些年来，生物学家在分析动物行为时，博弈理论称为不可或缺的研究工具。动物间相互作用的最著名博弈莫过于鹰鸽博弈．．．．（hawk-dove game）。这个博弈不是指鹰和鸽子之间的博弈（如果是，结果很容易预测），而是指的是具有两类行为的同一物种之间的博弈。我们以野狗为例进行分析。当两只野狗同时遇到食物时，它们必须决定是争斗还是分享。争斗是鹰派的策略：一胜一输。分享是鸽派的策略：当对方也是鸽派时，分享是个好策略，但如果对方是鹰派，分享的提议就会被拒绝，鸽派将一无所得。表 29.8给出了可能的一组收益。（一）注意，英文原版书在图 29.4中正好将 R和 C的反应曲线标注错了。我们此处修正了这个错误。 29博弈论的应用曹乾（东南大学 caoqianseu@163.com） 601 表表表表 29.8：鹰鸽博弈。如果两只野狗都愿意分享，则它们的收益为（2,2）。若一只猎狗想争斗，而另外一只想分享，则争斗者夺取全部食物。但是如果两只野狗都愿意争斗，那么它们将受伤严重。显然，如果每只野狗都想争斗，则无法实现均衡，因为如果一只猎狗将争斗的策略改为分享，它的收益为 0而不是-2。而且如果两只猎狗都愿意分享，也很难实现均衡，因为若一只猎狗将分享策略改为争斗，它将占有全部食物。因此，如果我们站在野狗种群的角度，那么均衡时，必然有些野狗是鹰派（争斗），另外一些野狗是鸽派（分享）。问题是它们之间的比例是多大？假设鹰派野狗占野狗总数的比例为 p。因此，一只鹰派野狗遇到另外一只鹰派野狗的比例为 p，而遇到一只鸽派野狗的比例为 p−1 。鹰派野狗的期望收益为 ).1(42 ppH −+−= 鸽派野狗的期望收益为 ).1(2 pD −= 假设哪一类的收益高，哪一类野狗的繁殖能力就越快，而且还会将这种倾向遗传给后代。那么，如果 DH > ，那么种群中鹰派的比例就会上升；如果 DH < ，那么鸽派的比例就会上升。野狗种群中的唯一均衡出现在鹰派收益和鸽派收益相等时，即 DpppH =−=−+−= )1(2)1(42 ，由此可解得 2/1=p 。我们已经知道均衡时，鹰派和鸽派的比例为 50%-50%。这个均衡在某种意义上是一个稳定的均衡吗？我们在图 29.5 中画出鹰派和鸽派的收益曲线，它们都是概率 p的函数，其中 p表示鹰派的比例。注意，当 2/1>p 时，鹰派的收益小于鸽派的收益，因此我们可以预期，鸽派的繁殖速度更快，这使得我们又回到 50%-50%这个均衡比例。类似地，当 2/1

p 时，鹰派的收益小于鸽派的收益，反之则反是，这表明该均衡（0.5,0.5）是稳定的。这个论证表明 2/1=p 不仅是一个均衡解，而且在进化力的作用下，它也是一个稳定均衡解。这类分析引出了一个称为进化稳定策略．．．．．．（evolutionarily stable strategy, ESS）（一）。明显地，一个进化稳定策略就是一个纳什均衡，尽管我们是用种群而不是用个体推导出这个进化稳定策略的。纳什均衡的概念旨在计算出下列情形下的均衡解：两个精于算计的理性人的博弈中，每个人试图找出自己的最优策略来应对对方的最优策略。而进化稳定博弈则是用来分析动物种群在进化力作用下的行为，哪一类（比如上例中的鹰派或鸽派）的收益更大，哪一类的繁殖速度将更快。尽管存在应用环境的差别，进化稳定博弈也是纳什均衡，这再次说明纳什均衡这个概念在博弈论中的地位有多么重要。 29.6承诺博弈承诺博弈承诺博弈承诺博弈前文介绍的合作博弈和竞争博弈的各个例子，都是同时行动．．．．（simultaneous moves）的博弈。在不知道对方正在或者已经选择出何种策略的情形下，每个选手必须做出自己的选择决策。的确，在合作博弈或竞争博弈中，如果一个选手知道对方的选择，那么博弈的结果将非常容易解得。（一）See John Maynard Smith, Evolution and the Theory of Games, (Cambridge University Press, 1982). 29博弈论的应用曹乾（东南大学 caoqianseu@163.com） 603 在本节，我们将分析序贯行动．．．．（sequential moves），即选手行动顺序有先后之分而不再是同时。这类博弈中的一个重要策略称为承诺．．（commitment）。为了看清承诺是如何运行的，我们可以再回头看看上一章介绍的懦夫博弈。在懦夫博弈中，如果一个选手能强迫自己选择直行而不是转弯，另外一个选手的最优选择是转弯。在保证博弈中，如果一方能率先行动，那么博弈的结果将对双方选手都更有利。注意，这个承诺必须是不可撤销（即不可反悔）的，而且必须是能被对方观测到。承诺本身就意味着不可撤销，否则还叫什么承诺。但是，承诺的可观测性非常重要，因为只有这样才能让对方改变行为。青蛙和蝎子我们从一个关于青蛙（frog）和蝎子(scorpion)的寓言故事开始分析。青蛙和蝎子站在河岸上，它们想找到过河的方法。 “我想出了一个办法”，蝎子说，“我爬到你的背上，你游过河去。”青蛙回答说，“但是如果你蛰我，我怎么办？”蝎子说，“我为什么会蛰你呢？那样我们都会被淹死。” 青蛙发现这种方法可行，因此蝎子爬上了青蛙的后背，它们开始过河。到了河中央，也就是河水最深处，蝎子蛰了青蛙一下。青蛙疼得打了一个滚，叫道，“你为什么要蛰我？现在我们都要完蛋了！”“哎呀，”蝎子后悔地说，“这是我的天性。”青蛙和蝎子沉入了水底。下面我们使用博弈论分析这个寓言故事。根据此故事，我们可以给出这个序贯博弈的收益，如图 29.6 所示。从博弈树的根部开始分析。如果青蛙拒绝了蝎子，它们的收益都为零。看图中蝎子不蛰青蛙的这根分支，此时青蛙因为做了件好事，得到的效用为 5，而蝎子因为过了河，得到的效用为 3。而若蝎子蛰青蛙时，青蛙得到的收益为-10，蝎子得到的效用为 5，因为蝎子从它的天性行为（蛰别人）中得到了满足。图 29.6：青蛙和蝎子的博弈青蛙和蝎子的博弈青蛙和蝎子的博弈青蛙和蝎子的博弈。若青蛙选择背着蝎子过河，蝎子会选择蛰青蛙，它们都会被淹 29博弈论的应用曹乾（东南大学 caoqianseu@163.com） 604 死。 --------------------------------------------------------------------------------------------------------------------- 最好从该博弈的最后一步进行分析：蝎子可以选择蛰或不蛰。选择蛰的收益较高，因为蛰是蝎子的“天性”。因此，青蛙的理性选择是解决蝎子的提议。不幸的是，青蛙没有认识到蝎子的收益；显然，他错误地认为蝎子的收益为图 29.7 中的的情形。这个错误对于青蛙来说是致命的。图图图图 29.7：青蛙眼里的青蛙眼里的青蛙眼里的青蛙眼里的（（（（错误的错误的错误的错误的））））博弈收益博弈收益博弈收益博弈收益。在这样的博弈收益情形下，如果青蛙选择背着蝎子过河，蝎子不会蛰青蛙，它们因此能安全过河。青蛙的明智选择是找到让蝎子做出承诺不蛰的方法。例如，将蝎子的尾刺绑住。或者它可以雇用青蛙杀手，如果蝎子不履行承诺，则青蛙杀手会对蝎子的家庭进行报复。不管选择什么样的方法，对于青蛙来说，最重要的事情是能改变蝎子的收益，即让蝎子为蛰这种行为付出更大的代价或者大幅度减少蛰的收益。这些绑匪不太冷在某些国家，绑架别人索要赎金是一种大生意。在哥伦比亚，据估计，每年发生 2000 例绑架勒索案。在前苏联，1992年绑架案为 5例，但到了 1999年，该数字急剧增加到 105 例。很多受害者是来自西方发达国家的商人。有些国家，比如意大利制定法律禁止支付赎金。立法的原因是如果受害者家庭或者雇员承诺不支付赎金，那么绑匪就没有动机进行绑架。问题当然在于，一旦绑架发生，受害者的家庭倾向于向绑匪支付赎金，尽管这么做是违法的。因此，对支付赎金的行为进行处罚，不是一种有效的承诺工具。假设绑匪绑架了某个人质之后发现得不到赎金。那么，他们是否应该释放人质?人质当然会承诺不会揭发绑匪的身份。但是人质能遵守自己的承诺吗？一旦绑匪释放了人质，他没 29博弈论的应用曹乾（东南大学 caoqianseu@163.com） 605 有守诺的动机——每个人都希望绑匪得到惩罚。即使绑匪愿意释放人质，他们也不能这么做，因为这样做的后果是他们的身份就暴露了。图 29.8 给出了某些可能的收益。如果绑匪杀掉人质，他内心会不安，因此得到的收益为-3。当然，人质的状况更糟，人质得到的收益为-10。如果绑匪释放人质，而且人质不揭发绑匪，那么人质的收益为 3，绑匪的收益为 5。但是，如果人质揭发了绑匪，人质得到的收益为 5，绑匪得到的收益为-5. 图图图图 29.8：绑架博弈绑架博弈绑架博弈绑架博弈。绑匪可能愿意释放人质，但是如果他们这么做，人质在获得自由后会揭发绑匪的身份。现在是人质面临承诺问题：他如何说服绑匪相信他不会违约，即不会揭发绑匪的身份？人质需要找到能改变这个博弈收益的方法。具体地说，他要找到的方法要能做到：若他揭发绑匪，那么他将承担相应的代价。马里兰大学有位经济学家叫做 Thomas Schelling，他长期致力于研究动态博弈中的策略分析。他的建议是，人质可以让绑匪拍摄他的不雅照片，然后把这些照片交给绑匪保存。这种策略有效地改变了博弈的收益，因为人质在获得自由后，他在考虑是否揭发绑匪时不得不顾虑那些不雅照片。这种策略称为“交换人质”(exchange of hostages)。在中世纪（一），当两个国王希望保证他们之间的合同不被违约时，他们采取的策略通常是交换人质，而这些人质通常是他们的家庭成员。由于任何一个国王都不希望自己的家庭成员送命，因此每个国王都有遵守合同约定的激励。在绑架博弈中，如果不雅照片流出，人质将会付出代价，因此这种策略保证了人质会（一）中世纪（Middle Ages）（约公元 476年~公元 1453年），是欧洲历史上的一个时期（主要是西欧）。译者注。 29博弈论的应用曹乾（东南大学 caoqianseu@163.com） 606 遵守约定，从而不会揭发绑匪的身份。力大何时成为劣势？我们下一个例子来自动物心理学领域。研究发现，猪群能迅速建立领导-被领导（dominance-subordinateness）关系，猪领导统治着身边的猪下属。有些动物心理学家将两只猪放入一个长方形的猪圈内，其中一只猪是领导，另外一只猪是下属（二）。实验人员在猪圈的一端摆放了一个猪食操作杆，触动操作杆将有猪食流出，但是要注意，猪食槽却摆放在猪圈的另一端。实验人员关注的问题是：哪只猪会去触动操作杆，哪只猪能吃到食物? 表 29.9：猪领导和猪下属之间的博弈。实验的结果多少令人惊讶：猪领导触动操作杆，猪下属在猪食槽旁边等待食物流出。因此，猪下属得到了大部分食物，而猪领导在触动操作杆后拼命跑到猪食槽，却只能吃到很少一点残渣。表 29.9给出了这个博弈的收益。猪下属比较收益（0,4）和（0,2），断定：不触动操作杆明显好于触动。由于猪下属不去触动操作杆，猪领导别无选择只能亲自去触动操作杆。如果猪领导不是将全部食物吃光，而是将部分食物奖励给触动操作杆的猪下属，那么它就能得到更好的结果。问题是，这两只猪之间没有合同约束，而且猪领导也很难做到不将食物吃光。和前面绑架博弈一样，猪领导面临自己做出承诺的问题。如果它能承诺不将所有食物吃光，那么它的状况就会变好。储蓄和社会保障承诺问题并不局限于动物世界。它们也存在于现实中的经济政策。（二）The original reference is Baldwin and Meese, "Social Behavior in Pigs Studied by Means of Operant Conditioning," (Animal Behavior, (1979)). I draw on the description of John Maynard Smith, Evolution and the Theory of Games (Cambridge University Press, 1982). 29博弈论的应用曹乾（东南大学 caoqianseu@163.com） 607 人们在退休后收入会减少，因此我们会预期人们会提前储蓄。然而，事实上尽管人们都口头上对提前储蓄赞不绝口，但是很少人真得去储蓄。人们不愿意储蓄的部分原因是，他们认为社会不会让他们挨饿，因此在将来，社会很有可能养活他们。我们将这个问题表述为代际之间的博弈。假设老一代的策略有两个：储蓄或挥霍。年青一代的选择也有两个：赡养老一代和为自己退休进行储蓄。可能的收益矩阵如表 29.10所示。表 29.10：储蓄的代际冲突如果老年人自己储蓄而且年青人也会赡养他们，那么老年人的收益为 3，年青人的收益为-1。如果老粘人挥霍乱花而且年青人赡养他们，那么老年人的收益为 2，年青人的收益为 -1。如果年青人不赡养而且老年人自己储蓄，那么老年人的收益为 1，年青人的收益为 0. 最终，如果老年人挥霍而且年青人不赡养，那么各自的收益均为-2，因为这样老年人会挨饿，年青人因旁观而心里会不安，所以收益均为负。不难看出，这个博弈有两个纳什均衡。如果老年人选择储蓄，那么年青人的最优选择就是不赡养。但是如果老年人选择挥霍，那么年青人的最优选择是赡养他们。当然，如果年青人选择赡养老年人，老年人的最优选择是挥霍！然而，上面的分析忽略了这个博弈的时间结构：老年人为数不多的好处是能先变老，呵呵。如果我们画出博弈树，收益如图 29.9所示。如果老年人储蓄，年青人就会选择不赡养，因此老年人的收益为 1。如果老年人挥霍，而年青人不忍看他们到时挨饿而会赡养时，老年人的收益为 3。由于知道年青人会赡养，所以老年人的明智选择是挥霍。 29博弈论的应用曹乾（东南大学 caoqianseu@163.com） 608 图 29.9：储蓄博弈的展开形储蓄博弈的展开形储蓄博弈的展开形储蓄博弈的展开形。由于知道年青一代会赡养，老一代的最优选择是挥霍乱花。子博弈的完美均衡为（挥霍，赡养），均衡时收益为（2，-1）。当然，大多数发达国家都实施了社会保障计划项目进度计划表范例计划下载计划下载计划下载课程教学计划下载，强迫每一代人为将来的退休提前进行储蓄。敲诈（hold up）考虑下面的策略性互动。你雇佣了一个建筑商为你建造仓库。当建筑方案气瓶现场处置方案 .pdf 气瓶现场处置方案 .doc 见习基地管理方案.doc 关于群访事件的化解方案建筑工地扬尘治理专项方案下载快要结束时，你认识到颜色不合适，因此你要求建筑商更换油漆，这样的花费非常小。建筑商则说：“改颜色可以，请给我 1500元。” 你认识到，你找到新油漆工会耽误工期，而且你非常喜欢新的颜色，因此，你在低声抱怨几句后，就支付了他 1500元。恭喜你，你被敲诈了！当然，在这类博弈中，建筑商也不是唯一的敲竹杠方。客户也可以拖延支付货款，从而 “敲诈”建筑商，这当然会让建筑商叫苦不迭。这个敲诈问题的博弈树如图 29.10 所示。我们假设客户为改换颜色的支付意愿为 1500 元，但是改换颜色的实际成本只有 200元。我们从树枝方向进行分析，如果建筑商要价 1500 元，那么他的利润为 1300元，客户的收益为零。如果客户寻找另外一个油漆工，假设他向该油漆工支付 200元，由于耽误工期造成的时间成本为 1400元。他对新颜色的评价为 1500元，但是这种情形下却支付了 1600元，因此他的净收益为-100元。 29博弈论的应用曹乾（东南大学 caoqianseu@163.com） 609 如果建筑商索要的价格等于更换颜色的实际成本 200元，那么建筑商不赚不赔，收益为零，客户的净收益为 1300元，因为他对更换颜色的评价为 1500元，但却只要支付 200元。从图容易看到，建筑商的最优选择就是敲诈，而客户的最优选择是屈服让步。但是明智的客户会认识到，更换颜色这类要求在任何工程中都会出现。因此，客户不会愿意雇佣背负敲诈名声的建筑商，这对这样的建筑商也是不利的。图图图图 29.10：敲诈问题敲诈问题敲诈问题敲诈问题。由于客户别无选择，因此建筑商为更换颜色索要了较高的价格。企业之间如何解决这类敲诈问题？基本的答案八年级地理上册填图题岩土工程勘察试题省略号的作用及举例应急救援安全知识车间5s试题及答案是签订合同。一般来说，建筑商会在合同中注明什么样的更换是允许的以及更换时成本是如何计算的。有时，在这类合同中还制定了仲裁条款或者其他解决争端的方式。制定合同需要花费大量的时间、精力和金钱，但是这是值得的，因为它可以防止这类敲诈问题的发生。但是，签订合同不是敲诈问题的唯一解决方法。另外一种方法是承诺。例如，建筑商可能会缴纳保证金以保证按照工期施工。当然，双方一般还要约定什么样的情形才能算完工。另外一个重要因素是名声（reputation）。当然，某个建筑商如果三番五次敲诈客户，那么他的名声就很差。客户不会雇佣这样的建筑商，当然也不会推荐其他客户雇佣。这个名声效应可用重复博弈进行分析，建筑商今天敲诈，将来就会付出代价。 29博弈论的应用曹乾（东南大学 caoqianseu@163.com） 610 29.7 讨价还价讨价还价讨价还价讨价还价经典的讨价还价问题（bargaining problem）是分钱问题。两个选手有一元钱，如何分? 如果只给你上面那么少的信息，你无法给出具体的答案，因为这些信息还不足以建立一个合理的模型。建立讨价还价模型的关键，是找到选手之间进行协商的机制。例如，纳什讨．．．价还价模型．．．．．（Nash bargaining model），采用的是公理性的证明方法，也就是说，它首先假设合理的解应该具有什么样的性质，然后证明满足这些公理性假设的结果只有一个。最终结果取决于选手对风险的厌恶程度，以及如果没有讨价还价机制将会发生什么事情。不幸地是，这个模型的完整介绍超出了本书的范围。还有一种模型，称为鲁宾斯坦讨价还价模型．．．．．．．．．．（Rubinstein bargaining model）。这个模型的思路是分析一系列选择决策，然后求解子博弈完美均衡子博弈完美均衡子博弈完美均衡子博弈完美均衡．．．．．．．（subgame perfect equilibrium）。幸运地是，这个模型的基本思想比较容易说明。我们举个简单的例子说明。两个人，Alice和 Bob（以下分别以 A 和 B 表示），共同分享 1元钱。他们决定最多三天之内找到分钱的方法。第一天，A提出一种分钱方法，B可以接受，也可以拒绝。如果拒绝， B要在第二天提出另外一种分钱方法。如果 A拒绝了 B的方法，那么 A 在第三天提出最终的分配方法。如果三天之内，他们无法达成分钱的一致意见，那么他们每个人都得到的钱数为零。假设 A和 B的耐心程度不同：A对未来收益的贴现率（折扣率）为α 每天；B对未来收益的贴现率（折扣率）为 β 每天。最后，我们假设如果一个选手对两种分配方法无差异时，他总是选择对方喜欢的那种分配方法。最后这个假设的思想是，对手可能只分配给另一方很小的钱数，从而使得这个选手严格偏好某个选择。由于这个钱数很小，我们可以近似看为零。可以证明这个讨价还价模型只有唯一一个子博弈完美均衡。我们从第三天开始分析。由于这是博弈的最后一天。A提出的分配方案一般为“要么接受，要么走人”。显然，A的最优选择是分配给 B能接受的尽量少的钱，根据前面的假设，这个钱数可以近似为零。因此，如果该博弈实际只进行三天，A会得到 1元，B会得到零元（即任意小的钱数）。因为如果 B拒绝的话，那么说明 A和 B最终未达成统一的分配意见，根据前面的假设可知，A和 B得到的钱数为零。但是如果 B接受 A的分配方案，那么他还能得到一个很小的钱数（尽管很小，还是比零好！）现在回到第二天，这一天是 B提出分钱方案。B认识到如果 A拒绝了这个方案，那么 A在第三天就能确保得到 1元。由于对于 A来说，第三天的 1元钱相当于第二天的α 元。因此，如果 B提出的方案中分配给 A的钱数小于α ，那么 A必定会拒绝 B的方案。B显然更喜欢此时的 )1( α− 元，而不是第三天的 0元。因此 B应该理性地分配α 元给 A，A当然会接受，因为这相当于第三天的 1元钱。因此，如果该博弈在第二天结束，那么 A得到α 元， B得到 )1( α− 元。现在回到第一天。第一天是 A提出分配方案。A认识到如果 B拒绝了他的方案，那么 29博弈论的应用曹乾（东南大学 caoqianseu@163.com） 611 B在第二天可以得到 )1( α− 元。因此，为了避免被拒绝，A分配给 B的钱数应该等于 )1( α− 元在第一天的现值，即 )1( αβ − 。B发现这个钱数（恰好）是他能接受的，因此博弈结束。该博弈的最终结果是，博弈在第一天结束，其中 A得到的钱数为 )1(1 αβ −− ，B得到的钱数为 )1( αβ − 。图 29.11：一个讨价还价模型一个讨价还价模型一个讨价还价模型一个讨价还价模型。粗实线将子博弈的均衡均衡结果连在了一起。最外面那条线上的点是子博弈完美均衡。图 29.11中左侧的图形表示 1<= βα 时的博弈过程。最外面的那条（45度）直线表示的是，第一天的可能收益模式，即 1=+ BA xx 。中间的那条直线表示，如果博弈在第二天结束，收益的现值为多少，即 ).( βα ==+ BA xx 最靠近原点的那条直线表示，如果博弈在第三天结束时，收益的现值为多少。这条线的表达式为 ).( 22 βα ==+ BA xx 图中呈现直角形状的那条路径，表示的是每一天的最小可接受的分配钱数。图 29.11中右侧的图表示当博弈的天数为很多天时的博弈过程。我们自然地将博弈次数推广到无穷次，即分析在博弈次数为无穷时，结果是怎样的？可以证明，子博弈完美均衡时的分配额为 A获得 αβ β − − 1 1 B获得 (1 ) 1 β α αβ − − 注意，如果 1=α 且 1<β ，那么 A得到了全部的钱数。 29博弈论的应用曹乾（东南大学 caoqianseu@163.com

                    本文档为【范里安-中级微观经济学2014版-29博弈论的应用-东南大学曹乾】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

范里安-中级微观经济学2014版-29博弈论的应用-东南大学曹乾

你可能还喜欢