交通大学博弈论课程概要 (III)
周林
第四部分:不完全信息扩展式博弈
1. 一般扩展式博弈的定义(F-T 3.3.1)
一个一般扩展式博弈由(有向)博弈树
表
关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf
示。博弈树由点和联结点的枝组成。前点和后点。起点无前点,终点无后点。除起点外,每点有唯一的直接前访点。
除终点外的点代表决策点,每点x只属于一个博弈者i(x),从这点出发的枝代表i(x)在x处的行动集A(x) 。
博弈者i(x)在x处拥有的信息由信息集h(x)表示。h(x)包括了所有i(x)不能同x区分开来的点。对所有的h(x)中的点x’,A(x’) = A(x) 。因此我们可以将行动集记为A(h) 。
对一个不完全信息的扩展式博弈来说,起点代表“自然”,从自然出发的枝代表外生随机事件,概率分布是给定的,不受博弈者选择的影响。
每一终点处给出所有博弈者的收益。(当博弈进行无穷阶段时,所有博弈者的收益由博弈的历史决定。)
2. 一般扩展式博弈的策略式博弈表示(F-T 3.4)
每一个博弈者的一个策略罗列了他在他的每一信息集上的行动,是一个从信息集到行动的映射
。如果每一博弈者都选取一个特定的策略,我们可以用它们确定行动的历史,从而求出每人的收益。这样我们就得到了一般扩展式博弈的策略式博弈表示。
3. 混合策略和行为策略。混合策略在整个博弈尚未开始以前混合,行为策略在博弈开始后每一决策点处混合。对具有完美记忆的博弈,混合策略和行为策略是等价的(Kuhn定理)。(F-T 3.4)
4. 一般扩展式博弈的求解。Nash均衡和Nash均衡的精细:逆向归纳法和子博弈完美。(F-T 3.5)
5. 重要例子:行动可观察无限重复博弈与无名氏定理:只要博弈者足够耐心,任何一个满足个人理性的可行的收益分配可以由一个无限重复博弈的Nash均衡(或子博弈完美Nash均衡)实现。(F-T 5.1.1, 5.1.2)
是一个基本博弈,或阶段博弈。我们研究G的无限期重复博弈。
0阶段: 每一个博弈者可以独立选择一个行动
.
1阶段: 历史
被所有博弈者观察到,每一博弈者再独立选择一个行动
.
…………
t阶段: 历史
被所有博弈者观察到,每一博弈者再独立选择一个行动
.
博弈永不中止.
无限重复博弈中收益的计算
(1) 折现:
;
(2) 平均:
. 无限耐心
个人理性由最小最大值,或最低保证收益,来表示:
.
注意:博弈者i在任何一个无限重复博弈的Nash均衡至少获得
。
可行的收益分配当然包括所有可以由g生成的收益分配。如果我们允许公共观察的随机混合装置,可行的收益分配还包括所有可以由g生成的收益分配的凸组合。
无名氏定理(Nash均衡):任给一个满足
的可行的收益分配v, 只要
足够接近1,v就可以由一个无限重复博弈的Nash均衡实现。
满足
的v的子博弈完美Nash均衡的实现较为复杂。一个较弱但容易证明的结果是:
Friedman定理:假设阶段博弈G有一个Nash均衡
,
是由
生成的收益分配。任给一个满足
的可行的收益分配v, 只要
足够接近1,v就可以由一个无限重复博弈的子博弈完美Nash均衡实现。
另一个容易证明的结果是当博弈者无穷耐心时的情况。
Aumann-Shapley定理:假设博弈者使用平均收益, 任给一个满足
的可行的收益分配v 都可以由一个无限重复博弈的子博弈完美Nash均衡实现。
如不假设博弈者无穷耐心,我们需要一个“全维数条件”。
Fudenberg-Maskin定理:假设可行的收益分配集的维数等于博弈者的人数。任给一个满足
的可行的收益分配v, 只要
足够接近1,v就可以由一个无限重复博弈的子博弈完美Nash均衡实现。
6. 无名氏定理的推广:有限重复博弈;一个长期博弈者和无限个短期博弈者;行动不可观察无限重复博弈 (F-T 5.2, 5.3, 5.5)
7. 不完全信息扩展式博弈时Nash均衡的精细. 信号传递博弈 (F-T 8.2.1)
任何一个不完全信息扩展式博弈由“自然”出发,由于不完全信息,不存在子博弈。所以子博弈完美不能有任何作用。我们需要寻求更有效的精细。
信号传递博弈中有两个博弈者,1和2。1 的类型空间是
。自然先依概率分布p抽出1 的类型
。1 在知道了自己的类型
后从行动集
中选择一个行动
。2在观察到1的行动
后再从行动集
中选择一个行动
。双方的收益为
。
在一个信号传递博弈中, 1的纯策略是从
到
的映射,混合策略记为
:对每一个
,
是一个
上的概率分布。
2的纯策略是从
到
的映射,混合策略记为
:对每一个
,
是一个
上的概率分布。
另外,2在观察到每个1的行动(信号)
以后,对于
的估计有一个更新
: 对每一个
,
是一个
上的(后验)概率分布。
完美Bayesian均衡(PBE):策略
和估计
a. 对任何类型
,
是对
的最佳反应:对所有
,
.
b. 对任何1的行动
,
是在
下的最优决策: 对所有
,
.
c. 博弈者2的后验估计
与博弈者1的策略
是一致的: 如果
,则
.
8. 重要例子:Spence的教育模型 (F-T 8.2.2中例8.2)
9. 信号传递博弈中PBE的精细 ——直观法则 。(F-T 11.2)
给定任何博弈者1的行动
, 如果博弈者2相信博弈者1的类型属于
的一个子集T,则博弈者2应当采用下列行动之一:
最大化
改进的Cho-Kreps法则:假设
是一个完美Bayesian均衡,
是类型
的博弈者1在此均衡的期望收益。如果对于任何理性的博弈者2的行动,1的行动
总导致比均衡收益更坏的结果,最大化
,
那么对类型
的博弈者1来说,
是一个被均衡剔除的行动。博弈者2会认识到这一点,所以,我们要求
.
作业:5.1, 5.2, 5.5, 8.3, 8.4, 8.10.
_1165304349.unknown
_1165304633.unknown
_1165382843.unknown
_1165384599.unknown
_1165397944.unknown
_1165562552.unknown
_1165563116.unknown
_1165563300.unknown
_1165398820.unknown
_1165560905.unknown
_1165398502.unknown
_1165397885.unknown
_1165397939.unknown
_1165397776.unknown
_1165383708.unknown
_1165384135.unknown
_1165384141.unknown
_1165384569.unknown
_1165383855.unknown
_1165383918.unknown
_1165384096.unknown
_1165383722.unknown
_1165383844.unknown
_1165383291.unknown
_1165383625.unknown
_1165383639.unknown
_1165383617.unknown
_1165383005.unknown
_1165383045.unknown
_1165382961.unknown
_1165382624.unknown
_1165382778.unknown
_1165382784.unknown
_1165382766.unknown
_1165304642.unknown
_1165382586.unknown
_1165304393.unknown
_1165304459.unknown
_1165260214.unknown
_1165266994.unknown
_1165304308.unknown
_1165296249.unknown
_1165304237.unknown
_1165262090.unknown
_1165262107.unknown
_1165262217.unknown
_1165262054.unknown
_1165261377.unknown
_1165261440.unknown
_1165259586.unknown
_1165259646.unknown
_1165259955.unknown
_1165259618.unknown
_1165216254.unknown
_1165259331.unknown
_1164613165.unknown
_1164615737.unknown