首页 博弈论基础及应用

博弈论基础及应用

举报
开通vip

博弈论基础及应用博弈论基础及应用 博弈论,对策论、游戏论, 博弈论又名对策论、游戏论~是一门研究互动关系“游戏”的参与者各自选择策略的科学~博弈论把这些复杂关系理论化~以便分析其中的逻辑和规律~并对实际决策提供指导和借鉴。 游戏三要素(博弈的规则、结构): 1、博弈、游戏参加者。 博弈论分析~假定参与者都是机智而理性的。 2、行为和策略空间。 博弈参与者必须知道他自己及其对手伙伴的策略选择范围~并了解各种策略之间的因果关系。 3、有可评价优劣高下的决策行为结果。 博弈论用数字表示这类结果~并称之为支付。 支付矩...

博弈论基础及应用
博弈论基础及应用 博弈论,对策论、游戏论, 博弈论又名对策论、游戏论~是一门研究互动关系“游戏”的参与者各自选择策略的科学~博弈论把这些复杂关系理论化~以便分析其中的逻辑和规律~并对实际决策提供指导和借鉴。 游戏三要素(博弈的规则、结构): 1、博弈、游戏参加者。 博弈论分析~假定参与者都是机智而理性的。 2、行为和策略空间。 博弈参与者必须知道他自己及其对手伙伴的策略选择范围~并了解各种策略之间的因果关系。 3、有可评价优劣高下的决策行为结果。 博弈论用数字 关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf 示这类结果~并称之为支付。 支付矩阵 可以用支付矩阵,得益矩阵、收益矩阵、赢得矩阵,来描述一个博弈结构。 厂商B 左 右 ,生产~涨价、做广告, ,不生产、降价、不做广告, 上 1~2 0~1 ,生产~涨价、做广告, 厂商A 下 2~1 1~0 ,不生产、降价、不做广告, 支配策略: 由于游戏参与者试图实现自身利益最大化并具有理性的决策能力~加上信息方面的假定~所以上述支付矩阵表示的博弈具有一个简 名单名单延期单出门单老板名单 而确定的结果。从厂商A角度来说~它采取策略“下”而得到的支付总是好于“上”,2,1分别对1,0,。同样~对于厂商B来说~选择策略“左”得到的利益总是优于“右”,1,2分别对0,1,。因此~我们可以确定预期均衡选择策略是A选择“下”而B选择“左”的策略。 囚徒困境: 下面支付矩阵表示著名的“囚徒困境”游戏~从博弈论角度看~这是一个存在支配均衡的博弈,因为对囚犯A、B来说~无论对方如何选择~“坦白”都是各自的最优选择。 虽然从两名囚犯共同利益看~最好的选择是合作~即同时选择保持沉默~然而~由于猜忌~试图获得更大好处(3个月刑期)等竞争性动机阻碍了他们达到更好的互利选择~他们面临“囚徒困境”。我们将看到~寡头垄断厂商经常面临类似的困境。 囚犯B 坦白 沉默 坦白 5年~5年 3个月~10年 囚犯A 沉默 10年~3个月 1年~1年 纳什均衡: 支配均衡是一个特例~并非每个博弈都存在支配均衡。下面修改的支配均衡表示博弈中~厂商A、B在选择做广告问MATCH_ word word文档格式规范word作业纸小票打印word模板word简历模板免费word简历 _1711657648040_0上存在的策略关系。其中厂商A没有支配策略~因为A的最佳决策取决于B的选择。例如~当B选择做广告时~A应当选择做广告~由此得到10而不是6的支付得益~然而~当B选择不做广告时~A应当选择不做广告~从而得到20而不是15的支付得益。假定两个厂商需要同时决策~A应当如何决策, 厂商B 左 右 ,做广告, ,不做广告, 上 10~5 15~0 ,做广告, 厂商A 下 6~8 20~2 ,不做广告, 解答这个问题~A需要把自己放在B的位臵~从B的角度看什么是最好的选择~并在此基础上考虑自己的选择。支付矩阵表明B有一个支配策略:不论A选择如何~B选择做广告时利益较大,5~8对0~2,~因而A可以判断B会选择做广告~而在B做广告时~A应当选择做广告~因而。均衡结果是双方都做广告。 上述均衡结果被称作纳什均衡。 纳什均衡指给定一组对手行为前提下~各博弈方存在的最佳选择,在纳什均衡状态下~只要其他参与者不变换策略选择~任何单个参与者不可能单方面通过变换策略来提高它的所获支付。美国数学家和统计学家纳什,Nash,50年代提出的折椅概念~所以称作纳什均衡。 纳什均衡和支配策略均衡的区别是:在纳什均衡下~“我,你,所做的是给定你,我,的选择我,你,所能做的最好的”。而支配均衡下~“我,你,所做的是不论你,我,的选择~我,你,所能做的更好的”。支配均衡必然是纳什均衡~纳什均衡未必是支配均衡。 一个博弈可能有好几个纳什均衡,即几组稳定并且自我坚持的策略,~有时又可能不存在纳什均衡~下面左表存在两个纳什均衡~右表则没有纳什均衡。 B B 左 右 左 右 上 上 2~1 0~0 0~0 0~-1 A A 下 下 0~0 1~2 1~0 -1~3 重复博弈: 上面讨论的“囚徒困境”暗含所几个假定是静态所一次性的博弈~结果陷入了个体理性决策导致集体非理性结果的困境。现在我们改变条件~讨论博弈可以多次进行的重复博弈,Repeated Game,,这时~囚犯同时选择沉默有可能成为纳什均衡。 因为重复性博弈中~选择坦白的机会成本太高~可能成为不利的选择。例如:A有机会对B组成策略联盟~并对B宣布如下方针:我将选择沉默~并要求你也如此来增进各自利益,然而~如果你半途背叛选择坦白~我从下一阶段游戏开始一直选择坦白~这一方针跟A利益一致~因而是可信的。从B角度来看~如和A合作~可能每阶段得到1年监禁的较好结果,如中途变卦~固然当期可得3个月的更好结果~但此后便每次面临5年监禁的结果~显然是不利的。因而重复博弈中~“沉默”,“沉默”点可能成为双方的最佳选择~因而成为纳什均衡。——由于博弈条件由一次性变为重复性~均衡状态随之发生变化。 序列博弈 前面讨论的博弈是参与者同时选择。 在序列博弈,Sequential Game,中~各博弈方先后依次行动。 下面的支付矩阵描述了一个博弈~如果同时行动~它有两个纳什均衡,“甜~咸”或“咸~甜”,。假定A 可以先推出甜饼干,假如较快投入生产,~就有了序列博弈:A先作决策~B随后选择。A决策是必须考虑竞争 厂商B 左 右 ,咸饼干, ,甜饼干, 上 ,5~,5 10~20 ,咸饼干, 厂商A 下 20~10 ,5~,5 ,甜饼干, 者的理性反应,A知道不论自己推出哪种饼干~B处于自身利益会推出另一种,因而A推出甜饼干~B在给定A决策时选择咸饼干,给定B的选择~A的选择仍然最佳。结果两个纳什均衡点收敛为一个,下~左,。其中A由于具有先行者优势,First Mover’s Advantege,而得到较大利益。 中国电信、中国联通的价格竞争模型: A,中国电信,是老牌企业~实力雄厚~占据了绝大多数的市场份额, B,中国联通,刚成立不久~翅膀没有长硬~是政府为打破垄断鼓励竞争而筹建的~B得到了政府的一些优惠~其中就有B的价格可以比A低10,。这一举动~还不会对A产生多大的影响~因为A的根基实在是太牢固了。在这样的市场分配下~A、B可以达到平衡~但由于B在价格方面的优势~市场份额逐步壮大~到了一定程度~对A造成了影响。这时候~A该怎么办, B,中国联通, 维持 降价 维持 5~10 -10~15 A,中国电信, 降价 15~-5 ,5~,5 A降价、B维持~则A获利15~B损失 5~整体获利10, A维持、B维持~则A获利 5~B获利10~整体获利15, A维持、B降价~则A损失10~B获利15~整体获利5, A降价、B降价~则A损失 5~ B损失 5~整体损失10。 ,从A角度看~显然降价要比维持好~降价至少可以保证比B好~在概率均等的情况下~A降价的收益为15×50,5×50,,5~维持的收益为5×50,,10×50,,,2.5~为了自身利益的最大化~A就不可避免地选择了降价。 从B角度看~降价也比维持好~其降价收益为5~维持收益为2.5~B也会选择降价。在这轮博弈中~A、B都将降价作为策略~因此各损失5~整体损失10~整体收益是最差的。这就是此博弈最终所出现的纳什均衡。电信业价格战博弈模型是典型的囚徒困境现象~各个局部都寻求利益的最大化~而整体利益却不是最优~甚至是最差。 许多其他行业的价格竞争都是典型的囚徒困境现象~如可口可乐公司和百事可乐公司之间的竞争、各大航空公司之间的价格竞争等等。 OPEC组织成员国之间的合作与背叛 “囚徒困境”告诉我们~个人理性和集体理性之间存在矛盾~基于个人理性的正确选择会降低大家的福利~也就是说~基于个人利益最大化的前提下~帕累托改进得不到进行~帕累托最优得不到实现。 上述我们在对电信价格竞争的博弈分析中~只是一次性的“囚徒困境”博弈~因此得到了互相降价的纳什均衡。而在现实生活当中~信任与合作很少达到如此两难的境地~无论在自然界还是在人类社会~“合作”都是一种随处可见的现象。比如中东石油输出国组织,Organizationg of Petroleum Expoting Countries 简称OPEC,的成立~本身就是要限制各石油生产国的产量~以保持石油价格~以便获取利润~是合作的产物。OPEC之所以能够成立~各组织成员国之间之所以能够合作~是因为囚徒困境如果是一次性博弈(One shot game)的话~基于个人利益最大化~得到纳什均衡解~但如果是多次博弈~人们就有了合作的可能性~囚徒困境就有可能破解~合作就有可能达成。连续的合作有可能成为重复的囚徒困境的均衡解~这也是博弈论上著名的“大众定理”(Folk Theorem)的含义。 但合作的可能性不是必然性。博弈论的研究表明~要想使合作成为多次博弈的均衡解~博弈的一方,最好是实力更强的一方,必须主动通过可信的承诺(Credible commitment) ~向另一方表示合作的善意~努力把这个善意表达清楚~并传达出去。如果该困境同时涉及多个对手~则要在博弈对手中形成声誉~并用心地维护这个声誉。这里“可信的承诺”是一个很牵强的翻译~“Credible commitment”并不是什么空口诺言~而是实实在在的付出。所以合作是非常困难的。 所以OPEC组织经常会有成员国不遵守组织的协定~私自增加石油产量。每个成员国 都这样想~只要他们不增加产量~我增加一点点产量对价格没什么影响~结果每个国家都增加产量~造成石油价格下跌~大家的利润都受到损失。当然~一些产量增加较少的国家损失更多~于是也更加大量生产~造成价格进一步下降--结果~陷入一个困境:大家都增加产量~价格下跌~大家再增加产量~价格再下跌……。 理论上~几乎所有的卡特尔,正是串谋在一起的厂商称作Cartel,都会遭到失败~原因就在于卡特尔的协定,类似囚犯的攻守同盟,不是一个纳什均衡~没有成员有兴趣遵守。那么是不是不可能有卡特尔合作成功了,理论上~如果是无限期的合作~双方考虑长远利益~他们的合作是会成功的。但只要是有限次的合作~合作就不会成功。比如合作,,次~那么在第九次博弈参与人就会采取不合作态度~因为大家都想趁最后一次机会捞一把~反正以后我也不会跟你合作了。但是大家料到第九次会出现不合作~那么就很可能在第八次就采取不合作的态度。第八次不合作会使大家在第七次就不合作……一直到~从第一次开始大家都不会采取合作态度。
本文档为【博弈论基础及应用】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_682974
暂无简介~
格式:doc
大小:20KB
软件:Word
页数:7
分类:
上传时间:2018-10-04
浏览量:112