[摘要] 博弈论是运筹学的一个重要分支。其中,非合作博弈是现代博弈理论中的核心内容和重要基础。本文重点介绍了非合作博弈中最核心的部分即Nash均衡。给出了纯战略纳什均衡的相关定义,并同时得到了在经济决策中行为人的最优决策。在此基础上,以纳什均衡作为理论支撑点,结合得益矩阵分析解决了经济生活中的一些实际问题。例如:针对偷水问题。
[关键词] 均衡点 得益矩阵 Nash均衡
博弈论是运筹学的一个重要分支,是研究决策主体的行为发生直接相互作用时的决策,以及这种决策的均衡问题。一个完整的博弈一般由以下几个要素组成:博弈的参加者、各博弈方各自选择的全部策略或行为的集合、博弈方的得益、结果、均衡等。
非合作博弈是现代博弈理论中的核心内容和重要基础,而Nash均衡则是非合作博弈的核心部分。用博弈论解决现实纳什均衡是现代博弈论中的核心内容和重要基础。要用博弈论解决现实经济生活中的决策问题,对现实经济生活中的发展变化趋势进行预测,其关键在于如何根据行为中的支付矩阵得出纳什平衡点,通过分析决策者的心理活动来得到相关模型,从而依据模型来针对生活中的实际问题制定相关的***策以预防不良现象的发生。
一、非合作博弈
一般地,将不允许存在有约束力协议的博弈称为“非合作博弈”。在该博弈中,每个博弈方的策略都是针对其他博弈方策略或策略组合的最佳对策。事实上,具有这种性质的策略组合,正是非合作博弈理论中最重要的一个解概念“纳什均衡”。
在博弈论里,有各种各样的均衡概念,上述定义是所有均衡概念的共同特征。而在一个博弈中,可能有多个均衡存在。纯战略纳什均衡在非合作博弈分析中具有十分关键的作用和地位,因此将着重介绍纯战略纳什均衡的定义。
1.纯战略纳什均衡
一般常用G表示一个博弈;如G有n个博弈方,每个博弈方的全部可选策略的集合称为“策略空间”,分别用表示;表示博弈方i的第j个策略,其中j可取有限个值(有限策略博弈),也可取无限个值(无限策略博弈);博弈方i的得益则用表示,是各博弈方策略的多元函数。n个博弈方的博弈G常写成。
有了博弈、博弈方的策略空间和得益的表示法,可以给出纯战略纳什均衡的定义如下:
定义1: 在博弈中,如果由各个博弈方的每一个策略组成的某个策略组合中,任一博弈方i的策略,都是对其余博弈方策略组合的最佳对策,即
对任意都成立,则称为G的一个“纯战略纳什均衡”。纯战略纳什均衡的求解,通常可以采用得益矩阵表示出在不同策略下各博弈方的效益,下面通过囚徒困境问题可进一步加深对纯战略纳什均衡概念的理解。
该博弈问题是1950年***克提出的,它虽然非常简单,但却很好地反映了非合作博弈的根本特征,并且该博弈模型是解释众多经济现象,研究经济效率问题的非常有效的基本模型和范式。其故事如下:
警方抓到两个盗窃犯,惜证据尚不足,遂寄希望于嫌犯自己招供。警方把两个犯人隔离起来,分别审问,交代***策如下:坦白从宽,抗拒从严!如果你招了,另一个人没招,那么就将你释放,另一人判10年;同样如果你不招,另一个人招了,那么你得被判10年,另一个人被释放。如果两个人都招,警方证据就足了,两人都判8年。至於两个人都不招的情况,不用警方交代,两个人都得判,但因证据不力,判得都要轻许多,比如1年。警方最后说,那边还有个警察,对你的同伙交代一模一样的***策呢。
对于囚徒A和囚徒B来说,其双方想法如下:
(1)如果对方招了,我招是8年,不招是10年,还是招划算。
(2)如果对方不招,我招是无罪释放,不招是1年,还是招划算。
(3)如果对方不招,我招是无罪释放,不招是1年,还是招划算。
下面可将双方整个博弈过程的结果用一矩阵形式表示出来。这种矩阵称为博弈的“得益矩阵(支付矩阵)”。
表1A与B的得益矩阵
由于法庭对罪犯分别审讯,因而该问题还可以归结为非合作博奕模型。
其中,局中人集合,1代表囚徒A,2代表囚徒B。两个人具有相同的策略集合:,其中C代表坦白,D代表抗拒的策略。对于策略组合两个局中人的支付函数如下:
由支付函数可以看出,囚徒A的策略是坦白,囚徒B的最佳策略也是坦白,故纳什均衡点为(坦白,坦白)。
在囚徒困境中,每个参与人都能猜出对方的策略,故称这种纳什均衡为纯战略纳什均衡。
囚徒困境反映了一个很深的问题,这就是个人理性与集体理性的矛盾。即使两个囚徒在被警察抓住之前建立一个攻守同盟(死不坦白),这个攻守同盟也没有用,因为它不构成纳什均衡,没有个人要积极性遵守协定。
囚徒困境问题在经济学上也有着广泛的应用,例如:两个寡头企业选择产量的博弈。如果两企业联合起来形成卡特尔,选择垄断利润最大化的产量,每个企业都可以得到更多的利润。但卡特尔协定并不是一个纳什均衡,因为给定对方遵守协议的情况下,每个企业都想增加生产,结果是,每个都只能得到纳什均衡产量的利润,它严格小于卡特尔产量下的利润。
二、纯战略纳什均衡在经济生活中的具体运用
1.偷水问题
针对盗水现象,供水部门常采用罚款的手段处理那些被发现的盗水用户,但随着居民的科技文化水平的提高,盗水手段越来越高明,因此被发现的概率越来越小,那么采用通常的罚款手段对防止用户盗水的作用越来越微弱,看来利用新的经济原理、采取新的制裁措施显得尤为必要了。
假定用户每家都有一个水表,而且每家实际用水没有通过此水表。假定水表测量准确无误。
(1)设N家总水表测出的实际用水量为A。
(2)第i家水表所示用水量为,B为N家盗水总和。
不妨设每度水的单价为1元,则供水局对第i家征收水费为即可防止用户盗水,理由如下:
为说明方便,不防简化为两家用户甲和乙,甲和乙都有两种策略选择:偷水和不偷水,在甲和乙之间就形成了一场博弈。
设甲和乙的实际用水量分别为和,偷水量分别为和,相应的得出甲和乙的得益矩阵:
表2 甲和乙的得益矩阵
可见:(1)对甲来说,在不做损人而不利己的事的前提下,他会选择不偷水,因为甲若选择偷水,则他期望乙不要偷水,此时他的最大利益为0,既然利益为0,他选择不偷水也可以达到,又何必劳神又费事。甲若选择不偷水,乙必定也会选择不偷水,因为此时乙无论偷水还是不偷水,利益都为0,在不做损人而不利己的事的前提下乙必定会选择不偷水。
(2)对乙来说,由于同样的道理,他也会选择不偷水这一策略。这样,(不偷水,不偷水)就成了一个纯战纳什均衡点。甲和乙谁改变策略都得不到好处,当然就会维持均衡点,那么这个均衡就是相当稳定的,这样供水部门也达到了防止用户偷水的目的。
另外,即使有人做损人而不利己的事,供水局也有办法对付,那就是对第i家征收水费为,其中.即可达到目的。同样,以两家用户为例,此时用户i所收水费,同样地可得出甲和乙的得益矩阵。
表3 甲和乙的得益矩阵
显然,对甲和乙来说为了使自己得益最大,都会不约而同的选择不偷水.对于多个用户同样可以进行分析,最后所有的用户都会选择不偷水的策略。因此供水部门只需任意选择一个大于1的a,宣布对用户i征收的水费即是防止用户偷水的有效措施。
接下来,谈谈对偷水用户进行一次性罚款和对偷水量由N家共同分摊做法的无效性.
供水局若发现偷水户i则往往采取一次性罚款M,对用户i来说:
(1)不偷水,得益为0;
(2)偷水,若被发现,得益为;
(3)偷水,若被发现,得益为.但是用户偷水被发现的概率往往是很小的。
假设被发现的概率为P,则用户i偷水损益的期望值为:
因此只有,即时才能使用户不偷水。
假设偷水被发现的概率为1%,用户偷水=100,则罚款M>1000元才可能使用户不偷水。因此一般性的罚款并没有达到应有的目的。
由上可知,利用纯战略纳什均衡理论对日常生活中的一些实际现象确实可以进行一定的定量分析,以此做出更好的决策安排。但是本文探讨的只是博弈论的一个很小的方面,对于均衡问题中的子博弈精炼纳什均衡等问题本文没有讨论。对于纳什均衡还可以进一步进行推广。如日常生活中,小到下棋打牌,大到企业之间的竞争与合作,国家之间的倾销与反倾销、制裁和报复等,都可以归结为博弈问题。
参考文献:
[1]谢识予:纳什均衡论[M].上海:上海财经大学出版社,1999
[2]张维迎:博弈论与信息经济学[M].上海:上海人民出版社,1996
[3]全贤唐张健:经济博弈分析[M].北京:机械工业出版社,2003
[4]李本庆丁越兰:环境污染与规制的博弈论分析[J].海南大学学报,人文社会科学版.2006,4:541~544
[5]潘天群:社会现象的博弈论解读[M].中央编译出版社.1998
[6]黄涛:博弈论教程[M].首都经济贸易大学出版社.1996
[7]陈芝兰:博弈论及其在经济生活中的应用[J].经济新论,23-24
[8]RobertGibbons,APrimer in Game Theory,Harvester Wheatsheaf,1992
注:本文中所涉及到的***表、注解、公式等内容请以PDF格式阅读原文。
转载请注明出处学文网 » 纯战略纳什均衡理论及应用