摘要
本文主要介绍进化博弈理论的基本动态模型:对称博弈模仿者动态模型和非对称博弈模仿者动态模型及其相关结论。为了便于理解,在文中引用了一些简单的例子说明它们之间的区别与联系。在此基础上文中还介绍了理论家们对随机动态所进行的相关研究及其所取得的理论成果。最后本文比较了经典博弈理论② 与进化博弈理论在动态概念上的差别。
关键词:进化稳定策略⑩;模仿者动态;随机稳定均衡
进化博弈理论至少自Lewontin(1960)用于解释生态现象就已经产生了,并被广泛应用于生态学、社会学及经济学等领域来研究群体行为的演化过程及其结果。进化博弈理论从有限理性的个体出发,以群体为研究对象,认为现实中个体并不是行为最优化者,个体的决策是通过个体之间模仿、学习和突变等动态过程来实现的。进化博弈理论强调系统达到均衡的动态调整过程,认为系统的均衡是达到均衡过程的函数,也就说均衡依赖于达到均衡的路径。动态概念在进化博弈理论中占有相当重要的地位,许多博弈理论家对群体行为调整过程进行了广泛而深入的研究,根据他们考虑问题的角度不同而提出了不同的动态模型,如Weibull(1995) 提出的模仿动态(Imitation Dynamics)模型;Börgers and Sarin(1995,1997)等提出的强化动态 ③(Reinforcement Dynamics)模型等等。但到目前为止,在进化博弈理论中应用最多的还是由Taylor and Jonker(1978)提出的模仿者动态(Replicator Dynamics)模型。模仿者动态是进化博弈理论的基本动态,它能较好地描绘出有限理性个体的群体行为变化趋势,由之得出的结论能够比较准确地预测个体的群体行为,因而倍受博弈论理论家们的重视。本文集中介绍确定性模仿者动态概念、模型及其与经典博弈动态概念的区别。
一、确定性模仿者动态
一般的进化过程都包括两个可能的行为演化机制:选择机制(Selection Mechanism)和突变机制(Mutation mechanism)。选择机制是指本期中能够获得较高支付的策略,在下期被更多参与者选择;突变是指参与者以随机(无目的性)的方式选择策略,因此突变策略可能获得较高支付也可能获得较低支付,突变一般很少发生。新的突变也必须经过选择,并且只有获得较高支付的策略才能生存(Survive)下来。按所研究的群体数目不同,进化博弈动态模型可分为两大类:单群体(Monomorphic Population)动态模型与多群体(Polymorphic Populations)动态模型。单群体动态模型是指所考察的对象只含有一个群体,并且群体中个体都有相同的纯策略集,个体与虚拟的参与人④ 进行对称博弈。多群体动态模型 ⑤是指所考察的对象中含有多个群体,不同群体个体可能有不同的纯策略集,不同群体个体之间进行的是非对称博弈。博弈中个体选择纯策略所得的支付不仅随其所在群体的状态变化而变化,而且也随其他群体状态的变化而变化。下面重点介绍单群体与多群体动态模仿者动态模型。
1.1、单群体确定性模仿者动态模型
单群体模仿者动态模型是由Taylor and Jonker (1978)在考察生态演化现象时首次提出的。他们把一个生态环境中所有的种群看作为一个大群体,而把群体中每个种群都想象或程式化为一个特定的纯策略。群体在不同时刻所处的状态一般用混合策略来表示。所谓模仿者动态是指使用某一纯策略的人数所占比例的增长率等于使用该策略时所得支付 ⑥与群体平均支付之差,或者与平均支付成正比例。为了说明的方便,本文首先给出一些符号,然后给出Taylor and Jonker (1978)模仿者动态公式的推导过程。
假定群体中每一个个体在任何时候只选择一个纯策略,比如,第j个个体在某时刻选择纯策略(当然由于突变或策略转移,同一个体在不同时刻可以选择不同的纯策略)。
表示群体中各个体可供选择的纯策略集;N表示群体中个体总数;表示在时刻t选择纯策略i的个体数。
表示群体在时刻t所处的状态,其中表示在该时刻选择纯策略i的人数在群体中所占的比例,即。
表示群体中个体进行随机配对匿名博弈时,群体中选择纯策略的个体所得的期望支付。
表示群体平均期望支付。
下面给出连续时间模仿者动态公式,此时动态系统的演化过程可以用微分方程来表示。在对称博弈中每一个个体都认为其对手来自于状态为x 的群体。事实上,每个个体所面的对手是代表群体状态的虚拟个体 ⑦。假定选择纯策略的个体数的增长率等于⑧,那么可以得到如下的等式:
由定义可知,两边对t微分可以 ⑨:
两边同时除以N得到:
上式就是对称博弈模型中模仿者动态公式的微分形式。可以看出,如果一个选择纯策略的个体得到的支付少于群体平均支付,那么选择纯策略的个体在群体中所占比例将会随着时间的演化而不断减少;如果一个选择策略的个体得到的支付多于群体平均支付,那么选择策略的个体在群体中所占比例将会随着时间的演化而不断地增加;如果个体选择纯策略所得的支付恰好等群体平均支付,则选择该纯策略的个体在群体中所占比例不变。
从上面的公式推导过程可以看出,Taylor and Jonker提出的模仿者动态仅仅考虑到纯策略的继承性,而没有考虑到混合策略的可继承性。Bomze(1986)证明了如果允许混合策略也可以被继承,那么在模仿者动态下,进化稳定策略 等价于渐近稳定性。另外,下面不加证明⑾ 地给出Hofbauer et al. (1979); Zeeman (1980)提出并证明的一个命题,“在模仿者动态下,对称博弈中每一个ESS都是渐近稳定的”。这个命题的逆命题并不成立,下面用Fudenberg(1995)的一个反例来给予说明,考察表Ⅰ矩阵所示的对称博弈:
纳什均衡(A,B)、(B,A)和一个混合策略纳什均衡(即群体中一半个体选择策略A,另一半个体选择策略B)。由于本文仅考察单一群体情形,即群体中个体无角色(Role)区分,因此不可能分离出两类个体,所以这个系统不可能收敛到非对称纳什均衡(A,B)、(B,A)。在模仿者动态下,尽管没有单个个体选择混合策略,但这个混合策略纳什均衡却是该动态系统唯一进化稳定均衡且是渐近稳定均衡,下面证明它的渐近稳定性。
提出的,在动态博弈中就显示出其局限性了。这个定义只考虑到其他参与人决策对自己的影响而没有考虑自己的决策对其它人的影响。现实中参与人的行动有先后顺序,后行动者自然会根据先行动者的选择所传递的信息来调整自己的选择;先行动者自然也会理性地意识到自己的行动会传递自己有关信息(不完全信息时)。Selten(1965)把这种信息的传递过程纳入到博弈模型中,提出了动态博弈的基本均衡概念---子博弈精练纳什均衡(Subgame Perfect Nash Equilibrium)。与纳什均衡相比,子博弈精练纳什均衡虽然可以剔除静态博弈中不可置信的威胁,但不能够从根本上解决博弈中多重均衡问题,其最大的缺陷在于没有削弱参与人理性要求。Kreps and Wilson(1982)把信息和不确定性引入到动态博弈中而提出“序贯均衡”把子博弈精练均衡与贝叶斯均衡结合起来。进化博弈理论重点研究群体行为的动态调整过程。其基本的均衡概念----进化稳定策略的直观思想是,如果一个群体的行为模式能够消除任何小的突变群体,那么这种行为模式一定能够获得比突变群体更高的期望支付,那些选择获得较低支付策略的群体随着时间的演化最终会从原群体中消失。进化稳定策略[4]是一个邻域概念,与动态系统的渐近稳定性及吸引子有相似的性质,主要描述系统局部的动态性质,因而可以把影响均衡过程的各种因素纳入到其动态模型中,特别是Foster and Young(1990)提出的随机稳定均衡(Stochastic Stability Equilibrium)概念把影响经济系统的各种随机因素都纳入到其模型中,使得由该理论均衡概念所得的预测结果更准确、更真实地描述参与人群体行为。
3.4、研究的起点不同
虽然,经典博弈理论加入了个体之间行为的互动性,但依然是从单个理性消费者或生产者出发来研究资源的最优化配置问题,这种研究方法 ⒇的最大缺陷就是无法实现由个体行为到集体行为的转化。一个明显的例子就经典博弈理论中囚徒困境博弈,在该博弈中两个囚徒都从个体理性出发,但得到了集体非理性均衡的结论。也就是说,经典博弈理论无法从研究个体最优行为过渡到集体最优的资源配置。与此不同,进化博弈理论则直接以参与人的群体为其研究的逻辑起点,在考虑到影响参与人行为的社会因素、文化因素、民族习俗及个体生活习惯等因素的基础上进一步考察群体中有限理性个体的行为互动关系,通过研究群体中个体行为的互动关系来进一步研究社会资源的配置问题。这种研究方法很巧妙地避开由个体行为向集体行为转化问题,因而能够更加真实地反应现实人的决策过程及其决策结果。
3.5、所用数学工具不同
经典博弈理论建立在信息可以免费获取、参与人有无限信息处理能力及参与人是完全理性的等假定下而得出经济系统常常处于均衡状态的结论。在任何时候、任何条件下,参与人都能够迅速解出最优决策,因此在该理论中主要利用微积分中最优化理论来分析参与人的决策行为,通过跨时期最优化计算来把静态理论动态化。进化博弈理论由于要考虑影响系统达到均衡的各种因素,并且主要考察系统在达到均衡过程中所受到确定或随机因素的影响,因此该理论需要用较高深的数学工具如:动力系统理论、微(差)分方程理论、拓扑理论、混沌理论等来分析均衡过程。
注释: ①本文为2002年中国经济学年会的入选论文。张良桥:广东省顺德职业技术学院,邮编:528300。 ②本文把源于冯·诺意曼和摩根斯滕经纳什发展而成的博弈称之为经典博弈论,可参阅文献[1],[2]。 ③其实质就是个体与群体进行博弈,即个体通过对群体选择不同策略的个体数的观察来确定自己的选择。Selten(1980)通过对个体引入角色限制,首次考察了非对称博弈中的均衡问题,并证明了“在非对称博弈中进化稳定均衡等价于严格纳什均衡” ④其实质就是个体与群体进行博弈,即个体通过对群体选择不同策略的个体数的观察来确定自己的选择。 ⑤Selten(1980)通过对个体引入角色限制,首次考察了非对称博弈中的均衡问题,并证明了“在非对称博弈中进化稳定均衡等价于严格纳什均衡” 。 ⑥在这里所说的支付与生态学里所说的繁殖成活率或适应度(fitness)是一个等价的概念。 ⑦在许多进化博弈理论的文献中,都认为个体与自然(Nature)进行博弈。 ⑧在这里是模仿者动态的最基本的假定,由此可以得到以后的所在的结论。 ⑨ ⑩进化稳定策略与纳什均衡策略之间的区别在文献[4]中有详细的介绍。 ⑾由于该命题的证明要用到动力系统的熵理论,在此就不给出证明,可参阅文献[10]。 ⑿所谓纳什均衡是指一个策略组合,在该组合下任何参与人单独偏离都不会变动比不偏离好,也就是说,在给定其它参与人选择条件下,每一个参与人都选择了使自己获得最大期望效用或利润的决策。事实上,这个博弈也有两个非对称的纳什均衡,但由于我们所考察的是对称博弈,群体中不可能分离出两类不同的参与者,所以博弈结果不可能趋于非对称的纳什均衡。另外,由于进化稳定策略集是纳什均衡的子集,所以要找进化稳定策略首先需要找出纳什均衡,然后找进化稳定策略。 ⒀ 一个稳定状态叫做汇(Sink),如果在该状态的雅可比矩阵的特征根都在单位圆内(离散时)或者有负实部(连续时)。 ⒁由模仿者动态方程进行支付变换,可得 ⒂ 所谓严格纳什均衡即是严格占优纳什均衡。给定对手选择的情况下,每个人都通过选择严占优的策略而组成的纳什均衡 ⒃ ⒄ Foster and Young认为由于系统总会受到迁移和背景突变因素的影响,所以可以假定系统不可能达到策略单纯形的边界,当系统接近边界就会离开即边界就象一面镜子起着反射作用。 ⒅ ⒆进化博弈理论与经典博弈理论的区别在文献[3]中有详细的介绍 ⒇该理论的核心概念----纳什均衡是指假定其他人选择不变的情况下,每个个体都选择使得自己获得最大支付的策略。从数学上来讲,纳什是通过应用角谷静夫不动点定理来证明纳什均衡存在性的,并且一般的求解过程就是通过求单个个体期望支付函数的偏导数(即假定其他参与人选择不变的数学体现)并解联立方程组(纳入互动关系)得出的
参考文献
[1] 王则柯(1999):《博弈论评话》,中国经济出版社。
[2] 张良桥(2001):《进化稳定均衡与纳什均衡:兼谈进化博弈理论的发展》,《经济科学》,3,103-111。
[3] Bergin, J. and L. L. Barton (1996): Evolution With State-Dependent Mutations, Econometrica, 64, 943-956.
[4] Börgers, T. and R. Sarin (1997): Learning Through Reinforcement and Replicator Dynamics, Journal of Economic Theory, 77, 1-14.
[5] Foster, D., and P. Young(1990):Stochastic Evolutionary Game Dynamics, Theoretical Population biology, 38, 219-232.
[6] Fudenberg, D. and C. Harris (1992): Evolutionary Dynamics with Aggregate Shocks, Journal of Economic Theory, 57, 420-441.
[7] Kandori, M. G. Mailath, and R. Rob (1993): Learning, Mutation, and Long-run Equilibria in Games, Econometrica, 61, 29-56.
[8] Kreps and Wilson(1982):“Sequential Equilibrium”,Econometrica.
[9] Lewontin, R. C. (1960): Evolution and the Theory of Games. Journal of Theoretical Biology, 1, 382-403.
[10] Maynard Smith, J. and G. R. Price(1973): “The Logic of Animal Conflicts”, Nature, 246, 15-18.
[11] Selten, R. , (1980): A Note on Evolutionarily Stable Stratifies in Asymmetric Animal Conflicts, J. Theoret . Biol. 84, 93-101.
[12] Selten, R., (1965): Spieltheoretische Behandlung Eines Pligopolmodells mit Nachfagetragheit, Zeitschrift fur die gesamte Staatswissenschaft, 12, 301-324.
[13] Taylor, P. D. and L. B. Jonker (1978): Evolutionarily Stable Strategy and Game Dynamics, Math Biosci. 40, 145-156.
[14] Weibull, J. (1995): Evolutionary Game theory, Cambridge, MIT Press.
The basic theories of dynamics in evolutionary games
Abstract:This paper mainly introduce the basic dynamics models of evolutionary game theory: symmetric replicator dynamic model, asymmetric replicator dynamic model and some conclusions. For better understanding, Some simple examples are applied to describe the differences between them. Based on the models, this paper also introduces theorists’ research and their progress on stochastic evolutionary dynamics. Finally, We also give the differences between the concepts of dynamics of classic game theory and evolutionary game theory.
Keywords: Evlutionarily stable strategy; Replicator dynamics; Stochastic Stability Equilibrium
转载请注明出处学文网 » 进化博弈基本动态理论