纳什博弈论的原理与应用|白骨精领域博客圈文章|bokee.net

来源：百度文库编辑：神马文学网时间：2024/04/29 06:13:30

1950年和1951年纳什的两篇关于非合作博弈论的重要论文，彻底改变了人们对竞争和市场的看法。他证明了非合作博弈及其均衡解，并证明了均衡解的存在性，即著名的纳什均衡。从而揭示了博弈均衡与经济均衡的内在联系。纳什的研究奠定了现代非合作博弈论的基石，后来的博弈论研究基本上都沿着这条主线展开的。然而，纳什天才的发现却遭到冯·诺依曼的断然否定，在此之前他还受到爱因斯坦的冷遇。但是骨子里挑战权威、藐视权威的本性，使纳什坚持了自己的观点，终成一代大师。要不是30多年的严重精神病折磨，恐怕他早已站在诺贝尔奖的领奖台上了，而且也绝不会与其他人分享这一殊荣。
纳什是一个非常天才的数学家，他的主要贡献是1950至1951年在普林斯顿读博士学位时做出的。然而，他的天才发现———非合作博弈的均衡，即“纳什均衡”并不是一帆风顺的。
1948年纳什到普林斯顿大学读数学系的博士。那一年他还不到20岁。当时普林斯顿可谓人杰地灵，大师如云。爱因斯坦、冯·诺依曼、列夫谢茨(数学系主任)、阿尔伯特·塔克、阿伦佐·切奇、哈罗德·库恩、诺尔曼·斯蒂恩罗德、埃尔夫·福克斯……等全都在这里。博弈论主要是由冯·诺依曼(1903—1957)创所立的。他是一位出生于匈牙利的天才的数学家。他不仅创立了经济博弈论，而且发明了计算机。早在20世纪初，塞梅鲁(Zermelo)、鲍罗(Borel)和冯·诺伊曼已经开始研究博弈的准确的数学表达，直到1939年，冯·诺依曼遇到经济学家奥斯卡·摩根斯特恩(Oskar Morgenstern)，并与其合作才使博弈论进入经济学的广阔领域。
1944年他与奥斯卡·摩根斯特恩合著的巨作《博弈论与经济行为》出版，标志着现代系统博弈理论的的初步形成。尽管对具有博弈性质的问题的研究可以追溯到19世纪甚至更早。例如，1838年古诺(Cournot)简单双寡头垄断博弈；1883年伯特兰和1925年艾奇沃奇思研究了两个寡头的产量与价格垄断；2000多年前中国著名军事家孙武的后代孙膑利用博弈论方法帮助田忌赛马取胜等等都属于早期博弈论的萌芽，其特点是零星的，片断的研究，带有很大的偶然性，很不系统。冯·诺依曼和摩根斯特恩的《博弈论与经济行为》一书中提出的标准型、扩展型和合作型博弈模型解的概念和分析方法，奠定了这门学科的理论基础。合作型博弈在20世纪50年代达到了巅峰期。然而，诺依曼的博弈论的局限性也日益暴露出来，由于它过于抽象，使应用范围受到很大限制，在很长时间里，人们对博弈论的研究知之甚少，只是少数数学家的专利，所以，影响力很有限。正是在这个时候，非合作博弈———“纳什均衡”应运而生了，它标志着博弈论的新时代的开始！纳什不是一个按部就班的学生，他经常旷课。据他的同学们回忆，他们根本想不起来曾经什么时候和纳什一起完完整整地上过一门必修课，但纳什争辩说，至少上过斯蒂恩罗德的代数拓扑学。斯蒂恩罗德恰恰是这门学科的创立者，可是，没上几次课，纳什就认定这门课不符合他的口味。于是，又走人了。然而，纳什毕竟是一位英才天纵的非凡人物，他广泛涉猎数学王国的每一个分支，如拓扑学、代数几何学、逻辑学、博弈论等等，深深地为之着迷。纳什经常显示出他与众不同的自信和自负，充满咄咄逼人的学术野心。1950年整个夏天纳什都忙于应付紧张的考试，他的博弈论研究工作被迫中断，他感到这是莫大的浪费。殊不知这种暂时的“放弃”，使原来模糊、杂乱和无绪的若干念头，在潜意识的持续思考下，逐步形成一条清晰的脉络，突然来了灵感！这一年的10月，他骤感才思潮涌，梦笔生花。其中一个最耀眼的亮点就是日后被称之为“纳什均衡”的非合作博弈均衡的概念。纳什的主要学术贡献体现在1950年和1951年的两篇论文之中(包括一篇博士论文)。1950年他才把自己的研究成果写成题为“非合作博弈”的长篇博士论文，1950年11月刊登在美国全国科学院每月公报上，立即引起轰动。说起来这全靠师兄戴维·盖尔之功，就在遭到冯·诺依曼贬低几天之后，他遇到盖尔，告诉他自己已经将冯·诺依曼的“最小最大原理”(minimax solution)推到非合作博弈领域，找到了普遍化的方法和均衡点。盖尔听得很认真，他终于意识到纳什的思路比冯·诺伊曼的合作博弈的理论更能反映现实的情况，而对其严密优美的数学证明极为赞叹。盖尔建议他马上整理出来发表，以免被别人捷足先登。纳什这个初出茅庐的小子，根本不知道竞争的险恶，从未想过要这么做。结果还是盖尔充当了他的“经纪人”，代为起草致科学院的短信，系主任列夫谢茨则亲自将文稿递交给科学院。纳什写的文章不多，就那么几篇，但已经足够了，因为都是精品中的精品。这一点也是值得我们深思的。国内提一个教授，要求在“核心的刊物”上发表多少篇文章。按照这个标准可能纳什还不一定够资格。
1996年诺贝尔经济学奖得主莫尔里斯当牛津大学艾奇沃思经济学讲座教授时也没有发表过什么文章，特殊的人才，必须有特殊的选拔办法。
纳什在上大学时就开始从事纯数学的博弈论研究，1948年进入普林斯顿大学后更是如鱼得水。20岁出头已成为闻名世界的数学家。特别是在经济博弈论领域，他做出了划时代的贡献，是继冯·诺依曼之后最伟大的博弈论大师之一。
他提出的著名的纳什均衡的概念在非合作博弈理论中起着核心的作用。后续的研究者对博弈论的贡献，都是建立在这一概念之上的。由于纳什均衡的提出和不断完善为博弈论广泛应用于经济学、管理学、社会学、政治学、军事科学等领域奠定了坚实的理论基础。 Nash's Theories have influenced global trade negotiations, national labor relations, and even breathkthroughs in evolutionary biology.
“囚犯困境”
---------------大理论中的小故事--------------------
要了解纳什的贡献，首先要知道什么是非合作博弈问题。现在几乎所有的博弈论教科书上都会讲“囚犯的两难处境”的例子，每本书上的例子都大同小异。
博弈论毕竟是数学，更确切地说是运筹学的一个分支，谈经论道自然少不了数学语言，外行人看来只是一大堆数学公式。好在博弈论关心的是日常经济生活问题，所以不能不食人间烟火。其实这一理论是从棋弈、扑克和战争等带有竞赛、对抗和决策性质的问题中借用的术语，听上去有点玄奥，实际上却具有重要现实意义。博弈论大师看经济社会问题犹如棋局，常常寓深刻道理于游戏之中。所以，多从我们的日常生活中的凡人小事入手，以我们身边的故事做例子，娓娓道来，并不乏味。话说有一天，一位富翁在家中被杀，财物被盗。警方在此案的侦破过程中，抓到两个犯罪嫌疑人，斯卡尔菲丝和那库尔斯，并从他们的住处搜出被害人家中丢失的财物。但是，他们矢口否认曾杀过人，辩称是先发现富翁被杀，然后只是顺手牵羊偷了点儿东西。于是警方将两人隔离，分别关在不同的房间进行审讯。由地方检察官分别和每个人单独谈话。检察官说，“由于你们的偷盗罪已有确凿的证据，所以可以判你们一年刑期。但是，我可以和你做个交易。如果你单独坦白杀人的罪行，我只判你三个月的监禁，但你的同伙要被判十年刑。如果你拒不坦白，而被同伙检举，那么你就将被判十年刑，他只判三个月的监禁。但是，如果你们两人都坦白交代，那么，你们都要被判5年刑。”斯卡尔菲丝和那库尔斯该怎么办呢？他们面临着两难的选择——坦白或抵赖。显然最好的策略是双方都抵赖，结果是大家都只被判一年。但是由于两人处于隔离的情况下无法串供。所以，按照亚当·斯密的理论，每一个人都是从利己的目的出发，他们选择坦白交代是最佳策略。因为坦白交代可以期望得到很短的监禁———3个月，但前提是同伙抵赖，显然要比自己抵赖要坐10年牢好。这种策略是损人利己的策略。不仅如此，坦白还有更多的好处。如果对方坦白了而自己抵赖了，那自己就得坐10年牢。太不划算了！因此，在这种情况下还是应该选择坦白交代，即使两人同时坦白，至多也只判5年，总比被判10年好吧。所以，两人合理的选择是坦白，原本对双方都有利的策略(抵赖)和结局(被判1年刑)就不会出现。这样两人都选择坦白的策略以及因此被判5年的结局被称为“纳什均衡”，也叫非合作均衡。因为，每一方在选择策略时都没有“共谋”(串供)，他们只是选择对自己最有利的策略，而不考虑社会福利或任何其他对手的利益。也就是说，这种策略组合由所有局中人(也称当事人、参与者)的最佳策略组合构成。没有人会主动改变自己的策略以便使自己获得更大利益。“囚徒的两难选择”有着广泛而深刻的意义。个人理性与集体理性的冲突，各人追求利己行为而导致的最终结局是一个“纳什均衡”，也是对所有人都不利的结局。他们两人都是在坦白与抵赖策略上首先想到自己，这样他们必然要服长的刑期。只有当他们都首先替对方着想时，或者相互合谋(串供)时，才可以得到最短时间的监禁的结果。
“纳什均衡”首先对亚当·斯密的“看不见的手”的原理提出挑战。按照斯密的理论，在市场经济中，每一个人都从利己的目的出发，而最终全社会达到利他的效果。不妨让我们重温一下这位经济学圣人在《国富论》中的名言：“通过追求(个人的)自身利益，他常常会比其实际上想做的那样更有效地促进社会利益。”从“纳什均衡”我们引出了“看不见的手”的原理的一个悖论：从利己目的出发，结果损人不利己，既不利己也不利他。两个囚徒的命运就是如此。从这个意义上说，“纳什均衡”提出的悖论实际上动摇了西方经济学的基石。因此，从“纳什均衡”中我们还可以悟出一条真理：合作是有利的“利己策略”。但它必须符合以下黄金律：按照你愿意别人对你的方式来对别人，但只有他们也按同样方式行事才行。也就是中国人说的“己所不欲勿施于人”。但前提是人所不欲勿施于我。其次，“纳什均衡”是一种非合作博弈均衡，在现实中非合作的情况要比合作情况普遍。所以“纳什均衡”是对冯·诺依曼和摩根斯特恩的合作博弈理论的重大发展，甚至可以说是一场革命。
从“纳什均衡”的普遍意义中我们可以深刻领悟司空见惯的经济、社会、政治、国防、管理和日常生活中的博弈现象。我们将例举出许多类似于“囚徒的两难处境”这样的例子。如价格战、军奋竞赛、污染等等。一般的博弈问题由三个要素所构成：即局中人(players)又称当事人、参与者、策略等等的集合，策略(strategies)集合以及每一对局中人所做的选择和赢得(payoffs)集合。其中所谓赢得是指如果一个特定的策略关系被选择，每一局中人所得到的效用。所有的博弈问题都会遇到这三个要素。
*********价格战博弈**********************
现在我们经常会遇到各种各样的家电价格大战，彩电大战、冰箱大战、空调大战、微波炉大战……这些大战的受益者首先是消费者。每当看到一种家电产品的价格大战，百姓都会“没事儿偷着乐”。在这里，我们可以解释厂家价格大战的结局也是一个“纳什均衡”，而且价格战的结果是谁都没钱赚。因为博弈双方的利润正好是零。竞争的结果是稳定的，即是一个“纳什均衡”。这个结果可能对消费者是有利的，但对厂商而言是灾难性的。所以，价格战对厂商而言意味着自杀。从这个案例中我们可以引伸出两个问题，一是竞争削价的结果或“纳什均衡”可能导致一个有效率的零利润结局。二是如果不采取价格战，作为一种敌对博弈论(vivalry game)其结果会如何呢？每一个企业，都会考虑采取正常价格策略，还是采取高价格策略形成垄断价格，并尽力获取垄断利润。如果垄断可以形成，则博弈双方的共同利润最大。这种情况就是垄断经营所做的，通常会抬高价格。另一个极端的情况是厂商用正常的价格，双方都可以获得利润。从这一点，我们又引出一条基本准则：“把你自己的战略建立在假定对手会按其最佳利益行动的基础上”。事实上，完全竞争的均衡就是“纳什均衡”或“非合作博弈均衡”。在这种状态下，每一个厂商或消费者都是按照所有的别人已定的价格来进行决策。在这种均衡中，每一企业要使利润最大化，消费者要使效用最大化，结果导致了零利润，也就是说价格等于边际成本。在完全竞争的情况下，非合作行为导致了社会所期望的经济效率状态。如果厂商采取合作行动并决定转向垄断价格，那么社会的经济效率就会遭到破坏。这就是为什么WTO和各国政府要加强反垄断的意义所在。
*****************污染博弈*************************
假如市场经济中存在着污染，但政府并没有管制的环境，企业为了追求利润的最大化，宁愿以牺牲环境为代价，也绝不会主动增加环保设备投资。按照看不见的手的原理，所有企业都会从利己的目的出发，采取不顾环境的策略，从而进入“纳什均衡”状态。如果一个企业从利他的目的出发，投资治理污染，而其他企业仍然不顾环境污染，那么这个企业的生产成本就会增加，价格就要提高，它的产品就没有竞争力，甚至企业还要破产。这是一个“看不见的手的有效的完全竞争机制”失败的例证。直到20世纪90年代中期，中国乡镇企业的盲目发展造成严重污染的情况就是如此。只有在政府加强污染管制时，企业才会采取低污染的策略组合。企业在这种情况下，获得与高污染同样的利润，但环境将更好。
**********************贸易自由与壁垒**********************
这个问题对于刚刚加入WTO的中国而言尤为重要。任何一个国家在国际贸易中都面临着保持贸易自由与实行贸易保护主义的两难选择。贸易自由与壁垒问题，也是一个“纳什均衡”，这个均衡是贸易双方采取不合作博弈的策略，结果使双方因贸易战受到损害。X国试图对Y国进行进口贸易限制，比如提高关税，则Y国必然会进行反击，也提高关税，结果谁也没有捞到好处。反之，如X和Y能达成合作性均衡，即从互惠互利的原则出发，双方都减少关税限制，结果大家都从贸易自由中获得了最大利益，而且全球贸易的总收益也增加了。
博弈论的经典案例:
@@@@@@@@囚徒困境@@@@@@@@@@@@@@
学习管理学或经济学的人一定都了解一些博弈论方面的知识。在博弈论中有一个经典案例--囚徒困境，非常耐人回味。----"囚徒困境"说的是两个囚犯的故事。这两个囚徒一起做坏事，结果被警察发现抓了起来，分别关在两个独立的不能互通信息的牢房里进行审讯。在这种情形下，两个囚犯都可以做出自己的选择：或者供出他的同伙（即与警察合作，从而背叛他的同伙），或者保持沉默（也就是与他的同伙合作，而不是与警察合作）。这两个囚犯都知道，如果他俩都能保持沉默的话，就都会被释放，因为只要他们拒不承认，警方无法给他们定罪。但警方也明白这一点，所以他们就给了这两个囚犯一点儿刺激：如果他们中的一个人背叛，即告发他的同伙，那么他就可以被无罪释放，同时还可以得到一笔奖金。而他的同伙就会被按照最重的罪来判决，并且为了加重惩罚，还要对他施以罚款，作为对告发者的奖赏。当然，如果这两个囚犯互相背叛的话，两个人都会被按照最重的罪来判决，谁也不会得到奖赏。
那么，这两个囚犯该怎么办呢？是选择互相合作还是互相背叛？从表面上看，他们应该互相合作，保持沉默，因为这样他们俩都能得到最好的结果：自由。但他们不得不仔细考虑对方可能采取什么选择。A犯不是个傻子，他马上意识到，他根本无法相信他的同伙不会向警方提供对他不利的证据，然后带着一笔丰厚的奖赏出狱而去，让他独自坐牢。这种想法的诱惑力实在太大了。但他也意识到，他的同伙也不是傻子，也会这样来设想他。所以A犯的结论是，唯一理性的选择就是背叛同伙，把一切都告诉警方，因为如果他的同伙笨得只会保持沉默，那么他就会是那个带奖出狱的幸运者了。而如果他的同伙也根据这个逻辑向警方交代了，那么，A犯反正也得服刑，起码他不必在这之上再被罚款。所以其结果就是，这两个囚犯按照不顾一切的逻辑得到了最糟糕的报应：坐牢。
当然，在现实世界里，信任与合作很少达到如此两难的境地。谈判、人际关系、强制性的合同和其他许多因素左右了当事人的决定。但囚徒的两难境地确实抓住了不信任和需要相互防范背叛这种真实的一面。让我们看看冷战时期两个超级大国将自己锁定在一场40年的军备竞赛中，其结果对双方都毫无益处。还有各国的贸易保护主义的永恒倾向。
但是，无论在自然界还是在人类社会，"合作"都是一种随处可见的现象。那么，问题就出现了：到底是何种机制促使生物体或者人类进行相互合作呢？这个问题的答案大部分归功于美国密西根大学一位叫做罗伯特·爱克斯罗德的人。爱克斯罗德是一个政治科学家，对合作的问题久有研究兴趣。为了进行关于合作的研究，他组织了一场计算机竞赛。这个竞赛的思路非常简单：任何想参加这个计算机竞赛的人都扮演"囚徒困境"案例中一个囚犯的角色。他们把自己的策略编入计算机程序，然后他们的程序会被成双成对地融入不同的组合。分好组以后，参与者就开始玩"囚徒困境"的游戏。他们每个人都要在合作与背叛之间做出选择。
----但这里与"囚徒困境"案例中有个不同之处：他们不只玩一遍这个游戏，而是一遍一遍地玩上200次。这就是博弈论专家所谓的"重复的囚徒困境"，它更逼真地反映了具有经常而长期性的人际关系。
而且，这种重复的游戏允许程序在做出合作或背叛的抉择时参考对手程序前几次的选择。如果两个程序只玩过一个回合，则背叛显然就是唯一理性的选择。但如果两个程序已经交手过多次，则双方就建立了各自的历史档案，用以记录与对手的交往情况。同时，它们各自也通过多次的交手树立了或好或差的声誉。虽然如此，对方的程序下一步将会如何举动却仍然极难确定。实际上，这也是该竞赛的组织者爱克斯罗德希望从这个竞赛中了解的事情之一。一个程序总是不管对手作何种举动都采取合作的态度吗？或者，它能总是采取背叛行动吗？它是否应该对对手的举动回之以更为复杂的举措？如果是，那会是怎么样的举措呢？
事实上，竞赛的第一个回合交上来的14个程序中包含了各种复杂的策略。但使爱克斯罗德和其他人深为吃惊的是，竞赛的桂冠属于其中最简单的策略：一报还一报（TIT FOR TAT）。这是多伦多大学心理学家阿纳托·拉帕波特提交上来的策略。一报还一报的策略是这样的：它总是以合作开局，但从此以后就采取以其人之道还治其人之身的策略。也就是说，一报还一报的策略实行了胡萝卜加大棒的原则。它永远不先背叛对方，从这个意义上来说它是"善意的"。它会在下一轮中对对手的前一次合作给予回报（哪怕以前这个对手曾经背叛过它），从这个意义上来说它是"宽容的"。但它会采取背叛的行动来惩罚对手前一次的背叛，从这个意义上来说它又是"强硬的"。而且，它的策略极为简单，对手程序一望便知其用意何在，从这个意义来说它又是"简单明了的"。
当然，因为只有为数不多程序参与了竞赛，一报还一报策略的胜利也许只是一种侥幸。但是，在上交的14个程序中，有8个是"善意的"，它们永远不会首先背叛。而且这些善意的程序都轻易就赢了6个非善意的程序。为了决出一个结果来，爱克斯罗德又举行了第二轮竞赛，特别邀请了更多的人，看看能否从一报还一报策略那儿将桂冠夺过来。这次有62个程序参加了竞赛，结果是一报还一报又一次夺魁。竞赛的结论是无可争议的。好人，或更确切地说，具备以下特点的人，将总会是赢家。 1．善意的； 2．宽容的； 3．强硬的； 4．简单明了的。
一报还一报策略的胜利对人类和其他生物的合作行为的形成所具有的深刻含义是显而易见的。爱克斯罗德在《合作进化》一书中指出，一报还一报策略能导致社会各个领域的合作，包括在最无指望的环境中的合作。他最喜欢举的例子就是第一次世界大战中自发产生的"自己活，也让他人活"的原则。当时前线战壕里的军队约束自己不开枪杀伤人，只要对方也这么做。使这个原则能够实行的原因是，双方军队都已陷入困境数月，这给了他们相互适应的机会。
一报还一报的相互作用使得自然界即使没有智能也能产生合作关系。这样的例子很多：真菌从地下的石头中汲取养分，为海藻提供了食物，而海藻反过来又为真菌提供了光合作用；金蚁合欢树为一种蚂蚁提供了食物，而这种蚂蚁反过来又保护了该树；无花果树的花是黄蜂的食物，而黄蜂反过来又为无花果树传授花粉，将树种撒向四处。
更广泛地说，共同演化会使一报还一报的合作风格在这个充满背信弃义劣行的世界上蔚然成风。假设少数采取一报还一报策略的个人在这个世界上通过突变而产生了。那么，只要这些个体能互相遇见，足够在今后的相逢中形成利害关系，他们就会开始形成小型的合作关系。一旦发生了这种情况，他们就能远胜于他们周围的那些背后藏刀的类型。这样，参与合作的人数就会增多。很快，一报还一报式的合作就会最终占上风。而一旦建立了这种机制，相互合作的个体就能生存下去。如果不太合作的类型想侵犯和利用他们的善意，一报还一报政策强硬的一面就会狠狠地惩罚他们，让他们无法扩散影响。
现在，对博弈论的研究是如此地广泛，以致于有些人说最新的经济学和管理科学都已经利用博弈论的理论和工具重写过了。博弈论中有很多有趣而富于哲理的案例，一报还一报就是其中的一个。它那种善意、宽容、强硬、简单明了的合作策略无论对个人还是对组织的行为方式都有很大的指导意义。
************大众定理简介*****************
我们知道，单凭理性计算，有限次重复博奕，是解决个体理性与集体理性之间矛盾的。无限重复又如何呢？且听我细细道来。
在无限重复中，行为规则可以用自动机来代表，于是不同行为规则的相争，便成了机器与机器的角斗。假设甲和乙玩无限重复的囚犯博奕。甲相信《美德的起源》一书作者的教导，认定仁厚忠恕既高尚又有效，于是以它为策略。乙信奉理性流氓主义，崇尚实力和实利，于是以流氓主义为策略。这样，二人间的博弈，就可以看作恕道机器与流氓机器的争斗。根据上一贴中列出的框图，我们可以推演出各个回合双方的行为如下：第一回合，甲仁厚玩合作Ｈ，乙宰客玩欺骗Ｄ；第二回合，甲报复玩欺骗Ｄ，乙仍然宰客玩欺骗Ｄ；第三回合，甲仍报复玩欺骗Ｄ，乙发现甲并非傻客，于是玩合作Ｈ；第四回合，甲原谅乙，玩合作Ｈ；乙却因甲上次不合作，回头玩欺骗Ｄ宰客；……如此等等。采用我们上贴里的报偿表，整个结果序列如下图所示：
循　环　　　循　环　　　循　环
┌───┐　┌───┐　┌───┐
↓　　　↓　↓　　　↓　↓　　　↓
行为：甲　Ｈ　Ｄ　Ｄ　Ｈ　Ｄ　Ｄ　Ｈ　Ｄ　Ｄ
乙　Ｄ　Ｄ　Ｈ　Ｄ　Ｄ　Ｈ　Ｄ　Ｄ　Ｈ
报偿：甲　０　２　６　０　２　６　０　２　６
乙　６　２　０　６　２　０　６　２　０
请注意，此序列呈现一个有趣的规律：就是每三个一组，不断循环重复。于是我们很容易算出，博弈各方平均每个回合的报偿有多少　　只要取相继三个回合，作个简单平均就够了。甲得到（０＋２＋６）／３＝２．６７，乙得到（６＋２＋０）／３＝２．６７。显然，两者平分秋色，不相上下，谁也不比谁差，谁也不比谁强。
这种循环重复并不是特例。可以证明，有限自动机玩无限重复博弈，其结果最终都会变成循环重复序列。于是，利用类似的办法，我们可以针对上贴中列出的七种策略，算出每一对策略相博所产生的的平均报偿。这些报偿可以写成一个７×７博奕矩阵，如下表所示（其中一些略去了小数，这不影响下面的讨论）：
傻客　　恶棍　　冷血　　恕道　　侠义　　流氓　　摇摆
·－－－－－－－－－－－－－－－－－－－－－－－－－－－·
傻客｜４，４｜０，６｜４，４｜４，４｜４，４｜０，６｜０，６｜
｜－－－＋－－－＋－－－＋－－－＋－－－＋－－－＋－－－｜
恶棍｜６，０｜②，②｜２，２｜２，２｜２，２｜３，１｜２，２｜
｜－－－＋－－－＋－－－＋－－－＋－－－＋－－－＋－－－｜
冷血｜４，４｜２，２｜④，④｜④，④｜２，２｜３，１｜２，２｜
｜－－－＋－－－＋－－－＋－－－＋－－－＋－－－＋－－－｜
恕道｜４，４｜２，２｜④，④｜④，④｜３，３｜２，２｜２，２｜
甲　　　｜－－－＋－－－＋－－－＋－－－＋－－－＋－－－＋－－－｜　　侠义｜４，４｜２，２｜２，２｜３，３｜２，２｜２，２｜２，２｜
｜－－－＋－－－＋－－－＋－－－＋－－－＋－－－＋－－－｜
流氓｜６，０｜１，３｜１，３｜２，２｜２，２｜④，④｜２，４｜
｜－－－＋－－－＋－－－＋－－－＋－－－＋－－－＋－－－｜
摇摆｜６，０｜２，２｜２，２｜２，２｜２，２｜４，２｜③，③｜
·－－－－－－－－－－－－－－－－－－－－－－－－－－－·
上面这个表里面，有带圈数字的格子都是平衡点。比如，乙玩恶棍策略时，甲无论玩什么，都不比当恶棍带来的好处更多，顶多不致受损而已。因此，甲乙双方都当恶棍，次次都玩欺骗，便是重复囚犯博奕的平衡点之一，此时各方的报偿与一次性博奕相同，都是２。
观察一下上面这个表，我们会发现它有多个平衡点。非重复博弈中的均衡点，恶棍对恶棍，双方永远玩欺骗，仍然是无限重复博弈的均衡点。无条件合作的傻客策略，仍然不是重复博弈的均衡点　　理性的人，决不会当傻客。　　更重要的是，重复博弈引进了许多新的平衡点，其中有不少平衡点，可以实现合作报偿(4,4)。这包括恕道策略对恕道策略，恕道策略对冷血策略，冷血策略对冷血策略，流氓策略对流氓策略等，都可以维持双方的合作。以流氓对流氓为例：第一回合，双方耍流氓互宰，发现对方不是好惹的之后，双方转入合作心态，此后一直维持合作，这样无限次重复，其平均报偿都是４。　　事实上，存在这无穷多对有限自动机策略，可以成为无限重复博弈的平衡点，并同时实现双方的合作。这就是有名的“大众定理(Folk Theorem)”，又译作“无名氏定理”。它之得名，是由于重复博弈促进合作的思想，早就有很多人提出，以致无法追溯到其原创者，于是以“无名氏”名之。
大众定理说明了行为规则的多样性：有无穷多种行为规则可以支持合作行为。在正常的平衡状态中，可观察到的行为可以完全相同的，此即博弈双方相互合作，不玩欺骗。但其背后的行为规则却可能大不相同
合作，可以是由于双方都信奉仁厚的恕道主义，也可能是因为双方都是理性；
流氓，还可能是因为双方都一冷血报复作威胁。
这些行为规则上的区别，在正常的平衡状态中，是看不出来的，只有在非正常情况下，或在与外人的交往中，才会表现出来。
为说明此点，设想有两个相互隔离的社会：一个形成了理性流氓式的行为规则，一个形成仁厚恕道的行为规则，他们各自内部都能维持相互合作，这形成了社会的正常状态。外人但凭观察这两个社会中人们的正常行为，看不出他们有什么区别。现在假设两个社会打破隔离，相互接触，会产生甚么情况？　　两套行为规则间会出现激烈的冲突！
初次接触，流氓主义者将把对方当傻客，大宰其客。恕道主义者假设对方是好人，选择合作，只是在吃了亏之后，才以回宰其客相回报。流氓主义者见对方回宰，以为对方也是跟自己一样的流氓，于是转向合作心态，同时预期对方也选择合作。但恕道主义者根据“以直报怨”的原则，仍然以宰客回报对方上次的欺骗。流氓主义者一看对方不合作，怒从心起，于是报之以宰客，如此循环往复，双方永远无法达成合作。
行为规则的冲突，类似于人文学科里常说的文化冲突。由于行为规则反映了人们对各自行为的稳定预期，一些博弈论者把不同的行为规则解释为不同的文化信仰，应当是不无道理的。我觉得，重复博弈理论，为我们科学理解许多文化现象，打开了大门。
正是由于行为规则本身的多样性和复杂性，所以我对成朴文章中过分抬高“一报还一报（ｔｉｔ　ｆｏｒ　ｔａｔ）”单一规则，将之推崇为美德的起源，始终抱有疑虑。
附加值：一块馅饼
了解谁在游戏中权力最大的关键是“附加值”这一概念。附加值衡量了每位游戏者带进游戏中来的东西。先看看你和所有游戏者都参与游戏时馅饼有多大，再看看你不参加时其它游戏者能制作多大的馅饼。这其中的差别即是你的附加值。
要想从游戏中得到比自己的附加值更多的东西很困难。直观来看，你能从游戏中拿走的东西受限于你带到游戏中来的东西，而你带来的就是你的附加值。
如果你没有竞争对手，你的附加值就有保障。此时的战略就是需不需要限制其它游戏者的附加值以及如何去做。任天堂通过建立“效力圈”独霸了8比特的游戏机市场。有一段时间，来自竞争对手的威胁成不了任何气候。但任天堂价值网中的其它游戏者仍要分一杯羹。此时，任天堂的战略就是限制这些游戏者的附加值（参见“权力游戏”图）。
大多数时候，竞争对手不少。此时的挑战就是如何建立自己的附加值。建立附加值是基础业务中的重头戏。企业要么千方百计地在缓慢增加的成本中改善质量，如美国环球航空公司（TWA）的舒适舱；要么在不过多降低质量的条件下降低成本。比这种聪明的取舍更好的，是找到我们称之为“互用”的东西，即同时提高质量并降低成本。
竞争对手也是这样做的。他们也费尽心思进行类似的精明取舍或互用。这种机理会降低你企业的附加值。为了保护好自己的附加值，企业需要同顾客和供应商建立关系。这种关系保证了企业产品的独特性，产品中有一部分就是企业自己。美洲航空公司 (American Airlines)的 AAdvantage（编者译：航惠）常客项目即是建立这种关系的典范。此活动通过奖赏创造了忠诚。游戏者：找出其相互关系如果商业是场游戏，那么谁是游戏者？他们的角色又如何呢？
游戏者分为四种类型：顾客、供应商、竞争对手和辅佐商。
如果顾客拥有其它公司产品后比他们仅拥有你公司的产品时更看重你公司的产品，这家公司即是你公司的辅佐商。例如，如果有芥末，人们比没有芥末更喜欢热狗，反之亦然。找出辅佐商的方法是：站在顾客的角度想一想，然后问自己：还有哪些产品顾客购买后会增加我的产品在他们心目中的价值？
竞争对手正好相反：如果顾客拥有某公司的产品后不如他们仅拥有你公司产品时看重你公司的产品，这家公司即是你公司的竞争者。可口可乐（Coca-Cola）和百事可乐（Pepsi Cola）即是经典的竞争对手的例子。例如，如果你刚喝完一瓶可口可乐，就不太会喜欢百事可乐，除非你口还很渴。可口可乐不会为百事可乐增添生机。找出竞争对手的适当方法同样是把自己放在顾客的位置上设想，还有哪些产品顾客购买后会降低我的产品在他们心目中的价值？
价值网揭示了商业游戏中的两种基本对称关系。在垂直方向，顾客和供应商互相对应；在水平方向上，竞争者和辅佐商也相互呼应。在价值的创造过程中，他们的地位相等。
在一次劳工谈判中，人事关系部主任大叫：“我必须让员工明白，顾客是第一位的。”但看了价值网后，他改变了想法，开始做更有建设性的会谈。最终，大家都意识到了共同的目标：创造一个最大的馅饼。要实现这个目标，没有人是第一位的。如果某位顾客有某种特殊要求，如特快送货，却不愿支付足够费用来弥补工人因此而失去同家人共渡周末的快乐，满足这种需求就不会增加价值，实际上只会破坏价值。顾客并不总是对的，员工同样也有权利。
通常，同一个游戏者在价值网上占有多重角色。企业战略专家Gary Hamel（汉默）和C. K. Prahalad（普拉赫拉德）在《逐鹿未来》(Competing for the Future)，参见本刊1994年11月号封面专题）一书中举例道：“在任何一天中，美国电话电报公司（AT & T）都可能把摩托罗拉公司（Motorola）当作自己的供应商、购货商、竞争对手或伙伴。”
附加值：一块馅饼
了解谁在游戏中权力最大的关键是“附加值”这一概念。附加值衡量了每位游戏者带进游戏中来的东西。先看看你和所有游戏者都参与游戏时馅饼有多大，再看看你不参加时其它游戏者能制作多大的馅饼。这其中的差别即是你的附加值。
要想从游戏中得到比自己的附加值更多的东西很困难。直观来看，你能从游戏中拿走的东西受限于你带到游戏中来的东西，而你带来的就是你的附加值。
如果你没有竞争对手，你的附加值就有保障。此时的战略就是需不需要限制其它游戏者的附加值以及如何去做。任天堂通过建立“效力圈”独霸了8比特的游戏机市场。有一段时间，来自竞争对手的威胁成不了任何气候。但任天堂价值网中的其它游戏者仍要分一杯羹。此时，任天堂的战略就是限制这些游戏者的附加值（参见“权力游戏”图）。
大多数时候，竞争对手不少。此时的挑战就是如何建立自己的附加值。建立附加值是基础业务中的重头戏。企业要么千方百计地在缓慢增加的成本中改善质量，如美国环球航空公司（TWA）的舒适舱；要么在不过多降低质量的条件下降低成本。比这种聪明的取舍更好的，是找到我们称之为“互用”的东西，即同时提高质量并降低成本。
竞争对手也是这样做的。他们也费尽心思进行类似的精明取舍或互用。这种机理会降低你企业的附加值。为了保护好自己的附加值，企业需要同顾客和供应商建立关系。这种关系保证了企业产品的独特性，产品中有一部分就是企业自己。美洲航空公司 (American Airlines)的 AAdvantage（编者译：航惠）常客项目即是建立这种关系的典范。此活动通过奖赏创造了忠诚。
**********游戏规则：细节至关重要 *********************
一谈到改变游戏，通常人们马上就会想到改变游戏规则。但具体到应改变哪些规则、如何改变时，却常常是伤脑筋的事。毕竟，商人所遵循的规则多数是一些根深蒂固的法则和惯例。
但对其它一些规则却可以做合理的改变。这些规则许多包含于合同中。同顾客和供应商签定的合同会深深影响与这些游戏者的交易。仅仅是一个条款就可以令权力天平朝着对企业有利或不利的方向倾斜。这些合同在塑造了企业同顾客和供应商关系的同时，也塑造了企业同竞争者的关系。为确保企业参与的游戏有利可图，必须确保合同中包含恰当的规则。
同游戏者或附加值的改变相比，规则的可能变化会极大地改变游戏结果。换言之，一旦涉及商业规则，细节即是一切。制定新规则没有固定程序。这是创造性行为。但仍可从一些地方获得有关新规则的灵感。其中一种方法就是寻找在某种情况下有效的规则，看看在不同情况下是否仍然有效。
自由改变规则是一把双刃剑。不要盲从他人的规则，同样也别期望别人会盲从你的规则。正如你可以改变规则或制定新的规则一样，其他人也可以这样做。
*****************战术：认知就是一切************************
商业游戏迷雾缭绕，因此在任何游戏中，认知都是一种基本要素。无论准确与否，认知都能驱使行为。把握并建立竞争对手的认知也就成了商业战略的重要组成部分。
建立人们的认知属“战术”范畴。战术是游戏者为建立其它游戏者的认知所采取的行为。有些战术是为了拔开迷雾；有些是为了留住迷雾；还有一些则是为了制造新的迷雾。
在1990年时，Sensor（编者译：鑫泽）剃须系统还是一种创新产品。吉列公司（Gillette）当时的问题是如何令顾客认可这一事实。顾客凭什么一字不疑地相信它的话呢？
为了拔开迷雾，吉列公司发起一场品味很高、震撼人心的广告活动。广告称赞了鑫泽剃须系统的技术优势。但更重要的是，这种活动给人们灌输了这样的想法：“他们推出这种产品一定是花了大钱的。他们肯定是确信这种产品会成功。我应该试试看。”
消费者的想法是正确的。吉列公司为推出这种产品花了1亿美元。除非它确信人们在试用过鑫泽剃须系统后会改用这种剃须刀，否则它永远也不会这样做。吉列公司的判断也很正确：人们喜欢鑫泽剃须刀。公司在全球的剃须刀销量上升了70%。
在某种意义上，任何事都是一种战术。你所做或没做的任何事都是一种信号。这些信号形成了人们对游戏的认知。而多数人对游戏的集体认知就成了游戏本身。只有考虑到人们的认知，才能真正了解自己参与的是什么样的游戏，掌握好改变游戏的控制权。
@@@@@@@@@@@@@@游戏范围：广阔无垠，全凭链接 @@@@@@@@@@@@@@@@@@@@@
任何游戏都不是一座孤岛。即便如此，人们还是划分界线，将世界划分成许多相互分离的游戏。一个很容易犯的错误就是孤立地分析这些相互分离的游戏，想象着不存在范围更大的游戏了。问题是这种假设的界线并不存在。每一个游戏都与其它游戏连在一起。一个地方的游戏会影响其它地方的游戏，今天的游戏也会影响到明天的游戏。
任何两个游戏，即便是单独进行、自成气候的游戏，也只是大游戏中的一个组成部分而已。从定义上来讲，这个神秘的庞大游戏没有界限，没有固定的范围。因此，游戏者、附加值、游戏规则和战术这4个要素，即PARTS，构成了这个神秘的大游戏的全部因素。如此一来，PARTS也就成了对游戏间的联系进行分类的方法。
首先说游戏者。任何时候当你的游戏中有一个游戏者同时又是另一个游戏中的游戏者，这两个游戏就有可能相连。这个双重游戏者可以是价值网中的任何人。要想确定这两个游戏是否相连，你必须审查一遍 PARTS中的其他因素。