博弈论与策略思维~一

Game Theory and Strategic Thinking

博弈论很可能不仅仅是一个经济学的分支，它更像是心理学、社会学以及日常生活中的一个非常好的解释学科，这也是很多人觉得博弈论非常的重要，把它当成一个重要的底层思维在讲。

认知目标

解释为什么囚徒困境中非合作是占优策略？
解释为什么重复博弈能够强化合作？
解释如何利用逆向归纳法进行决策？
定义先发优势并在实践中加以识别
解释为什么重复博弈中有耐心的参与者具有更强的议价能力？
解释为什么承诺策略能够让参与者通过限定自己的选择达到目标？

引例请勿乱扔垃圾

无论是散落在人行横道的糖纸，还是公路上飘扬的塑料袋，乱扔垃圾都十分有碍观瞻。相比于脏乱的环境，大多数人更喜欢干净的街道、公园以及海洋，那为什么还会存在乱扔垃圾的现象？

主要有以下的两种方法：

针对乱扔垃圾建立严格的规范，比如鼓励家庭、学校等地方的其他社会组织强化公众应该保持社区整洁的理念
另一种是采取严厉的惩罚措施

在本章的过程中，我们会看到囚徒困境的例子---囚徒困境是指双方都进行理性的决策，但对双方而言结果却并不理想的一种博弈策略。将决策当作一场博弈也许看起来有些轻率，然而经济学家使用博弈这一术语时采用了相对更加广泛的含义：对经济学家而言，博弈不仅仅是象棋、大富翁或者扑克牌等娱乐项目，也指参与者通过策略达到目标的所有情形。(It
might seem to trivialize choices to think of them as a "game,"but
economists use the term game in a broader sense than its everyday use:To
economists,games are not just recreational pursuits like
chess,Monopoly,or poker;instead,games are situations in which players
pursue strategies designed to achieve their goals. )不同类型的博弈将会出现在环境保护、商业运作以及战争等真实世界的诸多情形中。

博弈与策略行为

---Games and Strategic Behavior

经济学家用博弈(game)这一术语表示至少两人参加的，需要每位参与者都进行策略性思考的情形下。研究在不同的情况下，参与者如何采取策略行为的理论称为博弈论(game theory)。

我们已经了解到当人们审视自己面临的权衡取舍时，能够理性地通过有效的方式追求自己的目标。当你所面临的权衡取舍受到他人决策的影响时，理性的做法就是采取策略行为(behaving strategically)。策略行为意味着通过预测自己与他人决策之间的相互作用采取行动以达到目标。当你的结果受制于他人的决策时，询问自己他人会如何回应？经济学家考虑的四个关键问题之一，这是进行明智决策的关键(在第一章《经济与生活》这篇中谈到了这一话题并仔细进行了相应的论述)。

规则、策略和受益

Rules,strategies,and payoffs

所有的博弈都具有三个特征：规则、策略和收益，规则定义了一场博弈论中允许的行动。比如在象棋中，每一种棋子只能朝一个特定方向移动(而不是马飞田，象走日)。在实际生活中，人们的行为受到法律和自然法则的双重限制。比如，当两个企业竞争时，可以认为每个企业的成本构成是一种规则。在环境博弈中，可以认为自然法则是限制和引导人类进行决策的规则。

策略是参与者为实现目标而采取行动时所遵循的计划。在大富翁游戏中，你会尽可能地购买廉价的不动产，或者努力成为铁路和公共设施巨头。所有的这些策略都是为了实现相同的目标：让其他玩家破产的同时赚取更多的游戏币。两个企业竞争的策略可能包括生产特定数量的商品。竞选的策略之一就是通过充满希望的语言和想象力吸引人们为候选人投票。

收益是特定行为带来的回报。可能是货币形式的：从事特定工作获得的工资，或有远见的商业决策带来的利润。也可能是非货币形式的：象棋比赛的收益是赢得棋局，竞选中最重要的收益则是当选。

一次性博弈与囚徒困境

---One-Time Games and the Prisoners's Dilemma

经典的囚徒困境(prisioners' dilemma)是指双方都进行理性的决策，但双方而言结果并不理想的一种博弈。这也适用于超过两个人的情形，并且不限于个人，对于组织也适用。下图中利用决策矩阵对这一困境进行描述。横向观察第一行可以发现，如果你的同伙认罪了，你将在自己的第三选择(10 年监禁)和第四选择(20 年监禁)之间进行选择。观察第二行可以发现如果你的同伙拒绝认罪，你将在自己的第一选择(1年监禁)和第二选择(2年监禁)之间进行选择。纵向观察每一列可以发现，对你的同伙而言，他也面临同样的选择。你们两个所面临的激励意味着你们都将认罪，最终处于左上角的框内，即实现你们的第三选择。然而如果你们能够相互合作，最终可以在处于右下角的框内，即两人都实现第二选择。

在之前的囚徒困境中，无论你的同伙做什么，你都最好选择认罪。无论其他参与者选择什么策略，对于自己都是最佳的策略被称为占优策略(dominant strategy)。但是，并非所有的博弈中，每位参与者都有占优策略。在我们很熟悉的游戏石头--剪刀---布中。在一般的规则中：石头能打败剪刀，剪刀能打败布，而布能打败石头。由于每个参与者同时行动，预测对手的选择十分困难。无论从决策矩阵的纵向还是横向来看，都不存在一个策略，无论对手选择什么，你都一定能赢。

实现均衡

---Reaching equilibrium

回到第三章中提到的均衡概念：当一个市场实现均衡价格和数量时，意味着当其他买者和卖者的行为一定时，没有任何一个买者有动力付更多钱，也没有任何一个卖者有动力接受更低的价格。均衡的概念在博弈论中也很常见：特别地，一种特殊类型地均衡被称为纳什均衡(Nash equilibrium)，是指当其他参与者的选择既定，每位参与者都选择了最佳策略时所达到的均衡。换句话说，就是给定其他参与者的选择，没有参与者有动力改变自己策略的状态。这一概念是以著名的博弈论学者约翰.纳什命名的。

在类似石头--剪刀--布的博弈中，纳什均衡并不存在。比如你正在与朋友玩石头--剪刀--布，如果朋友选择剪刀，你选择了石头，那么你并没有改变选择的动力(石头能打败剪刀)，但对方却有转向选择布的动力(布能打败石头)。而如果你的朋友转向选择布，这会让你转向选择剪刀(剪刀能打败布)，如此往复。此时博弈并不存在一个确定的结果，也就是说，一旦得知对方的选择，你们两个都会改变自己的策略。

而在囚徒困境中，则存在一个稳定的结果：你们两个都选择认罪。正如我们在囚徒困境中看到的，对于参与者而言，一个博弈论的均衡结果并不一定是好的结果，这种负--负的结果被称为非合作均衡，因为参与者的行为都是孤立的，只考虑自己的个人利益。(This negative-negative outcome is called a noncooperative equilibrum because the participants act independently,pursuing only their individual intersets.)

尽管每个人都只考虑自己的个人利益，某些博弈中也存在稳定的正--正的结果。思考汽车驾驶的博弈：假设某个岛上只有两个汽车驾驶员，你是其中之一，你们两个朝向对方行驶。如果你决定在路右侧行驶，而另外一个人决定在路左侧行驶，你们将会迎面相撞(这是你们两个的最差受益)，这并非均衡。你的决定让对方有动力也选择在右侧行驶。当你们都靠右侧行驶时，你们将避免事故的出现(这是一种最好收益)，并且你们没有人有动力改变。此时，靠右行驶就是一个正--正的结果。

通过承诺避免竞争

---Avoiding competition through commitment

在我们对囚徒困境的讨论中，已经多次强调，如果博弈的参与者能够合作的话，他们的情况将会有所好转，那么他们为什么不合作呢？这并不仅仅因为他们被关在不同的房间而无法交谈。也不是简单的信任问题，而是即使你事先和同伙就不认罪达成一致，你也难免担心同伙会先行认罪违背你们的承诺。

实际上，问题比这还有复杂。即使你完全确定你的同伙值得信任，不会认罪，你仍然应该认罪(记住不论你的同伙做什么，你都最好认罪，这是一个占优策略)。在囚徒困境中，预先商量好的合作协议很难得到执行，因为两个参与者都有很强的动机背叛对方。

这个问题得以解决的方法之一就是建立背叛的惩罚机制，降低参与者的受益。为了保证合作策略得以实施，惩罚必须足够严厉，从而超过不合作的激励，这可行吗？可行性取决于特定博弈的具体情形。在经典的囚徒困境中：想象如果你和同一个犯罪团体的成员，一致同意如果有人针对其他人有罪进行作证，将会被惩罚处死。这戏剧性地将认罪的收益变为：较短的刑期，但刑满释放后被处死。这种选择下，"不认罪" 变成了一个更具吸引力的选择。

此类协议是承诺策略(commitment strategy)的典型例子，协议规定如果有人背叛了给定的策略，在未来可以对其施加惩罚。通过改变收益，就未来的惩罚达成一致，能够让参与者实现一个共同获益的均衡状态，否则这一均衡难以维系。

基于公共利益促进竞争

---Promoting competition in the public interest

通过承诺策略达成正-正结果对每个人都有好处。例如在选举博弈中，如果候选人能够就正面选举达成一致，公众能够获益。选民可以避免负面选举带来的不愉快，选民投票率和政治活动的公共利益都会提升。

但是在某些囚徒困境的博弈中，阻止参与者进行合作有利于公共利益。我们之前针对典型的囚徒困境设想的承诺机制，与真实世界的现实情况相差无几。著名的沉默法则能够阻止黑帮成员与官方当局进行交谈，这让检察官几乎无法说服黑帮成员认罪，并且出面指认黑帮组织的领袖。这就是建立证人保护计划的原因所在，即试图增加认罪的收益，同时推动参与者回到追求自身利益的博弈状态。

考虑在一个商业领域更为常见的例子：假设一个小镇上有两个加油站，分别由大陆石油公司和美孚公司开设，每个加油站都可以在高油价和低油价之间进行选择。这让我们可以得到四种可能的结果和收益。如图的决策矩阵所示。

如果两个加油站都定低价，它们都将获得低利润;
如果两个加油站都定高价，它们都将获得高利润;
如果美孚定价高而大陆石油定低价，小镇的每个人都会去大陆石油的加油站加油。大陆石油的加油站将获得高利润，而美孚的加油站将亏损;
如果美孚定价低而大陆石油定价高，相反的现象就发生了；每个人都去美孚的加油站加油，这会让美孚的加油站获得高利润，而大陆石油公司由于没有顾客光顾，将产生亏损。

到此为止，这一分析过程看起来似曾相识：这一博弈是囚徒困境的另一个应用，占优策略是低油价。尽管如果两个加油站能够就高油价达成一致，它们将获得更高的利润，但是它们仍然会选择定价较低的占优策略。这一非合作均衡对博弈的参与者，即两个加油站而言是坏消息，但是对可以低价加油的小镇消费者而言，则十分有利。

我们可以预料，两个加油站的经营者一定会试图找到合作的方法，以实现它们都能获得高利润的均衡(我们将在接下来的内容中探讨实现合作的一种途径)。但是小镇的消费者则想要阻止这一结果发生，因为这将会让他们没有选择，只能为汽油支付高价。我们甚至采用了一个略为负面的词语合谋，或共谋来指代此类商业领域的合作，而采用一个更为正面的词语竞争来指代非合作均衡。

在接下来的章节中我们将看到合谋实质上存在一个共同的问题：企业往往试图找到合谋的途径来索取高价，然而代表了消费者利益的政府则试图找到阻止它们的方法。用博弈论的语言来说，就是将改变价格竞争博弈规则的合谋裁定为非法行为。

囚徒困境中的重复博弈

---Reapeated Play in the Prisoners'Dilemma

到目前为止，我们对囚徒困境博弈建立了一次性决策模型。在博弈论的经典理论中，对两个面临 20 年监禁的共犯而言，这种建模是十分准确的，这的确是一个一次性决策。但是在总统竞选的例子中，这并不准确：采用正面还是负面策略的决策并非只在竞选开始时进行一次，而是每天都在进行。加油站的经营者每天甚至每个小时都可以改变自己的价格。科学家将不止一次的博弈称为重复博弈 (repeated game)。

当博弈重复时，策略和激励往往完全不同。特别是参与者不再需要承诺策略来实现共同受益的均衡。为了弄明白为什么，我们回到只有两个加油站的小镇。想象着你经营一家美孚加油站，一个早晨你也许会想：“今天我将要提高价格，当然一开始我会损失一些钱，但是这是值得冒险的，因为大陆加油站的经理也许会看到我们长期获益的机会。”因此在博弈的第一回合，美孚的加油站采取了 "高油价" 的策略。

现在想象你经营着大陆石油加油站，当你看到美孚加油站提高了价格，你也许会想：”太好了，人们都会来我的店里加油，我将会赚到更多的钱，但是等一下，这并不持久。当美孚加油站开始亏损时，它除了降价别无选择，如果我也提高价格，也许美孚的经理将会保持高价，那么我们能够获得更高的利润。"由此，在博弈的第二回合，美孚的加油站和大陆石油的加油站都采取了" 高油价 " 的策略。

在第三回合将会发生什么？两个加油站的经理都会想：”如果另一个加油站维持高价的话，我降价将会带来更多利润。但是这是不可能发生。如果我降价，另一个加油站也一定会被迫降价。因此我将会保持高价，同时看看对方是否也这样做。”于是在第三轮的博弈中，两个加油站再一次地采取了“高油价”策略。在接下来地第四、第五、第六回合中，同样的理由依然成立。因此在两个参与者的持续合作下，汽油维持了高价。

一报还一报策略

---The tit-for-tat strategy

美孚的加油站和大陆的加油站的经理之间的思维过程是一报还一报(tit-for-tat)策略的典型例子。一报还一报是一种十分坦率的想法：无论对方做什么，你都会采取相同的行为作为回报。实际上，在囚徒困境的重复博弈中，一报还一报策略十分有效。如果对方做出了合作举动(比如在加油站的例子中，采取高价)，那么作为回应你也会进行合作(也提高价格)。如果对方采取了非合作的背叛举动(降低价格)，你也会回敬非合作举动(也降低价格)。两个都采取一报还一报策略的参与者能够很快就持续合作达成一致。

重复博弈的参与者没有必要为了实现合作，而采取公开承诺策略或者签订明确的协议。例如，镇上两个加油站仅仅通过两个参与者的理性博弈，就能够长期维持高油价。实际上，签订明确协议维持高价的行为是违法的(合谋)，而维持高价的公开承诺也不受消费者欢迎。因此公司往往会通过微妙的手段让竞争对手了解自己将坚持采取一报还一报策略，由此降低竞争对手降低对已达成的高价均衡产生威胁的风险。

现实生活中价格一致承诺保证了什么？
    有些公司的广告宣称，如果你能够在其他地方发现更低的价格，他们将与之一致。潜台词是他们确信自己的价格是最低的。然而，这其中的博弈更为微妙，并且对消费者而言没有半点好处。实际上，博弈论表明价格一致承诺所保证的是更高的价格，而非低价。
    人类的很多情绪是从祖先的一报还一报博弈中演变而来的。为什么我们会感受到诸如同情、感激、报复、内疚和宽恕等不同的情绪？提出互惠利他主义理论的进化生物学家罗伯特.特里弗斯推测，我们进化出的此类情绪能够帮助我们在 "博弈" 中采取一报还一报策略实现合作，而这也让我们的祖先得以生存延续。
    设想你是生活在原始社会的狩猎-采集部落成员。一天你收获颇丰，带回自己吃不完的食物，但是你的邻居一无所获。你可以选择合作(与邻居分享食物)或者选择不合作(自己拼命吃掉所有的食物)。第二天，也许你的邻居有所收获，但是你没有，并且他也做出了相同的选择。在这种情形下，相比于不合作(你们每个人轮流挨饿或狼吞虎咽)，如果能够维持合作，你和邻居生活得更好(分享食物并且每天都能吃得好)。
换个视角一报还一报与人的情绪
    要实现持续的合作需要什么情绪呢？首先你必须有足够的同情心，分给你倒霉的饥饿邻居一些食物。接下来你的邻居应该心怀感激，使得他能够在第二天与你分享食物作为回报。如果某天你的邻居做出了非合作举动，拒绝与你分享食物，你需要诸如报复的情绪激励你采取惩罚措施，不与他分享食物。而如果你的邻居随后感到内疚，在接下来的一天与你分享，你需要诸如宽恕的情绪，让自己回到彼此分享的惯例中。
    当然，没有人完全了解为什么人类具有感受这些情绪的能力。但有趣的是，我们很多情绪的存在仅仅是为了帮助我们在重复的囚徒困境博弈中，凭直觉选择一报还一报的策略。
未完待续......