博弈论与策略思维~二

Game Theory and Strategic Thinking

接着上一篇中的博弈论继续进行分享~~

序贯博弈

---Sequential Games

到目前为止，我们分析了参与者同时做出决策的博弈。在囚徒困境博弈或者石头剪刀布博弈中，每个参与者在得知其他参与者的决定之前，决定自己要采取的策略。然而在许多真实世界的情形中，一个人或企业往往必须在对手之前做出决策。当参与者并非同时而是依次行动时，我们称之为序贯博弈。

前向思考，逆向行动

---Think forward,work backward

在序贯博弈中，策略行为的一个特别重要的特征就是“前向思考，逆向行动”。首先你必须前向思考：你正在考虑的情形中所有可能的结果都是什么？你更倾向于哪种结果？接下来你必须逆向行动；为了实现你更倾向的结果，你需要做出什么选择？

这种方向分析问题的过程，即从最终的选择开始逐项向前，直至确定最优策略，被称为逆向归纳法(backward induction)。这可能是你一直不采用但并不自知的方法。

从你想要的结果开始，按时间逆向行动，依次决定为了达到目标，你必须做出的每个决策。
问题：你现在应该做什么？
愿望：得到一个健康的身体
问：为了得到一个健康的身体你必须做什么？
答：你必须身体各项指标正常，有正常的精力做平时的事情
问：为了身体各项指标正常，有正常的精力做平时的事情你必须做什么？
答：你必须在前一天有好的睡眠
问：为了在前一天有好的睡眠你必须做什么
答：你必须在特定的时间规划好一些事情而不熬夜影响睡眠
问：为了在特定的时间规划好一些事情而不熬夜你必须做什么
答：我必须提高效率，设置一些deadline避免自己拖延，尽快处理手边的小事情
由此为了保持健康的身体，你应该每天对自己的事情有规划，不拖延设置一些小的deadline.

Tips：This
line of reasoning is an example of backward induction:Start with the
outcome you want,then work backward in time to determine each choice you
must make to achieve that outcome.

阻止对手进入市场：一个序贯博弈

---Deterring market entry:A sequential game

如果其他参与者为了回应你的决策做出的行动会对你产生影响，那么在序贯博弈中，逆向归纳法是一个特别有用的分析方法。在商业中尤其如此：许多企业不得不在序贯博弈中做出策略决策。此类例子之一就是进入某一市场。假设麦当劳公司正在考虑在一个没有快餐店的小城镇上开一家餐厅。同时假设麦当劳只考虑选址在能够至少获得 10%投资回报率的地方，因为公司把钱转投其他项目时能够获得 10%的回报。

公司高层在两处可行的选址中举棋不定：在市中心、低价昂贵，但是顾客到店用餐更方便；在郊区，地价便宜，但顾客必须开车才能到达。公司的计算结果(在这个例子中假定的)表明，位于郊区的一个麦当劳餐厅可以产生 20%的回报，而选址于市中心可以赚取 15%的回报。如果麦当劳的分析过程到此为止的话，它将会选择将新店建在郊区。

然而，如果公司高层进行策略思考，就会意识到存在汉堡王也考虑进军同一个城镇的可能性。麦当劳的计算表明，如果存在两个相互竞争的快餐店，一个在市中心而另一个在郊区的话，大多数顾客不愿意驱车驶往郊区，市中心的快餐店会获利颇丰。由此市中心的快餐店将赚得 12%的回报率，而郊区的快餐店仅获得 2%的回报率。如果两家店都在郊区，每一家都将获得 8%的回报率；如果两家店都在市中心，每一家将获得 4%的回报率。

得知汉堡王不确定是否进入市场之后，麦当劳应该怎么做呢？如果麦当劳将新店建在郊区，可以预见由于受到12%回报率的吸引，汉堡王将会在市中心开设新店。这将会把麦当劳的回报率降至仅2%。但是如果麦当劳选址于市中心，可以确信麦当劳根本不会进入该市场。这是因为如果汉堡王也选址于市中心只会获得 4%的回报，而选址于郊区则仅仅获得2%。麦当劳可以确信汉堡王将不会开设新店，而是选择将钱投向具有 10%回报率的其他项目。

我们可以利用名为决策树的图表对麦当劳面临的决策进行分析，如图所示。既然麦当劳是博弈中的先行者，第一个决策点代表了它选址于郊区或者市中心。无论麦当劳做出何种选择，接下来汉堡王决定是将新店建在郊区、市中心还是不开设新店，这体现在决策树的第二阶段。

我们可以采用逆向归纳法分析对麦当劳而言最好的做法。从决策树的最右侧开始，我们可以发现如果当麦当劳选址于郊区，汉堡王将会在市中心开设新店。但如果麦当劳抢先在市中心开店，汉堡王将选择不进入市场。决策树显示了麦当劳实际面临的回报率并非最初设想的那样，在选址于市中心的 15%和选址于郊区的 20%两者之间选择，而是在选址于市中心的 15%和选址于郊区的 2%之间进行选择。尽管对于麦当劳而言，没有竞争者时选址于市中心并非最好的决策，但这样做能够阻止竞争者进入市场，因此这是最好的策略决策。

序贯博弈中的先发优势

---First-mover advantage in sequential games

在市场进入博弈中，先行者麦当劳最终获得15%的回报率，然而后发者汉堡王却不得不投资于别的项目获得10%的回报率。如果汉堡王率先进入城镇，它就可以将自己置于麦当劳的境地，在市中心建新店并且将麦当劳排除在市场之外。在这一博弈中，无论谁率先进入城镇都将获得较高的回报，后进入的公司只能获得较低的回报。这类博弈中存在先发优势（first-mover advantage），即率先行动的参与者相比跟随者能得到更高的收益。

在只进行一个回合的序贯博弈中，先发优势十分重要。设想一个公司与工会就工资进行讨价还价博弈。实际上，两方的讨价还价是如何将创造的剩余在公司和劳动工资两者之间进行分割(记住在这一情形下，剩余是指人们从交易中获得的好处)。如果这是只有一个回合的序贯博弈并且公司先采取行动，它可以提出只支付剩余的1%，工会将面临的选择是：可以接受公司的提议，或者通过罢工拒绝提议，这将让公司和工会两者获得的剩余均为零。既然 1%总比什么都没有好，工会只好接受这一吝啬的提议。下面的这个决策树展现了这一过程。

然而，如果工会能够率先选择，它将得到剩余的 99%。可以设想公司宁愿付出高额工资，也不愿意工人罢工，一分钱也赚不到。经济学家将这一特殊情形称为最后通牒博弈。一个参与者做出提议，另一个参与者只能简单地选择是接受还是放弃。正如我们在下一部分中将看到的那样，如果另一个参与者具备还价的能力，也就是将一个回合的博弈变为多个回合的博弈，情况将会发生戏剧性的改变。

重复序贯博弈

---Repeated sequential games

我们已经看到重复序贯博弈能够让合作得以维持，从而改变诸如囚徒困境等同时博弈的性质。重复博弈也会减少先发优势，从而改变序贯博弈的结果。

进行讨价还价的能力让讨价还价从一个由先发优势主导一切的博弈转变为一个耐心成为制胜策略的博弈。为什么呢？在几乎所有的情形中，既定数额的一笔钱处于未来时的价值不如这笔钱处于当下时的价值大。讨价还价需要时间，在参与者达成一致之前，伴随着每一回合讨价还价的过程，他们所分配的价值都在不断减少。在公司与工会之间的工资谈判中，我们可以想象这种减少源于谈判期间错失的生产价值。在这情形下，越有耐心的参与者，即相比于当前的金钱，更看重金钱未来的价值的人，更具有优势。能够拒绝妥协时间越长的参与者具有越强的讨价还价的能力，因此可以获得更好的收益。

实际生活中大部分工资谈判不会耗时多年(尽管有些会这样)。如果每个参与者知道对方的耐心有多大，那么两方不必进行多回博弈。相反，公司可以简单地按照已经完成所有回合博弈时，最终将会发生的结果进行提议。此时，剩余的分割将与每个参与者的耐心成比例。

序贯博弈中的承诺

---Commitment in sequential games

回顾前面的内容，在类似囚徒困境的同时博弈中，做出可信的承诺能够改变收益并且影响其他参与者的策略。我们将会看到在序贯博弈中也存在同样的情况。思考一个来自军事策略的例子，一位将军利用承诺策略，看似矛盾地限定自己地选择，实则提高了胜利的机会。

    在 16 世纪早期，西班牙征服者荷南.科尔特斯到达了墨西哥海岸，想要宣称这片土地隶属于强大的阿兹特克帝国。下图表明这一博弈的决策树。两方都可以选择前进战斗或者撤退保命，并且阿兹特克人可以先行选择---决定如何应对荷南的入侵。如果阿兹特克人撤退，他们确信荷南将会继续前进并且占领他们的土地。如果阿兹特克人奋起反抗，那么荷南将面临两个选择：撤退得以活命，或者继续前进并殊死奋战。
    无论荷南宣称自己的士兵如何勇敢忠诚，阿兹特克人都会预期，如果西班牙士兵面临的是一场殊死搏斗，他们将宁愿安全地撤离到船上。因此。阿兹特克人会决定奋起反抗。如果博弈地双方都理性行事，结果将是荷南选择撤离。
    预感到阿兹特克人的计谋之后，荷南采取了一个极端的举动：他烧掉了自己的战船，切断了胆小士兵撤退的后路。图 9-10 表明了这一大胆的举动如何改变了决策树。在新的情形之下，阿兹特克人知道如果他们反抗，荷南除了殊死奋战之外别无他选。因此，阿兹特克人决定相比于冒死抗争，他们更愿意撤退偷生。
通过减少选择做出承诺，荷南强势地改变了对手的策略，这一承诺带来了荷南原本无法获益的收益。

总结

这一章介绍了策略博弈的基本概念。许多现实生活中的情形只要是策略博弈，都可以利用相关的规则、策略和潜在的收益进行分析。

博弈论能够解释看似并不明显的结果背后的逻辑。比如有些时候，同时博弈中的两个参与者可能选择让他们情况更恶化的行动。当博弈并非同时而是依次进行时，先行者的选择能够完全主导整个博弈的结果。然而，在重复博弈中，先行者的优势会被削弱。如果参与者能够相互交流并且就某一策略达成一致，相比于单独行动往往能够带来一个更好的结果。如果一方参与者为了获得优势而选择背叛，那么此类协议将会瓦解。

逆向归纳法是一个十分有用的分析工具，它能够让你分解自己的决策，同时预测你的决策将如何影响他人的决策，以及如何影响博弈的最终结果。

当我们试图解决现实中的社会、个人或者商业问题，采用这些策略思维往往很有帮助。依此行事能够帮助你在既定的规则和限制下，看清应该如何 "参与" 博弈。这也能帮助你弄明白如何改变规则和限制，尽可能地获得更好地结果。

本章中的多数分析都是一方参与者基于对方将会做什么的猜测，而采取相应的行动。在下一章中，我们将会发现要得知对方打算如何行事并不容易，这种信息的缺失将会导致实际经济结果。

1、解释为什么囚徒困境中非合作是占优策略

在囚徒困境中，两个参与者会发现虽然合作能够让他们共同获益，但却难以实现。每个参与者都可以选择合作或不合作。相比于不合作每个人都更愿意合作，但是不论对方选择什么策略，对自己而言，不合作的收益更高，因此不合作是占优策略。在这一博弈中，追求一己私利会让所有人遭殃。参与者通过承诺策略，即同意如果背叛就甘愿受罚，他们有时可以实现互惠均衡。

2、解释为什么重复博弈能够强化合作？

在重复博弈中，参与者可以在下一回合中就对方在本次回合中就对方在本次回合的背叛行为进行惩罚。由此，参与者有时可以达到一次性博弈中无法实现的互惠均衡。重复博弈中的常见策略是一报还一报，即参与者会采用与对手前一回合相同的行动。任何一人采用一报还一报策略的人都具有强烈的合作动机，这是因为背叛将会让他在未来每一回合的博弈均衡中得到更少的收益。

3、解释如何利用逆向归纳法进行决策

逆向归纳法是反向分析问题的过程，即从最后的决策开始，然后是倒数第二个决策，以此类推，最终确定最优策略。在最终结果各不相同的多个选择中进行决策时，可以采用逆向归纳法作为解决问题的工具。具体而言，在一开始时就确定了你要努力实现的目标，然后决定为了实现这一目标你必须要采取的步骤。

4、定义先发优势并在实践中加以识别

在具有先发优势的博弈中，最先行动的参与者相比于跟随者能够得到更高的收益。先发优势的极端例子是一个单回合的讨价还价博弈，率先进行提议的参与者能够得到几乎全部的好处。多回合讨价还价中的议价能力削弱了先发优势。

5、解释为什么重复博弈中有耐心的参与者具有更强的议价能力

议价能力将讨价还价博弈从一个具有先发优势占据全部好处的博弈变为一个耐心博弈。因为讨价还价需要时间，在参与者达成一致之前，随着每一回合讨价还价的进行，他们所分割的收益在不断贬值。因此，越有耐心的参与者(也就是相比于当前，更看重未来金钱的人)更具有优势。最后剩余的分配会与每个参与者的耐心成比例。

6、解释为什么承诺策略能够让参与者通过限定自己的选择达到目标

在序贯博弈中，限定自己的选择可以改变对手的行为。比如，采取切断自己后路的承诺策略，可以将不可信的威胁变为可置信的威胁，从而改变对手的选择以及最终收益。

批判性思考

1、两个邻居共用一个池塘来钓鱼，他们在池塘里养殖了鲢鱼。为了保证鲢鱼能够通过繁殖自我补充，他们对每个人都够钓鱼的数量达成一致。如果其中一人稍增加一点自己所钓鲢鱼的数量，鲢鱼仍然能够自我补充。但如果两个人都增加钓鱼的数量，池塘中的鲢鱼将不可自我补充。两个人都希望自己违反协议增加钓鱼的数量，而对方能够遵守协议。