立即下载 知乎日报 每日提供高质量新闻资讯

重复很多次之后,囚徒困境中的双方会选择合作吗?

图片:Yestone.com 版权图片库

有限次博弈是否存在合作?

陈茁,我是不是萌萌哒?

这个问题的题干是“有限次博弈是否存在合作”,按照我的理解这是对“无名氏定理”的一个延伸。无名氏定理宣称,囚徒困境博弈是存在解决方案的,这个解决方案是“重复博弈”。而这个解决方案的成立至少要求两个必要条件:1. 博弈必须是无限次,或者至少,博弈的参与人认为博弈是无限次的;2. 参与人要有足够的耐心,用指数贴现的跨期效用函数来说,就是贴现因子足够接近 1。那么,很多人自然就会有想法:当这两个假设不成立的时候,是否存在合作的可能性?因此,应该考虑的是“有限次囚徒困境博弈是否存在合作”。因为毕竟,有很多静态博弈当中就是存在合作现象的。

事实上,在过去的接近四十年的时间里,“囚徒困境中的合作”是行为经济学家率领一众社会学家、人类学家甚至是生物学家对传统经济学的一次大反扑。这次反扑来自于大约在 1982 年人们观察到了最后通牒博弈中的合作行为。最后通牒博弈并不是囚徒困境博弈,但是它们之间其实并不是全然没有联系,特别是这个问题而言。这类博弈实际上描绘了“有限轮讨价还价博弈”中的最后一轮,在这个博弈最原初的“故事”中,两个议价者都已经丧失了耐心,于是一个议价者提出了一个报价,并威胁对方:要么接受这个报价,要么谈判破裂。在双边垄断的背景下,如果谈判破裂双方都无利可图,所以预期到这一点的报价者应该会尽可能地压缩对方得到的交易剩余。但是这个“应该会”在实验室中没有被观察到,在这四十年中,不断有人质疑:

  • 是不是实验给的钱太少了所以被试们没有认真玩?
  • 是不是实验用的被试都是在校大学生所以并不习惯于现实中的经济互动?
  • 是不是实验做的次数太少了,等大家多玩几次就没有这个现象了?

这些质疑在这四十年中的大量(我不知道是不是有更夸张的词能够替换“大量”,我总觉得大量不足以描述这方面研究的数量之多)的实验室数据告诉我们:你们这些质疑并不能完全解释最后通牒博弈当中的合作行为。那么,只有一种可能了:人们在意公平,愿意为了公平牺牲物质利益。诺奖得主 Vernon Smith 从进化生物学的角度认为,这种仅见于高级灵长类动物的对公平的追求,才是人类能发展出市场经济这种合作模式的根本,也就是说,市场经济与公平之间的关系,非但不是对立的,反而是不能分割的。

我在这里之所以要跑题说最后通牒博弈,是因为我们在最后通牒博弈当中得出的结论,其实放到囚徒困境博弈当中看起来是可以无缝对接的:因为人们在意公平,所以宁可合作。当然,我觉得这没有问题,基于这个对个人偏好的限定,其实讨论“有限次”还是“无限次”都没有必要,单次囚徒困境博弈也是有合作解的。行为经济学家 Matthew Rabin 在他 1993 年的力作中,利用 1989 年 GPS 合写的“心理博弈理论”探究了当人们在意“别人怎么看自己”和“别人怎么看自己怎么看别人怎么看自己”等等高阶信念的时候博弈中的合作解有怎样的性质,我认为这是最正确的思路。千禧年之后,很多人的研究也在人的效用函数中加入了诸如身份、内疚等等社会心理因素,也能解释囚徒困境中的合作。在这些研究中,根本就没有“重复”什么事儿。这些都与现实中的观察一致,特别是实验经济学家对于公共物品供给的实验研究,这是实验经济学经久不衰的最火的主题,没有之一。

按理说,如果要解释现实,他们的答案都已经足够了,但是,这样的解释在某个层面上是有问题的,原因是实际上“囚徒困境博弈”的定义在这些解释中是非常模糊的。其实,存在两种层面的囚徒困境博弈:一是现实中的囚徒困境博弈,比如所谓的“公地的悲剧”,二是理论上的囚徒困境博弈,它是由教科书上常见的 2×2 收益矩阵定义的。这里提醒各位注意:我们之所以认为第一个层面的囚徒困境博弈是一个囚徒困境博弈,是因为我们已经隐含地假设了“收益全部是物质的”,而当你从中发现收益不只是物质的这一点,你只能说明这不是一个囚徒困境博弈而已,而不能说明囚徒困境博弈存在合作解。这也是我不同意这些答案的原因:修改过效用函数的所谓囚徒困境博弈,根本就不是囚徒困境博弈。所以,这些答案的本质是答非所问的,就相当于我问你“囚徒困境博弈是不是存在合作”,你找了另外一个博弈告诉我存在合作,这是错的。

同样的道理,增加诸如报复、冷战这样的策略也不是囚徒困境博弈,同样答非所问。

我的这个观点也被宾默尔提出过。宾默尔在他 1994 年的《博弈论与社会契约》中提到:

数学定理一定都是同义反复。数学定理是不可能错的,因为它们并没有说出任何实质内容,它们只是说出了事物是怎么定义的而已。博弈论中的基本命题也有相同的特征。(pp. 96)

因此,囚徒困境博弈存在合作解的唯一可能不是效用函数的设定有问题,而是纳什均衡这个概念有问题。囚徒困境博弈的唯一的纳什均衡就是互相背叛,这一点就像宾默尔说的那样,是我们对收益矩阵的定义所决定的,是一种同义反复,所以也就是不可能错的。

如果我们在实验室中能够构建出真的囚徒困境博弈,也就是说,排除了任何个人偏好的干扰,那么出现合作的唯一可能是大家不按照纳什均衡所建议的那样行动。所以,我们就必须要看纳什均衡这个概念本身有什么问题,当然,这个问题非常明显,纳什均衡要求理性的共同知识。这里就涉及到 epistemological game theory 的内容了:简单说,纳什均衡出现要求博弈中的参与人互相相信对方也按照纳什均衡指定的策略出招,即所有人都相信对方按照纳什均衡的指示行动时,自己按照纳什均衡的指示行动是最优的。但是这个信念并不是不言自明的,虽然从每种角度来看这个信念都是正确的,但正确的事情不发生有什么稀奇呢?引汪丁丁教授在《交易费用与博弈均衡》中的一段话(刚翻译完斯蒂格利茨的 Live,实在不想翻译外文文献了……):

为了明确,我把甲的推理过程逐步列出:(1)甲选择“不合作”的理由是什么呢?如果他认为乙将会合作,他必定不会选择“不合作”的策略,所以他必将认为乙将不合作。(2)为什么甲认定乙将不合作呢?甲必定是已经设身处地在乙的位置上认定了甲将选择“不合作”策略;因为否则乙必定会选择“合作”,而不是不合作。(3)为什么乙认定甲将不合作呢?在甲的推理中乙必定是已经设身处地在甲的位置上认定了甲认为乙将选择“不合作”,所以甲将选择“不合作”,所以乙才选择“不合作”。(4)归纳原理可以推出,甲选择不合作的理由是,甲认为:“乙认为:‘甲认为’”……这是一个无限回归推理过程。在这个推理链条中任何一个环节都需要假设以前所有环节所需要的假设。

所以,也难怪米罗斯基觉得纳什均衡这种东西若不是纳什这样精神有问题的人是不可能想得出来的。

那么下面,我们要问的问题就是,人们是不是会按照纳什均衡给出的建议来行动。

关于这一点,最经典的证据莫过于脱胎于凯恩斯《通论》中“长期预期状态”一章提到的“选美比赛博弈”。这个博弈的一个简化版本是这样的,所有人从 1 到 100 中猜一个数,谁的猜测最接近所有人平均数的 1/2,谁就得到奖励。如果人们真的像纳什均衡所预测的那样有理性的共同知识,你的逻辑应该是这样的:如果按照古典概型猜,平均数应当是 50,那我就猜 25,可是所有人都是这么想的,所以我应该猜 12.5 才对……周而复始,博弈的唯一纳什均衡是所有人都猜 1。可现实呢?我就不在这里罗列实验结果了,只能说我们当时玩的时候平均数是 14,因为我事先知道了这个游戏的目的,我猜了 16,大差不差。提醒大家注意:当时的我绝对没有任何“不理性”,仅仅是我预测到了很多人是不理性的而已。

另外一个很好的例子是剪刀石头布博弈。当年这方面的研究发表出来的时候,很多人不理解做科研的人们都在干嘛。根据经典博弈论的预测,剪刀石头布博弈的唯一纳什均衡是“完全随机出招”,即决策者为三个招数赋予相同的概率:1/3。但是在重复博弈中我们发现,人们并没有充分地随机化自己的策略,而是遵循了“胜者不变”的策略。但是你要知道,这个策略肯定不是一个均衡,因为发现了这个规律的对手可以利用这个规律。

有这两个例子,我们知道,纳什均衡本身就不是一个对我们行为的好的预测,而是一个需要较高门槛的东西。

在重复博弈中,除了要求纳什均衡,还要求“逆向归纳”。支撑“有限次博弈不能产生合作行为”这一命题的推理是这样的:首先给定纳什均衡,双方在最后一轮一定会相互背叛,那么,在倒数第二轮双方就没有通过合作来建立声誉的必要性了。那么,再给定双方在倒数第二轮一定会相互背叛,那么,在倒数第三轮就没有通过合作来建立声誉的必要性了。以此类推,双方一定在第一轮就相互背叛。这段推理的本质就是逆向归纳,从控制论的角度,这是一个封闭的问题,因此是“可解的”,于是从最后一轮逆推到第一轮,得出了轮轮背叛的结果。当然,传统的博弈理论对逆向归纳和它的孪生姐妹“子博弈完美”(如果没有纳什均衡则两者并不等价)的批评主要在于:1. 它们不能保证“颤抖手完美”,2. 它们不能解释“意外考试悖论”。但在我看来,逆向归纳这种推理过程本身,与纳什均衡类似,也有对博弈参与人智能性的较高要求。

我们之所以愿意相信纳什均衡和逆向归纳的正确,是因为它是所谓“重复剔除劣策略”的结果,隐含地保证了参与人的“理性”。但是,是不是按照纳什均衡的建议行动就是最好的呢?问这个问题的原因是,我们不妨猜测:如果纳什均衡是最好的,那么进化的压力就应该保证人们不断接近使用这个概念的完美智能,但如果不是,那就没什么好说了。

其实,很多人应该听说过,上世纪七十年代就举办过一个“重复囚徒困境大赛”。举办者罗伯特·阿克塞尔罗德还专门为此写过一本书,叫做《合作的进化》,上海世纪出版集团引进了这本书,有兴趣的朋友可以找来看看。以下是关于比赛规则的书摘:

为了看看到底会发生什么,我邀请了博弈论专家提送程序参加上述的计算机竞赛。竞赛是循环进行的,即每一个参赛程序都与其他程序相遇。按照事先宣布的竞赛规则,每一个参赛程序还要与它自己以及一个“随机”程序相遇。这个随机程序,以相等的概率随机地选择合作或背叛。每轮游戏有 200 次对局。(pp. 21)

可以看到,这是一个典型的有限次囚徒困境博弈。而在这场足以彪炳史册的比赛中,赢得冠军的反而是最简单的“一报还一报”策略,这个策略是这样的:首先选择合作,如果对方在第 T 轮合作,那么我就在第 T+1 轮背叛,也就是说,从第二轮开始,这个策略会复制之前的策略。之所以这个策略获得了成功,是因为:

“一报还一报”的稳定成功的原因是它综合了善良性、报复性、宽容性和清晰性。它的善良防止它陷入不必要的麻烦,它的报复性使对方试着背叛一次后就不敢再背叛,它的宽容性有助于重新恢复合作,它的清晰性使它很容易被对方理解,从而引出长期合作。(pp. 36)

怎么解释?

  1. 善良性是指不首先背叛。在参赛的 14 个程序中,是否善良是决定程序表现的决定性因素,所有会首先背叛的程序表现都低于不首先背叛的程序。作者说:“善良的规则在竞赛中之所以表现好在很大程度上是由于它们相互之间相处得很好,而且对于具有一定的数量使得它们能够大幅度互相提高它们的平均得分。只要对方不背叛,每个善良的规则一定是持续合作直到最后一步。”(pp. 24)而双方从第一步开始合作将保证每一步都得到帕累托最优的结果,而不是纳什均衡。
  2. 报复性这个容易理解。值得一提的是,作者指出,“两报还一报”,即连续两次背叛才惩罚一次其实表现比一报还一报更好,只是这个程序没有参赛而已。作者说:“为了向可能的参赛者说明如何提交程序,一个示范程序被提供给了大家,事实上,如果有人简单地把它剪下后寄回来,它将赢得这次竞赛,可惜没有人做。”也就是说,报复性并不是越强越好。
  3. 宽容性必须重点说,是指对方背叛之后重建合作的倾向。而在所有善良的程序中,宽容性最低的毫无疑问就是“一旦对方背叛一次则永不合作”。这个策略在比赛中叫“弗里德曼”,当然学过博弈论的朋友都知道,无名氏定理也叫做“弗里德曼定理”。在证明无限次重复囚徒困境博弈存在合作解时,我们也是证明了博弈双方都采取“弗里德曼”时报酬是最高的,但仅在这次比赛中,弗里德曼的表现仅仅排在第七位。这是因为,很多程序会在一定条件下试探性地背叛一下,但弗里德曼太不宽容了,以致于所有试探性的背叛最终的结果都是永不合作。而一报还一报给了对手道歉的可能性,试探性地背叛遭到了报复后其他程序还是能与一报还一报快速重建合作关系。
  4. 清晰性是指,对方从你的行为中观察、总结出你的行为模式的难易程度。可以发现,“一报还一报”和弗里德曼都是非常容易被发现模式的,而其他一些试图在“一报还一报”策略上增加复杂性的程序表现其实没有本体那么好。

提醒大家注意:所有的程序都没有假设逆向归纳,因为逆向归纳的成立在于所有人都具有关于逆向归纳的共同知识,所以也就没有纳什均衡的合法性。如果我清楚我在与一报还一报对局,那么我依据逆向归纳求解出的最优反应是存在的(具体的最优反应依赖于我的时间偏好),而给定这个最优反应,一报还一报未必就是最优的。出现这个大规模合作的结果,是因为参与各方都没有按照逆向归纳去求解纳什均衡的能力。当参与双方都不按照纳什均衡给出的方案行事,合作出现了,而且情况比按照纳什均衡行事更好。再所以,那种保证纳什均衡的智力可能就不是进化压力下的必然,这可能也就是老祖宗们说“难得糊涂”的含义。但是需要指出:这要求不止你糊涂,跟你对局的人也不能太精明……

博弈论真正有趣的地方在于推理,而这个风气被行为经济学带歪了,弄得好像什么现象改一改效用函数就能解决了。然而事实上,很多东西是能够在不修改效用函数的情况下得以解决的,虽然我并不认为修改效用函数这种研究方案是没有意义的。

我,也是这项工作其中的一员。

以上。

扫描二维码下载知乎日报

支持 iOS 和 Android
二维码下载知乎日报
阅读更多 全国大约有多少只鸡? 下载 「知乎日报」 客户端查看更多