知乎日报

每日提供高质量新闻资讯

头图

如何理解多巴胺的具体作用?

rawpixel / CC0

赵思家,UCL神经科学本科、计算机硕士、博士

请先把知识点放在开头:

  • 多巴胺产于大脑里的基底核,然后沿着两个通路从基底核扩散到前额皮层纹状体去。
  • 沿着不同的通路,多巴胺在三个重要认知功能中起关键作用:运动控制、行为选择和强化学习。但这三个都服务于「奖励」这一主要功能。
  • 多巴胺的具体作用是奖励。
  • 「愉悦感」为奖励提供了一种定义,让奖励能够使人产生渴望进而采取行动。但奖励不等同于愉悦感,更不等同于快乐。虽然两者常常被混为一谈,但其实「渴望」和「喜欢」是两码事。毒品上瘾就是最好的例子,瘾君子对毒品渴望,但他们并不会喜欢毒品。而且随着吸食毒品的次数升高,它所带来的愉悦感会越来越少。
  • 再具体一点讲,多巴胺是奖励预测误差。多巴胺的多少不等于奖励的绝对值,而与奖励的意外性正相关。


对于估计打开这个问题的人,或多或少知道多巴胺和奖励(reward)有关,并不需要再强调「多巴胺不是快乐」是错误的。

那什么是奖励?感觉奖励就应该是快乐不是么?

奖励是一种事物的特性。这个特性有三个关键的组成部分:

  1. 愉悦感:奖励能够带来愉悦感
  2. 为得到满足而行动:奖励能够产生趋向性行为并带来满足感
  3. 学习:进而导致强化学习

后面两个特点特别好理解,但奖励的第一个特性容易被误解。说「多巴胺就是快乐的本质」的人,其实就是对奖励和愉悦感的关系产生了误解。

「愉悦感」为奖励提供了一种定义,让奖励能够使人产生渴望进而采取行动。但奖励不等同于愉悦感,更不等同于快乐。虽然两者常常被混为一谈,但其实「渴望」和「喜欢」是两码事。毒品上瘾就是最好的例子,瘾君子对毒品渴望,但他们并不会喜欢毒品。而且随着吸食毒品的次数升高,它所带来的愉悦感会越来越少。

多巴胺本身其实不直接产生主观的愉悦感。它可能参与了产生愉悦感的过程——比如说 2019 年 1 月西班牙巴塞罗那大学的科学家就发现[1]大脑中要是多巴胺水平低,听音乐时产生的愉悦感就会变低,这说明多巴胺对产生音乐相关的愉悦感是必不可少的——但这不是多巴胺的主要作用,愉悦感不是完全由多巴胺产生的。


说多巴胺是奖励,其实还是不准确的。

因为多巴胺不是奖励的绝对值,而是 奖励预测误差(reward prediction error)。

简单来讲,你第一次主动帮忙妈妈做了家务事,妈妈奖励你一颗巧克力。你本来没期待会收到巧克力的(即预测中会得到巧克力的可能性为 0),所以巧克力的出现是一个意外之喜(即预测误差)。当你收到巧克力那一刻,这奖励预测误差就会引起多巴胺短暂但强烈的释放。

有意思的是,等你学习到「做家务事」和「得到巧克力」两者的必然联系后,下次多巴胺释放的时间点,就会提前到「做家务事」的时刻。

这就是为什么多巴胺的奖励机制中,不能不提的就是「预测」这一环节。这是一个非常重要的发现,这才是真正地触碰到了「多巴胺究竟是什么」这个问题的答案。

这里多说几句,为什么之前讲的不算是触碰到了真正的答案呢?难道知道多巴胺和奖励有关不是一份答案吗?这倒不是这个意思。但只知道两者有关,并不足以让我们建出一个大脑来。当然,建出人造大脑并不是我们的最终目标,但如果我们能造,就说明我们已经完完全全搞明白大脑里发生了什么。

因为这一发现,2017 年,Wolfram Schultz、Peter Dayan 和 Ray Dolan 三人得到了 The Brain Prize(大脑科学奖)。剑桥大学的 Schultz 首先发现了多巴胺和预测之间的这一联系,按他原话说, 「这是一个让我们想要买一辆更大的车或一栋更大房屋,或是在工作中得到提拔的生物学过程。」 Peter Dayan 进一步推动了 Schultz 的工作,提出了上面说的「奖励预测误差」这一概念[2],并从数学上提供了模型,进一步解释了多巴胺是如何驱动我们并更新目标的。而 Ray Dolan 则又进一步研究了多巴胺是如何帮助我们学习,又是如何调控「期待」的。

我觉得这对咱们日常生活也很有启发性。

最近两年,我觉得越来越觉得没劲儿去驱动自己。做了很多努力,似乎也有些成果,但却感受不到成果带来的奖励。我向朋友吐露这一困扰时,都笑我,我拥有的,哪个不是高价值的奖励,还求什么?但其实我们忘了一个非常简单的事实,满足感并非来自于奖赏的绝对值,而在于奖励的意外感。

100 分(给你 1 个亿)不一定就比 1 分(给你 100 万)的事件更让你感到满足,因为如果你本来的奖励基线是 100 分(比如你做出了很多努力、很确认这事儿能带来 1 个亿收益),那实际收获为 100 分,你并不会感到意外,也不会有奖励感(不能说完全没有,但不强)。但如果你原本的基线是 0,即使收获 1 分,也是有实实在在的 1 分奖励的。当然,如果你本来期待 1 个亿越南盾(约等于 3 万多人民币),结果得了 100 百万人民币,肯定是个很强的奖励。

姑且可以把多巴胺想成奖励的意外性

100 分的奖励不一定就好于 1 分的奖励,因为如果你的期待是 100,最后得到的是 100,那真正能感受到的奖励为 0。

当然,这个道理谁都能明白。

但对于这个知识点,另一种理解是:那最好是不要努力,就不会有期待。让期待的奖励值恒定为零,那任何奖励都会带来愉悦感。

但如果这样认为,那就是对人的奖励系统没搞明白。奖励作用有一个必要条件,那就是 behavioural engagement (行为参与),用产品经理的话说,就是衡量网站用户的活跃度的分析指标——参与度。

原本为 0 的期待值,如果完全随机地等待天降奖励,奖励的不确定性会一定程度提高,这种不确定性会将基线提高,比如变成了 0.5。不仅如此,人会对小概率事件产生「它很常见」的错觉,这就更导致基线会不成比例地提高,比如变成 0.6。

这时,你的奖励基线从 0,变成了 0.6,但随机出现的 1 分奖励还是完全随机的,但你能得到的奖励预测误差会随着得到更多奖励而逐渐归零。类似于警报疲劳(alarm fatigue)—类似于「狼来了」的故事——我觉得可以把这种回归现象称为奖励疲劳(reward fatigue)。

也就是说,即使你是宇宙第一锦鲤女孩,也会慢慢感觉不到奖励。你可能令人羡慕,但自己有没有体验到满足感那是另一个问题了。

那如何能够确保一直有更多的奖励预测误差呢?很简单,只有做出努力去寻找奖励。让奖励从偶然事件变成必然事件。这就解释了为什么多巴胺和奖励之间的准确联系,更进一步解释了大脑是如何通过一个这么简单的化学物质驱动我们去达到各式各样的成就。


多巴胺对大脑至关重要,不恰当地过多会出现上瘾的现象,过少会出现帕金森。如果你想了解更多,推荐去看看我在电子书《大脑通讯员:认识你的神经递质》,里面专门捋了多巴胺、血清素、去甲肾上腺素和乙酰胆碱的作用。

多巴胺是奖励预测误差(reward prediction error),血清素则是惩罚预测误差(punishment prediction error);去甲肾上腺素是意料之外的不确定性(unexpected uncertainty,或说信息预测误差),而乙酰胆碱是意料之内的不确定性(expected uncertainty)。

我很喜欢研究它们,希望你看了之后也觉得有趣。

大脑通讯员:认识你的神经递质 - 知乎书店