人为什么喜欢玩游戏?怎么让游戏更长线?——最佳刺激模型告诉你

本文主要内容如下:

一、驾驭房间里的大象:让最佳刺激模型再次伟大

人类如何探索并理解这个世界?

为什么一些人对3a大作不适应,而一些人会对3a大作电子羊尾?

二、喜欢=熟悉+意外? 到底什么是无聊、什么是有趣?

如何用最佳刺激模型理解上瘾/稀缺性循环?

为什么成年人打游戏越来越少了?

孩子为什么总是对玩具喜新厌旧?

三、如何在人生和游戏中应用最佳刺激模型

roguelike游戏怎么不断的让人再来一局?

人类的多巴胺=ai的强化学习?好奇心竟是人类在演化过程中脱颖而出的关键?

人类为什么会感觉无聊?为什么会主动去追求刺激?

怎么让孩子爱上看书学习?怎么让新玩家快速上手并玩进去?怎么让游戏更长线?

零、前文回顾

“人的意识是是一个对世界互动进行预测及反馈的系统,意识是对真实世界的简化,经常会出现偏差”——写了一年的体验设计完结篇:游戏故事设计

“让玩家保持一种“失神的专注状态,保持这种状态就能给人以莫大的满足”——抽卡体验设计:关于盲盒、抽卡、开箱的一切

“不要躲在笼子里,更不要把别人关在笼子里”——人生和游戏设计的稀缺性循环

以上是我最近一年多不断思考、整理的过程:

  • 游戏体验的思考,直觉、惊喜、故事设计,预测处理系统是基础
  • 在回顾抽卡设计的时候,提到了“失神的专注状态”
  • 在稀缺性循环里结合游戏进行了思考,并对斯金纳箱的新研究进行了更新,并发现并学习了“最佳刺激模型”

一、驾驭房间里的大象:让最佳刺激模型再次伟大

image

最佳刺激水平模型(Optimal Level of Stimulation, OLSO,以下简称最佳刺激模型)认为个体倾向于寻求并偏好一个适中水平的刺激,由Daniel Berlyne在20世纪60年代提出。

房间里的大象(An elephant in the room)指“大象明明就在房间里,人们却视而不见”,形容明显的问题或者难题被人们忽略或避而不谈。

在认知心理学领域中也存在这样的大象——最佳刺激模型有一些存在很久的问题:比如对于矛盾的习惯化和曝光效应怎么解释,复杂情境的刺激及个人差异因素在模型中的影响理解不足等问题。

而2022年发表在Developmental Review的论文《驾驭房间里的大象:走向最佳刺激水平模型的复兴》(Riding the elephant in the room: Towards a revival of the optimal level of stimulation model)[1] 整合了近些年新的研究,提供了一个更全面、一致的框架用于解释人类的探索和认知行为。

我会在下文首先介绍这个新的最佳刺激模型,并提供该理论在游戏和生活中如何应用的一些想法。

1.1 人类如何探索和理解这个世界

人从出身之日起便对这个世界充满了好奇,会主动对周围环境进行探索,根据收获的外界反馈而产生条件反应、养成习惯,构建出自我的认知。

但是什么决定了人类的探索行为和一些关键因素,比如熟悉性、新颖性,各种研究一直没有彻底搞明白。

先看看两个在产品/游戏设计中经常会用到的著名模型:

曝光效应:(the exposure effect or the mere exposure effect),又谓多看效应、纯粹曝光效应,指的是我们会偏好自己熟悉的事物。俗话说就是看多了就顺眼了,日久生情就可以用这个理论解释

习惯化(Habituation):由于刺激重复发生而无任何有意思的结果致使个体对这种刺激(例如警报、防御、攻击)的自发反应减弱或消失的现象。

这两者之间存在着明显的矛盾,而最佳刺激模型可以较好的解释——个体实际上寻求并偏好一个最佳(通常是中等)的刺激水平。

由此对习惯化模型进行一点拓展[2] :

  • 再好的东西,你也会因为习惯而厌烦
  • 快乐源于欲望的不完全和间歇性满足
  • 不快乐的事最好集中起来一次性做完

简单总结就是“快乐要间隔,痛苦要集中”

image

从这个角度理解魂like:

集中的受苦导致了痛苦的习惯化,间隔攻克boss的成就感带来的快乐则是“欲望的不完全和间歇性满足”

1.2 最佳刺激和探索行为

image

童话《金发女孩和三只熊》衍生出了一个“金发女孩效应”(Goldlocks phenomenon):

金发姑娘在熊房子里尝了三碗粥,试了三把椅子,躺了三张床,最后选择了自己最合适的一碗粥、一把小椅子和一张床。因为这些东西是最适合她的,不冷不热,不硬不软,不大不小,这种选择事物的原则就叫做“金发女孩效应”。

凡事都应有度,量力而行,不超越极限

金发女孩效应可以简单归纳为“适度原则”:合适的才是最好的。这也算是童话版的最佳刺激模型。

研究表明:与非常熟悉或非常新奇的刺激相比,人类对适度(最佳)的新奇刺激表现出更正面的评价。

这种对半新颖性[semi-novelty ] (或半熟悉性[ semi-familiarity] )的吸引主要通过“差异假设”(discrepancy hypothesis)来解释。当熟悉刺激的编码完成时,即当刺激输入与内部表征之间没有差异时,从熟悉到新奇刺激的注意力转移被认为会发生。对处理半新颖性的偏好可能是由记忆残留活动引起的,它充当“原型图示”(proto-schema ) 直到刺激存储在长期记忆中。

另一种表述就是人接受外界刺激时,会根据自我的认知框架(长期记忆*大脑神经元连接)对刺激进行框架识别,注意力先从熟悉的部分开始再到新颖的部分。

image

一个例子就是上图的鸭兔错觉,这张图是我们既熟悉又陌生的。基于我们的过往认知框架,我们会将其识别为兔或鸭,而在我们得知这个照片是鸭兔错觉后我们便能够调整自己的认知框架,识别其为鸭或兔了。

image

图1. 最佳刺激水平模型

上图是对最佳刺激模型的简要展示,人们的注意力转移和由此产生的探索行为会维持最佳刺激水平,并以此获得最佳的信息吸收率。

个体实际刺激水平与其最佳水平之间的偏差越大,参与探索行为(无论熟悉性还是新颖性)的程度就越大。例如厌倦可以促进心神不宁和创造力,这算是应对环境只提供很少有效刺激时的一种策略。

但环境过度刺激反而会将我们的注意力引向更熟悉的刺激。像婴儿就会偏好熟悉的环境和事物,比如家里的环境、地毯、物件摆设等。这样能避免过度刺激的同时,进行更好的探索。

对最佳刺激水平的需求被描述为一种基本的心理需求[3] 。针对婴儿的一些研究表明了这种机制从出生起就已经生效,决定了个体的探索和学习动机。另外,个体间在给定的相同环境中对于刺激的倾向可能存在巨大的差异。

image

看到这里,可以稍微聊一下“为什么很多人对3a大作不适应,而一些人会电子羊尾?”了:

对于体验3a游戏较少的玩家而言,除去晕3d因素,之所以对3a大作不适应是因为对于这些游戏的操作机制、游戏玩法不熟悉,而3a游戏都非常写实导致环境中信息量过大,玩家无法和自己的认知模型对上。也就是上述的环境过度刺激。


对于游戏经历丰富的玩家来说,3a游戏复杂的机制、写实的画面已经习惯化了,相似的游戏框架、无感的真实画面已经非常熟悉。这时候如果没法提供一些新的战斗体验、新鲜的故事要素,那么反而就会远低于最佳刺激水平而感到无聊,也就电子羊尾了。

二、喜欢=熟悉+意外? 到底什么是无聊、什么是有趣?

从上面我们可以看出,个体(年龄、情绪、唤醒等因素)及情境的差异都可能影响个人最佳刺激水平,接下来就对这些关键因素进行展开。

2.1 情境刺激

心理学研究中经常会忽视刺激总是伴随着某种情境。如果处理刺激需要花费一定成本,那么包含刺激情景(比如新颖性novelty、复杂性complexity、强度intensity或惊喜特征surprise features)的刺激影响也可能在探索行为中发挥作用。

如下图所示,根据最佳刺激模型可以假设:熟悉的情境可能会降低整体刺激,它们将有利于新颖性的探索。而新奇的情境可能会增加整体刺激,它们将有利于熟悉性的探索。

image

图2:包含情境刺激的更新版最佳刺激水平模型

这可以很好的解释为什么实验条件下,对熟悉性的强烈明显“偏好”很容易发生:由于实验情境对参与者来说是非常刺激的,不太刺激的熟悉刺激可以提供保持最佳刺激水平的机会。

而新生儿对熟悉性的显著倾向可以通过他们刚出生时所处的极其新奇和过度刺激的环境来解释。专注于熟悉的刺激(例如,母亲的面孔、气味或声音)可以让他们更接近最佳刺激水平。

还有一个另外的研究表明,婴儿通常偏好中等强度的光线(符合最佳刺激水平),但但在被噪音刺激后,婴儿倾向于偏好最低强度的光线。这表明婴儿可以根据情境刺激水平调节他们的信息摄入量,以更接近最佳状态。

从上面可以看出,如果探索行为是由个体对刺激的独特需求与他的环境(刺激和情境)的刺激潜力之间的交互作用调节的,那么考虑个体特征就显得非常必要。

2.2 个人特征

2.2.1年龄

image

图3 包含情境刺激、年龄的更新版最佳刺激水平模型

如上图所示,随着一个人年龄的增长,会有越来越多的可用认知资源,可以据此推断个人的最佳刺激水平应该会趋于更加复杂。

但很多研究尝试测量客观复杂性和主观复杂性,并与审美欣赏相关联。大部分参与者随着复杂性增加,对刺激的喜欢程度上升。但有一部分人随着复杂性增加却喜欢程度下降,这很矛盾。

审美欣赏的乐趣-兴趣模型(Pleasure-Interest Model,PIA)可以解释这种矛盾,它假设审美经过了两个阶段的处理:

首先发生自动处理,然后如果观察者有足够的动机进一步处理刺激,会进行控制处理。与最佳刺激水平模型类似,PIA模型预测随着刺激复杂性的增加,仅自动处理刺激会导致喜欢程度增加,但如果复杂性水平太高则容易导致困惑并降低喜欢程度。

该模型强调除了参与者的过往经验外(年龄带来的认知资源),感知复杂性也可能取决于参与者的动机、能力和机会,以超越自动处理进入控制处理阶段,有意识地处理刺激并提取它可能包含的所有信息。

image

上面的自动处理、控制处理可以借用《思考快与慢》[4] 中的系统1(快思考)和系统2(慢思考)帮助理解。

image

其实上面的描述很容易联想到福格行为模型(行为=动机*能力*提示),以及之前聊过的稀缺性循环(机会 → 不可预测的奖励 → 快速重复性)。

回到正文,还有一个非常反直觉的现象:相比幼儿,更大的孩子和成人探索行为更少。上面提到随着一个人年龄的增长会有越来越多的可用认知资源,因此会有更高的最佳刺激水平,自然需要更多对未知的探索来满足。

但实际上虽然有更多的认知资源,但这些资源不一定都用在探索上。大多数人认为儿童更多的探索是因为日常生活的成本由照顾者承担,而成人除了好奇心的驱动动机外,还有赚钱成家、养育子女、赡养父母等一系列动机。成年人需要权衡!

为什么成年人打游戏越来越少了?我不是闲人 我需要工作 妹妹

一个人刚毕业时,还能无忧无虑的玩游戏,每天下班的期望就是打游戏。但随着毕业时间的增加,自己在乎的事情越来越多了,特别的一点是:


进社会是一个重要的里程碑,意味着一个人真的需要完全独立了。


于是,随着毕业后看到身边人的变化、看到同事为了家庭的各种努力与付出,你也会不自觉的思考是否还能像往前那样只考虑游戏,是否还要考虑生活?


比如你要考虑自己的职场进阶、怎么升职加薪;虽然才20来岁,总会觉得30+就会被社会淘汰,于是焦虑自己的竞争力,想要不断成长,是不是搞一点副业;是否要考虑家庭,找另一半,考虑买车买房;父母年龄也大了,怎么让父母放心、让父母开心,怎么多陪陪家人。

成年人游戏玩的少了是因为:上述认知资源会用在更多其他生存和发展动机上,所以给到游戏的认知资源就少了。

2.2.2 情绪变化潜力(Mood changing potential)

情绪对探索也有影响:舒适的社会环境或快乐的情绪会减少熟悉性的吸引,并有利于在人类和非人类动物中对新颖性的接近。相反,一些关于动物、人类的研究也广泛记录了生理压力因素导致对新颖性的撤离和对熟悉性的接近。

image

为了帮助理解,引入“调节焦点理论”(Regulatory Focus Theory),在探索我们的环境时,可以区分两种独立的动机:

促进焦点(Promotion focus)——成长需求,我的行为会带来什么好结果?

预防焦点(Prevention focus)——安全需求,我的行为会不会导致坏结果?

简单来说,预防焦点就是“不做错误的事”,而促进焦点则是“做正确的事”。

促进状态被认为通过采取更全局的处理方式,扩大了心理范畴(mental categories) ,新颖性在促进状态下也更有吸引力。扩大的心理范畴增加了新信息被流畅处理、整合、熟悉化的可能性。

而预防状态下熟悉性会显得更吸引人,经常表现出过度活跃的预防焦点的焦虑或抑郁个体,通常会减少对新颖性的探索。

image

图4 包含情境刺激潜力、年龄和情绪的更新版最佳刺激水平模型。

如上图,促进或预防焦点的动机可以通过刺激的情绪效价(emotional valence)或呈现情境的情绪效价来激活。

例如,周围环境的宜人气味和购物环境的愉悦度可以影响探索行为。

【效价(Valence),是指对一件事、一个对象或情境的主观内在评价是好(正值,积极的)还是不好(负值,消极的)的情绪质量】

积极的情境信息也可以通过改变人的心态来改变评价:

例如,在相关研究中,参与者比原作更喜欢人的原创艺术作品,更喜欢标记为画廊展览而不是计算机生成的图像,更喜欢标记为艺术而不是非艺术的图像,更喜欢品牌产品而不是非品牌产品,甚至更喜欢作为星星而不是豌豆呈现的点。

最后还有一个需要注意的要点:刺激及其情境的情绪效价与情绪和认知资源之间动态的相互作用:

  • 前面提到,通过间歇性的满足可以反习惯化
  • 如果刺激耗尽了认知资源(比如压力很大的情况),反而可以增加对另一个更熟悉刺激的偏好
  • 如果刺激物是奖励/激励,人们会自然的更偏好新颖的刺激
  • ……

比如,在熟悉的环境中突然看到恶心的东西会吸引我们的注意力(在上学路上看到一坨翔),但随后与之相关的负面情绪会大幅降低用于处理这个刺激的认知资源,这会推动我们探索行为偏向引发更少注意力的资源(翔旁边的草丛里盛开的鲜花),这个刺激会接近新的最佳刺激水平。

还有一个例子是享乐适应预防模型(Hedonic adaptation prevention model):

这个模型说的是生活变化引发的积极情绪会随着时间而消退。除非我们找到从这些变化中受益的替代方法,或者将注意力投入在这些变化上。

举个例子,新玩具的奖励效果会使孩子维持最佳刺激水平。随着时间流逝,刺激效果就会逐渐减少(少了同龄人的夸夸、已经完全了解玩具的功能、玩具失去了新的玩法……),更“雪上加霜”的是孩子对玩具会更加熟悉,这就是为什么孩子对玩具容易喜新厌旧的原因。

如何解决这个问题?

寻找替代用途,或有意识地增加对玩具的注意力,可以帮助维持最初引发的积极情绪。有意识的处理也可以帮助提取更多信息,增加刺激的主观复杂性。

2.2.3 唤醒性(Arousability)

image

图5 更新版最佳刺激水平模型,包括情境刺激潜力、可用的认知资源和唤醒性

唤醒理论提到网状激活系统上升分支在内向者身上比外向者允许更多的感觉刺激传递到大脑皮层(见图5)。

内向者更容易被唤醒,这解释了他们为什么倾向于限制刺激。相反,外向者通常会感到刺激不足,可能会寻求更多的刺激。相应的,外向性被发现与个性特质“感觉寻求”(sensation seeking)和“开放性”(openness)正相关。高感觉寻求者需要更多的刺激才能达到他们的最优水平,因此对新体验更加偏好。

image

从这个角度看,大五人格的五个维度是对于某些特征的人格维度描述:

  • 开放性(Openness to Experience)是对新颖性的偏好;
  • 尽责性(Conscientiousness)是对任务和目标的追求偏好;
  • 外倾性/外向性(Extraversion)是对社交相关新刺激的偏好
  • 宜人性(Agreeableness)是对于合作等良性关系刺激的偏好
  • 神经质/情绪稳定性(Neuroticism)是关于情绪刺激的偏好,及负面情绪的刺激唤醒程度…..

image

借由对大五人格的这个类比,对最终更新的最佳刺激模型进行一点总结:

  • 人之所以会感到无聊,是因为人会追求一个最佳(适度)刺激水平,而这个水平因人而异
  • 随着年龄的增加,可用认知资源的增加会造成不同的偏好
  • 情境的新颖性、复杂性、刺激强度、意外惊喜会对最佳刺激水平产生影响:熟悉的情境可能会降低整体刺激,它们将有利于新颖性的探索。而新奇的情境可能会增加整体刺激,它们将有利于熟悉性的探索。
  • 情绪的变化会导向不同的模式(促进/预防焦点,对应成长需求和安全需求),引起负面情绪的刺激物会被情绪压制而导向稍弱的正向刺激物,引发正面情绪的刺激物比如奖励/激励会让人偏向新颖的刺激
  • 唤醒性和人格相关,内向者更容易被唤醒因此偏向稍弱/熟悉的刺激,外向者需要更高的刺激水平,因此会寻求更多的风险和刺激。在大五人格这样的人格理论理,这体现为人格特质:比如外向性(Extraversion)开放性(Openness to Experience)
  • 而前面提到的感知复杂性也可能取决于参与者的动机、能力和机会。这其实可以类比大五人格里的尽责性(Conscientiousness=目标动机)、宜人性(Agreeableness=良性关系的偏好动机+共情能力)、情绪稳定性(Neuroticism,上述情绪对最佳水平的影响+负面情绪的唤醒)

到此,我发现最佳刺激模型就是对:喜欢=熟悉+意外的一种有用的理论解释。

三、如何在人生和游戏中应用最佳刺激模型

本文的内容其实就是个很多陌生刺激(不熟的专业概念,本人也对这些概念不怎么鼠)的情景,然后我有意的在前文里间歇的提供了一些正向的、熟悉的刺激,下面会结合其他理论和人生、游戏的案例,看看能否成为引发注意的好刺激。

3.1 学习进展假说/预测误差

学习进展假说(The Learning Progress hypothesis)中,大脑被视为一种预测机器,不断试图预测接下来会发生什么(预测处理理论),它内在的追求预测改进活动,即不确定性减少,有序性增多,这种行为其实就是学习。可以说大脑就是一台学习机器。

在不确定、或有明确目的/需求的情况下,我们可能会急切地寻找可理解的信息以达成目标——这种行为动机说明学习本身可能是有回报的。

但这一理论并没有解释为什么要改进预测,即为什么满足我们的期望是有内在奖励的。我们听了那么多年内在奖励、外在奖励,但为什么内在奖励能让我们感觉良好?

当前研究表明,当大脑以最佳刺激水平模型的刺激方式偏向神经活动模式时,就会发生期望或预测[5] 。这种有偏见的大脑活动可能会使新信息处理更加流畅,从而产生内在奖励。

最近的一个计算模型表明,基于前面的刺激更好地预测的刺激就越容易处理,因此流畅性就越大[6] 。该作者提议将流畅性理论重新表述为“与较低预测误差相关的感官体验更愉快”。

可能有人会疑惑:不是说极其熟悉会被视为无聊吗?那么可预测的刺激不也是熟悉的?事实上,在最佳刺激水平范围内的预测误差才会让人愉悦,太小的预测误差也会引起无聊(比如电视剧的剧情和自己的预测基本一致),而太大的预测误差反而会让人感到困惑(故事不按逻辑走的机械降神)

满足预期可以获得回报,而违背预期可能会导致过度刺激。也有另外的研究表明,违背预期可以增强并促进婴儿的信息寻求行为(information-seeking behaviours),而探索行为是通过过往经验进行发展的,所以可以通过适当的违背预期来有意识的控制刺激水平,从而加强主动的探索状态(exploratory states)。

我曾定义过好的rogue元素是什么:

  • 有意义的随机:随机的基础下提供有意义的选择和可预期性,同时有一定的惊喜感。
  • 体验方差大的build:构筑成长强随机区间大、流派效果丰富、有质变爽点“胡了”。

而上述内容可以帮我们更好的理解为什么这样的肉鸽元素会好:

  • 有意义的随机、可预期即是最佳刺激水平范围内的预测误差,而正向的刺激也就是所谓的惊喜感(前面也提到如果刺激物是奖励/激励,人们会自然的更偏好新颖的刺激)
  • 体验方差大的build其实就是不断增强的刺激物,随着对游戏环境的熟悉玩家会偏好更强的刺激,而爽点“胡了”其实就是前面提到的“欲望的不完全和间歇性满足”。
  • 于是,在build成型后爽了“一哆嗦”后,玩家又会预期下一次的“一哆嗦”

3.1.1好奇心简史

image

图源:专注的真相

“多巴胺”是“对惊喜的记忆”触发的、进而“对愉悦的期待”会产生一定的“冲动”(或者“欲望”)

基于上面对预测误差的分析,我们能更好的理解多巴胺的本质:

刺激多巴胺分泌的并不是可以预测到的快乐,而是由“预测误差”:人类大脑总是在预测下一步会发生什么,但能真正吸引我们注意力的并不是那些准确的预测,而是预测误差,也就是那些我们预料之外的奖励和真相。

而对于多巴胺本质的理解其实源于对ai的研究:

早在1950其实就有过一波ai热潮,有人设计神经网络用试错的方法学习走迷宫和下棋[7] :

你先随便试,具体怎么走我不管,反正赢了就给奖励输了就给惩罚,看看你能学会啥——这就是强化学习。

但科学家们很快就发现这种训练面对更复杂的任务就束手无策了,比如动辄几百上千步的下棋得终局才能知道胜负,中间的步骤怎么才能学习?

直到1984年理查德·萨顿(Richard S. Sutton)的出手:心理学出身的他灵机一动,他假设应该把中间每一步对结果的「预期」作为奖励,而不是最终结果。

image

萨顿把强化学习分解成两个独立的部分,各自训练:「行动者(actor)」和「批评者(critic)」。行动者每走一步,批评者都要预测这一步之后的全局取胜概率是多少。这强化的不是最终的胜负奖励,而是走完这一步后胜率的变化。比如赢棋的概率本来是51%,走了下一步后批评者判定概率变为了61%,则说明这一步是应该强化的好棋。

这样改进后,学习参考的就不是最终的输赢,而是每一步的好坏,这就意味着每一步都是学习,哪怕最终输了也能学到很多。这就是时序差分学习(temporal difference learning)。

这也是当前强化学习的基本原理,AlphaGo也是这么做的,而dota2的“大老师”实时预测团队获胜概率可能也是基于此。

最终,这个研究启发了脑科学:动物的试错学习也是时序差分学习,有了ai的研究,脑科学家才真正理解了多巴胺。

多巴胺是强化学习的关键,它是对好东西的预期,而不是好东西的奖赏。

1997年,有人结合AI的原理用一篇论文彻底讲清楚了多巴胺的工作机制。多巴胺是一个强化信号,而不是奖励信号。多巴胺的作用是让我们「想要」,告诉我们好东西就在附近,你现在做得对,继续干!

在脊椎动物的大脑中,下丘脑负责释放多巴胺是一个奖励系统,只看结果,认为是好东西就释放多巴胺。大脑真正的学习机制不是释放而是感知多巴胺,这一步由基底神经节负责。基底神经节中有两个回路,一个扮演行动者,一个扮演批评者。批评者负责感知多巴胺,它们共同学习。

强化学习算法大获成功后,ai在很多电子游戏里超过了人类水平,而《蒙特祖玛的复仇》却让ai翻车了,水平提不上去:

这个迷宫类游戏要求玩家穿过一个充满障碍的房间,找到暗门出口。

跟其他游戏相比,这里的暗门可以出现在任何地方,没有里程碑性的中间步骤,在找到暗门之前你根本不知道自己做对了还是做错了什么。这很不适合强化学习,强化学习为了试错一般会留下比如5%的空间允许行动者随机动作,但是在这里远远不够。但如果纯粹毫无章法地乱走,又找得太慢。

直到2018年, Google 的 DeepMind 团队才攻克《蒙特祖玛的复仇》,打败了人类玩家。他们的解决方法是引入好奇心:

如果一个动作虽然没有给你带来什么回报,但是它很新颖,让你探索了未知区域,满足了好奇心,那么这个动作也应该得到强化鼓励。AI就是凭着好奇心,主动探索房间里没去过的地方,才找到暗门。(玩游戏开图的乐趣)

脊椎动物以及一些后来演化出的高级无脊椎动物都有好奇心。我们仅仅因为满足好奇心就能获得多巴胺。这就是为什么我们那么容易被随机的奖励所吸引,为什么我们在赌场里输着钱还那么投入。

强化学习有明确的目标,是一种非常功利的态度,它必须有好奇心的指引,才能走得远。你必须宁可牺牲一点回报,只为探索新的地方。

好奇心让学习本身成了一个值得追求的活动。

原来,好奇心是让人类在数万年演化中能够脱颖而出的关键。

上面的好奇心“简史”反过来能帮助我们理解上面的内容:

在不确定、或有明确目的/需求的情况下,我们可能会急切地寻找可理解的信息以达成目标——这种行为动机说明学习本身可能是有回报的。


违背预期可以增强并促进婴儿的信息寻求行为(information-seeking behaviours),可以通过适当的违背预期来有意识的控制刺激水平,从而加强主动的探索状态(exploratory states)。

为什么学习本身有回报?生物在生存竞争中自然演化出来的底层机制。

为什么适当的违背预期反而能强化探索行为?因为好奇心,探索动机的本质也是好奇心,对未知的偏好也是因为好奇心,好奇心也是人类大脑的底层机制。

而为什么人类会在最佳刺激水平范围感到舒适?这里面的原因可能类似多巴胺是强化学习的关键一样,最佳刺激水平也是人类从出生起就预装的底层设定。

3.2 打开斯金纳箱:强化敏感性理论

强化敏感性理论(Reinforcement sensitivity theory)假设人的行为由三个潜在系统调节:

  • 战或逃系统:the fight–flight–freeze system (FFFS),负责通过响应惩罚/无奖励的信号来避免和逃避行为
  • 行为激活系统:the behavioural activation system(BAS),通过响应奖励信号来调节行为
  • 行为抑制系统 :the behavioural inhibition system(BIS),负责解决FFFS和BAS的冲突,但这可能会产生焦虑[8]

最佳刺激模型解释了外部及情境的刺激是如何影响BAS和BIS的。根据最佳刺激模型,刺激必须具有积极的情绪效价才能更好的触发探索的内在动机。

举个例子:在空旷环境中感到无聊的人眼中,一个非常简单的刺激可能具有积极的价值。这与多巴胺系统可以特别对不涉及任何主要奖励的不寻常刺激作出反应的持续证据一致。

这样的行为可能源于内部的生理/心理过程,比如一个无聊的人会进行一些重复的小动作、胡思乱想、做白日梦,可能因为这样的活动能释放一些让人愉快的刺激。

image

这个结论自然会联想到斯金纳箱:斯金纳箱的鸽子没其他事做,所以才会成为赌鸽。而最佳刺激模型解释了这种现象:熟悉的环境会强化探索行为,会对外界新奇的刺激更有偏好,于是笼子里唯一有随机性的操纵杆就被大大强化了。

借强化敏感理论可以更好的理解无聊:

低于或高于最佳刺激水平的刺激或情境会被视为无聊,是一种负强化。

“无聊”可能不仅仅是随着重复暴露兴趣减少,当我们无法成功地将注意力与环境结合时,就会产生负反馈。

因此,导致无法保持最佳刺激水平的任何信息处理的问题都会导致某种形式的无聊。所以,任何刺激/环境刺激与最佳刺激水平相关时,无论是过于复杂(难懂的数学课),还是过于简单(在没有手机和书的情况下等公交车)都会导致这种情况的发生。

有趣的是,BAS(行为激活系统)和易感无聊正相关,BIS(行为抑制系统)和在无聊情境中易感无聊正相关。在BAS量表得分高的人容易感到无聊,因为他们在任何情况下都会感到刺激不足,或者是因为他们期望并寻求更大的回报;而BIS量表得分较高的人在无聊环境中更容易无奈,可能是因为这种环境中低于最优的刺激为变成一种惩罚。

而另一个反直觉的研究表明,人类有时会主动寻求非常高的唤醒状态。

研究者假设“唤醒突增”(arousal jags)之所以令人愉快,只是因为我们预期唤醒活动就像乘坐过山车一样会下降。

展开解释下:之所以过山车刺激,一方面是过山车会调动身体对于高度、不受控感觉的恐惧,另一方面是我们的理性也就是前额叶皮质会告诉我们这是安全的,几分钟后这段旅途就会结束。这样有安全保证的惊险刺激就会让我们体验到快感。

如果这个假设正确,那么这样的突增在首次触发时会让人不悦,且需要一定的初始条件才能起作用。所以这也解释了为什么在新生儿的行为中没有发现这种现象。

而我看来,这种“唤醒突增”是人类发展出新皮层,前额叶皮质长的差不多之后后天习得的一种系统设定。

接下来,让我们把这部分理论应用在人生和游戏设计上。

孩子为什么喜欢动画片[9] ?成年人对孩子可能有太多误解。

孩子对于动画的喜爱,很多大人会觉得是动画片色彩鲜艳、人物夸张喜人,有可爱的动物和各种特效。但事实上孩子喜欢动画片是因为孩子看懂了动画片的内容,简单的大闹并不会让孩子持续投入。

而很多大人会觉得孩子只有专注的情况下才能理解电视内容,所以经常会要求孩子“要专心”。但实际上有过这样一个实验:

两组对照组都是5岁的孩子,一组在一个空荡荡的房间里看电视,另一组在一个满是玩具的房子里看电视。


结果,待在没有玩具的房间里面的孩子看电视的时间更长。待在空屋子里的孩子大约有87%的时间在看电视,而待在有玩具的屋子里的孩子只有47%的时间在看电视。


这是很容易理解的,这说明孩子们的注意力被玩具分散了。但是,科学家随后测试了这两组孩子究竟理解和记住了多少节目内容,结果发现两组得分完全相同。也就是说,孩子看电视的方式比人们过去想象的复杂,孩子会在玩玩具和观看电视之间分配注意力。他只看电视节目中有信息量的部分。孩子看电视的时候,说明他看懂了,他不看电视,转移注意力的时候,说明他看不懂。

结合上面的内容,可以更好的理解这个实验:

孩子也会主动的维持自己的最佳刺激水平,房间(有或没有玩具)是环境刺激,电视的内容是刺激物。

在有玩具的屋子里,当电视提供的刺激不足以保持最佳刺激水平时,孩子就会主动的转移到自己能理解但较弱的玩具刺激上去,所以只有47%的时间在看电视。

而没有玩具的屋子里,电视是唯一较强的刺激物,孩子就像笼子里的鸽子,就算看不懂也只能选择这个好歹会变换音画的刺激。

image

再看一个游戏的例子,24年有一个霸榜的小游戏叫《向僵尸开炮》。一些从业者反馈,这游戏前期非常无聊,但度过了前期就还挺爽。

这和游戏的数据和成绩不匹配啊?

其实是因为用户群大都是没什么游戏经验的玩家,如果是从业者觉得刚刚好的游戏信息量反而对玩家来说过于复杂而导致无聊——这就是前面说的刺激弱于或高于最佳刺激水平都可能导致无聊。

3.3 自我决定理论

image

自我决定理论将人类的动机分为三类基本需求:

自主性(Autonomy) 、胜任感(competence)、归属感(connection of relatedness,需要感受到他人的理解和重视)

而最近对于这个理论提出了一个待定需求[10] :新颖性(novelty)。虽然新颖性似乎是符合纳入基本心理需求标准的,但有一项批评意见是过量的新颖性会导致负面影响,因此不能被视为基本的心理需求。

image

但如果把这个需求重新定义为对最佳刺激水平的需求就不会出现这样的问题(人们达到最佳的新颖性水平而不是过高或过低就能满足这种基本的心理需求)。此外,重视个体对刺激的独特需求与他/她的环境(刺激和情境)的刺激潜力之间的交互作用,更新后的模型将有助于研究基本心理需求的普遍性时解决各种混乱的情境、文化和个体因素。

这里可以延伸一下:近些年很多心理学经典实验面临“可重复危机”,包括知名的行为心理学著作《思考快与慢》中的相当一部分案例都不可重复。而通过对最佳刺激模型的了解,我们可以发现其中一些原因:

科学实验的重点是控制变量,前文提到实验场景对被试者来说可能是新颖的、陌生的、无聊的而与正常的情况不一致从而导致不那么正确的结论——正如斯金纳箱原版的实验一样。

而除此之外,只要受试者知道自己是“参与实验”就引入了一个刺激变量,这也会导致结果的差异。而除此之外,人的不同认知结构、性格特质都会导致对同样情境同样刺激截然不同的反应……而重视个体对刺激的独特需求与他/她的环境(刺激和情境)的刺激潜力之间的交互作用,或许能在以后新的研究中获得更加可靠的研究结论

回到上面聊过的“孩子的新玩具”,先回顾一下丰富循环怎么让游戏更长线:

  • 用意义取代机会。游戏的精通循环、社交、新内容,构建丰富的游戏世界,提供多样的环境、故事、人物,让玩家的“预测处理机器”在这样的内容里不断收获意义。
  • 用深度体验取代即时奖励:玩家和游戏交互的过程及交互过程中获得的反馈(体验自我,会带来大量的交互反馈、感受、情绪),最终收获的情感/记忆/意义/(融入叙事自我,完成个人成长)
  • 用内行判断取代快速重复:一旦你从丰富循环中体会到更高级的意义和更深度的乐趣,你就会藐视稀缺性循环(机会 → 不可预测的奖励 → 快速重复性)。通过稀缺性循环让玩家对游戏建立新的【认知】,供给玩家一些可供探索、发现、研究的乐趣和意义。

而之前说的新玩具的例子,是否有一种熟悉的味道:

  • 新玩具的奖励效果会使孩子维持最佳刺激水平。随着时间流逝,刺激效果就会逐渐减少(少了同龄人的夸夸、已经完全了解玩具的功能、玩具失去了新的玩法……)——玩家把游戏玩透了,已经完全了解游戏的玩法了,而动机、成就、社交乐趣都淡了
  • 更“雪上加霜”的是孩子对玩具会更加熟悉——喜新厌旧了,这是所有新事物而不只是游戏会出现的问题

结合本文内容,可以提出哪些改进的方案呢?

  • 寻找替代用途:以卡牌游戏为例,玩家在获得游戏角色后新鲜感总会消失。那么不断的推出新的玩法和机制,让同样的角色有更多用途,是可行的方案
  • 增加注意力:更多的对游戏主动投入,比如说让玩家感知到角色的故事,能够对角色产生共情;游戏的精通循环足够长,让玩家不断投入时间精力去研究,让玩家更在意;引入社交元素,让玩家收获社交关系、归属感、以及不断的来自“人”的刺激
  • 有意识的处理:其实就是从游戏外的视角赋予游戏意义,让玩家能以不同的视角获得新的刺激重新看待游戏。比如说宣发视角给于游戏某些“调性”(聪明人都在玩、职业选手最爱的游戏);给游戏赋予某些故事或给玩家赋予某些身份(DNF穿西装、wow给玩家立碑);给游戏内容赋予某种意义(pvp属性游戏电竞化,loldota都在完善游戏世界观)……
  • 改变环境:熟悉的情境会降低整体刺激,而反过来提供一个新颖的环境则会让玩家对熟悉的游戏内容回归兴趣。dota2、自走棋会定期的更新版本,提供给玩家一个整体相对陌生但大部分机制内容都熟悉的环境;是个游戏类型都想借鉴的赛季,其实也需要做到通过部分机制、内容的改变达到给玩家提供一种新颖性的环境的作用;而之前聊过的玩法修饰(对已有玩法增加条件/进行限制)/奇特桥段(影响3C/视觉及操作体验的独特元素)也属于这一环

多样性/UGC:也就是游戏内容能有丰富的可探索空间,易上手难精通,组合无穷无尽,典型代表就是MC、肉鸽;然后UGC就是游戏提供一个良好的基础框架,玩家能自主的玩出一大堆内容来,比如说比较终极的玩具乐高…但这个话题太复杂,这里就一笔带过吧…

总结

image

世界是复杂的,而人类的厉害之处就是可以用简单的模型去理解世界,对外界环境进行模式识别,并在自己的大脑中对模型进行运算,不断的迭代自己的预测处理系统。

所有模型都是错的,但其中有一些是有用的。

地心说也能理解和预测这个世界,不过极度复杂。换成日心说就会简单很多。

目前版本的最佳刺激模型就是一个新的“日心说”,但可能也会有人觉得“这不过就是孔子所说的中庸之道”。

人类在漫长的进化过程中,通过遗传有了一系列的预装系统,从反射系统到产生意识,有诸如基于多巴胺的强化学习系统,奖励好奇心的探索系统,以及会主动追求合适于个人刺激的最佳刺激水平模型。

最佳刺激水平的范围因人和环境而异,注意力的转移和探索行为的发生都可以视为个体为了接近最佳刺激水平而主动调整刺激场的策略。

当刺激过于复杂/强烈时,个体可以专注于探索更简单的刺激,或者用更全局的处理方式来扩大自身的心理范畴,主动去熟悉化复杂刺激;(可以结合丰富循环理解)

当刺激过于简单/微弱时,个体可以寻找更为复杂的刺激或主动创造。探索其他刺激,采用不同的处理方式、根据自身可用的认知资源去发现需求,主动创造。——这可能是人类创造力源泉的一种解释

而这些可用的认知资源会受到情境刺激强弱、年龄、情绪、唤醒性(可以结合人格特质理解)的影响。

受限于英文阅读能力,本文肯定会有非常多的概念理解偏差。而原文10多页的内容本次也只能进行一些取舍,且有一些思考没有写出来:为什么人会偏好有序/确定性?如何用这个模型和直觉/惊喜/故事设计的内容结合?一些更具体的应用…..这个就留在以后有更多实践再聊吧。

本来在写完体验设计系列后就不写这种偏理论的文章了,但稀缺性循环的学习让我第一次知道了最佳刺激模型,所以我得满足我的好奇心。而这个模型也很好的训练了我的认知模型,比如为什么玩家愿意看某些游戏的故事,而另一些游戏却只想跳过?这个问题,现在其实很容易理解——和在有玩具房间里看电视的例子原因一致。

参考资料:
[1] 《Riding the elephant in the room: Towards a revival of the optimal level of stimulation model》,Paula Ibáñez de Aldecoa、Emily Burdett、Erik Gustafsson,2022
[2] 《Look Again: The Power of Noticing What Was Always There》,Tali Sharot,Cass R. Sunstein
[3] 《Understanding the need for novelty from the perspective of self-determination theory》González-Cutre et al., 2016
[4] 丹尼尔·卡尼曼(1934·3·5-2024·3·27),享年90岁
[5] Meirhaeghe, N., Sohn, H., & Jazayeri, M. (2021). A precise and adaptive neural mechanism for predictive temporal processing in the frontal cortex (p. 2021.03.10.434831). bioRxiv.
[6] Brielmann, A., & Dayan, P. (2021). A computational model of aesthetic value.
[7] 《智能简史》3:学习的革命,万维钢·精英日课6
[8] P.J. Corr(2004).Reinforcement sensitivity theory and personality
[9] 童话启示录,何帆
[10] D. González-Cutre, M. Romero-Elías, A. Jiménez-Loaisa, V.J. Beltrán-Carrillo, M.S. Hagger,2020.Testing the need for novelty as a candidate need in basic psychological needs theory

文/gameParanoia
来源:游思考

© 版权声明
THE END
喜欢就支持一下吧
点赞5赞赏 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容