你有没有过这样的经历?在餐厅遇到糟糕的服务,气得想给一星差评,但看到评价表上还能给食物、环境、服务分开打分时,却突然犹豫了?
许多平台收集消费者体验评价的方式各不相同——例如Uber只要求消费者进行整体评分。而OpenTable会要求消费者对体验进行整体评分以及对体验的具体方面(如餐厅的食物、服务、环境等)逐一评分。
本研究发现当消费者被要求对低于预期体验(subpar experiences)的具体属性评分时,其对该体验的整体评分会显著提升。这一效应的产生是因为当消费者能够对体验中的某个具体负面维度(如服务)单独评分时,他们倾向于减少该负面因素对整体评分的影响。
消极偏见(negativity bias)是指人们在感知、处理和记忆信息时,对消极信息的关注度和权重往往高于积极信息的现象。这种心理倾向在多个领域都有体现,尤其是在消费者行为、社会心理学和信息处理中。在本研究中,相比积极刺激,消费者更关注消极刺激并给予消极刺激更高的权重。消极偏见表明,当消费者去一家食物不理想但服务比较理想的餐馆时,糟糕食物这一消极信息可能更突出。
“积极提醒机制”和“避免消极信息重复机制”是本研究的两个竞争解释机制。
“积极提醒机制”:在不太理想的某次体验中,消费者对某体验的积极方面的评价会提高消费者对该体验的整体评价,因为该积极方面将作为一个体验并不那么糟糕的提醒。所以该机制预测在整体评分和具体特征评分中,消费者对具体特征中积极方面的评分会提升消费者的整体评分。
“避免消极信息重复机制”:消费者在评价不理想的体验时,倾向于避免在整体评分和属性评分中重复表达负面信息。因此,当他们有机会对该体验的具体负面方面进行评价时,他们会减少在整体评分中对负面信息的评价权重,从而给出更高的整体评分。
实验1-2
目的:在不同的场景和体验中检验本文的基本效应,即要求消费者对低于预期体验的具体属性进行评级,会提高他们对该体验的整体评级。并验证这一效应并不存在于良好体验中。
样本:实验1:Mturk,1001 (平均年龄39.23岁,女性占比52.75%);实验2:Mturk,1003 (平均年龄38.14岁,女性占比51.74%)
实验设计:2 (subpar scenario vs. good scenario, 组内) × 2 (overall only vs. overall + attributes, 组间) mixed design
实验流程:实验1和2分别是将餐厅就餐体验和爱彼迎住宿体验作为实验情境,一个场景是让消费者想象一次好的体验,各类体验至少都与自己期望的一致。一个场景是要求被试想象一次不理想的体验,该体验中至少有一方面比所期望的糟糕。被试被随机分配到整体评分情境或整体评分+属性评分情境。在整体评分情境中,参与者仅对整体体验进行评分。在整体评分+属性评分情境中,对整体体验进行评分,随后对体验的若干特征进行评分。实验1中的属性特征是食物、服务、环境和价值。实验2为准确性、入住率、卫生、沟通、位置和价值。
实验结果:低于预期体验时,“整体+属性评分条件”的参与者对体验的整体评分显著高于“仅整体评分条件”。良好体验时,“整体+属性评分条件”与“仅整体评分条件”之间的参与者对体验的整体评分无显著差异。
实验3
目的:检验本文的基本效应是否会推广到当要求参与者回忆他们最近经历的低于预期的体验时。
样本:Prolific,1944 (平均年龄40.15岁,女性占比52.78%)
实验设计:2 (overall only vs. overall + attributes) between-subjects design
实验流程:参与者阅读以下内容:“在本调查中,您将被问及有关您经历过的某个体验的几个问题。您能记得以下哪些体验?如果您能记得不止一个,请选择最近的一次。” 接下来,能够记住相关体验的参与者会回答有关该体验的细节问题(例如,您去的餐厅叫什么名字?)。随后,参与者被随机分配到“仅整体评分条件”或“整体评分+属性评分条件”,对体验进行评分。
实验结果:“整体+属性评分”条件的参与者对体验的整体评分显著高于“仅整体评分”条件。实验3验证了,实验1和2观察到的效应在被试回忆体验的情境下仍然成立,具有较强的稳健性。
实验4:
目的:检验当要求消费者真正经历(而非阅读/回忆)低于预期的体验后,上述效应是否成立。探讨该效应对于“整体评分+属性评分”条件不同操作方式的稳健性。
样本:Prolific,1481 (平均年龄34.05岁,女性占比46.66%)
实验设计:3 (overall only vs. overall + individual paintings vs. overall + painting attributes) between-subjects design
实验流程:参与者被告知:“在这项调查中,你将看到一个包含4幅画的画廊。然后,你需要对画廊进行评价。”在完成一个简单的注意力检测题后,参与者会被随机分配到“仅画廊整体评分条件”“画廊整体评分 +单幅画评分条件”(注:对每幅画都要进行单独评分)或“画廊整体评分 + 画作属性评分条件”(注:属性包括创造力、技巧与技法、主题清晰度、原创性),查看评级任务示意图。观看由4幅画作组成的低水平的画廊,包括3幅平庸作品和1幅非常糟糕的作品,随后完成相应评级任务。
实验结果:“整体+画作属性评分”的参与者对画廊的整体评分显著高于“仅整体评分”。“整体+单幅画评分”与“仅整体评分”的参与者对画廊的整体评分的差异在统计上边缘显著。“整体+画作属性评分”与“整体+单幅画评分”的参与者对画廊的整体评分的差异不显著。实验4验证了:消费者真正体验的情境下,上述效应仍成立。无论消费者是评价体验的多个属性(创造力、原创性等),还是体验的每个组成部分(即组成画廊的每幅画),这种效应都会出现。
实验5
目的:检验本文的基本效应是否会推广到采用开放式文本框形式的评价中。
样本:Mturk,1492 (平均年龄37.55岁,女性占比48.66%)
实验设计:2 (subpar scenario vs. good scenario, 组内) × 3 (overall only vs. overall + attributes vs. overall + text box, 组间) mixed design
实验流程:参与者阅读2个爱彼迎住宿体验场景,1个是低于预期体验的场景,另1个是良好体验的场景(注:实验材料与实验2一样,2个场景分别从提供的场景中随机抽取,且先后顺序随机)。参与者想象自己身处其中,参与者会被随机分配到“仅整体评分条件”、“整体评分+属性评分条件”(属性包括准确性、入住、清洁度、沟通、位置和价值)或“整体评分+文本框条件”(注:消费者会看到一个文本框,并被询问“您会提供什么评价?”参与者必须提供至少15个字符的书面评价才能继续调研),对体验进行评价。
实验结果:低于预期体验时,“整体+属性评分”的参与者对体验的整体评分显著高于“仅整体评分条件”。低于预期体验时,“整体+文本框”的参与者对体验的整体评分显著低于“仅整体评分”条件和“整体+属性评分”条件。实验5验证了:虽然在低于预期的体验中,引导消费者对多个属性维度进行评分有助于提升其整体评分,但允许其以开放式文本框形式自由表达体验感受却无法产生类似效果。
实验6-7
目的:通过分别纳入“整体评分+消极属性评分”“整体评分+积极属性评分”条件验证两种竞争解释机制。
样本:实验6:Mturk,1499 (平均年龄36.77岁,女性占比48.30%);实验7:Mturk,1490 (平均年龄35.32岁,女性占比50.87%)。
实验设计:实验6:2 (subpar scenario vs. good scenario, 组内) × 3 (overall only vs. overall + attributes vs. overall + negative attributes, 组间) mixed design
实验7:2 (subpar scenario vs. good scenario; 组内) × 3 (overall only vs. overall + attributes vs. overall + positive attributes, 组间) mixed design
实验流程:参与者阅读2个爱彼迎住宿体验场景,1个是低于预期体验的场景,另1个是良好体验的场景(注:实验材料与实验2一样,2个场景分别从提供的场景中随机抽取,且先后顺序随机)。实验6:参与者想象自己身处其中,然后参与者会被随机分配到以下三个评分条件之一,对体验进行评分:① 仅整体评分条件;② 整体评分+属性评分条件 (属性包括准确性、入住、清洁度、沟通、位置和价值);③整体评分 + 消极属性评分条件 (注:消费者对之前研究中评价最消极的两个属性进行评分,在良好体验场景下,即使是最负面的属性评分也并不算低,Ms > 4.36 out of 5 stars)。实验7:参与者想象自己身处其中,然后参与者会被随机分配到以下三个评分条件之一,对体验进行评分:① 仅整体评分条件;② 整体评分+属性评分条件 (属性包括准确性、入住、清洁度、沟通、位置和价值);③整体评分 + 积极属性评分条件 (注:消费者对之前研究中评价最积极的两个属性进行评分)。
实验结果:低于预期体验时,“整体+属性评分”的参与者对体验的整体评分显著高于“仅整体评分条件”。实验6:低于预期体验时,“整体+消极属性评分”的参与者对体验的整体评分显著高于“仅整体评分”条件,而与“整体+属性评分”之间无显著差异。实验7:低于预期体验时,“整体+积极属性评分”的参与者对体验的整体评分显著低于“整体+属性评分”条件,而与“仅整体评分条件”之间无显著差异。实验6和7验证了:基本效应背后的解释机制是“避免负面重复”而不是“积极提醒”和“平均化”。
实验8-9
目的:replicate实验6和7的结果,聚焦于对低于预期的体验的评分,验证结果在其他情境中的可推广性。
样本:实验8:Mturk,1985 (平均年龄35.91岁,女性占比52.02%);实验9:Mturk,1426 (平均年龄41.60岁,女性占比53.79%)。
实验设计:4 (overall only vs. overall + attributes vs. overall + negative attributes vs. overall + positive attributes) between-subjects design
实验流程:实验8:参与者阅读了1个低于预期体验的餐厅就餐场景 (注:参与者被随机分配到2个场景中的1个)。参与者想象自己身处其中,然后参与者会被随机分配到以下四个评分条件之一,对体验进行评分:①仅整体评分条件;②整体评分+属性评分条件;③整体评分+消极属性评分条件;④整体评分+积极属性评分条件。实验9:参与者首先完成了注意力测试问题,然后阅读并评价四种体验感低于标准的场景,每个场景来自以下领域:商业飞行体验、牙医体验、购买运动鞋和购买书柜体验。然后随机被分配到与实验8一样的四种评分条件。
实验结果:消极属性与积极属性的操控成功:实验8-9中,相较于“整体+属性”, 参与者在“整体+消极属性”条件下对具体特征的平均评级显著更低,在“整体+积极属性”条件下的评级显著更高。低于预期体验时,“整体+属性”的参与者对体验的整体评分显著高于“仅整体评分”的参与者。低于预期体验时,“整体+消极属性”的参与者对体验的整体评分显著高于“仅整体评分”。实验8和9再次验证了基本效应的解释机制是避免负面重复; 要求消费者对体验的消极(而非积极)属性评级, 会提升其对整体体验的评级。
实验10
目的:探究哪种消费者评级方式会使得整体评级更为准确。
样本:Mturk,1991 (平均年龄40.58岁,女性占比55.14%)
实验设计:2 (overall only vs. overall + attributes) between-subjects design
实验流程:参与者阅读1个低于预期体验的餐厅就餐场景 (实验材料与实验1和8相同,参与者被随机分配到2个场景中的1个)。参与者想象自己身处其中,然后参与者会被随机分配到“仅整体评分”或“整体评分+属性评分”条件,对体验进行评分。最后,参与者回答了2个行为意向问题 (r = 0.84):①“您再次光顾这家餐厅的可能性有多大?”(1 = “完全不可能”,9 = “极有可能”);②“您向朋友推荐这家餐厅的可能性有多大?”(1 = “绝对不会推荐”,9 = “绝对会推荐”)。
实验结果:低于预期体验时,“整体+属性评分”条件下的参与者对体验的整体评分显著高于“仅整体评分”。行为意向评分在“整体+属性评分”和“仅整体评分”条件中几乎相同,无显著差异。“仅整体评分”条件下的相关性(r = 0.67,t(996) = 28.82,p < .001) 显著大于在“整体+属性评分” 条件下的相关性(r = 0.56,t(991) = 21.31,p < .001),两者间差异显著(z = 4.12,p < .001)。实验10验证了:对于低于预期的体验而言,“仅整体评分”的消费者评分方式会使得整体评分更为准确;“整体评分+属性评分”可能会人为地提高消费者对体验的整体评分,但同时可能会降低该评分的准确性和预测有效性。
企业、评分平台或营销经理可以根据自身目标调整评分系统的设计方式。
若希望提高整体评分或者重视属性反馈的价值:企业可同时征询整体评分+属性评分,并针对性地改进服务或产品。
若更关心评分的准确性或预测力,希望评分能真实反映消费者体验、以增强其公信力:则可以只征询整体评分。


