01
研究背景
推理模型在执行复杂推理任务方面展现出显著的性能提升,例如数学计算和代码生成,这得益于其思维链(Chain-of-Thought, CoT)能力的强化。这种强大的推理能力也重塑了模型的对齐方式;例如,将推理过程与安全策略结合能够有效提升安全对齐 [1]。除了安全对齐之外,鉴于我们社会的多元文化性,推理模型需要反映来自不同文化的多维人类价值观与偏好 [2]。因此,一个重要的研究问题随之出现:如何基于推理模型挖掘并应用类似于安全策略的文化相关的指导准则——文化规范(Cultural Norms),从而更好地与特定国家的文化背景对齐。
图1
02
研究内容
我们的研究包括两个关键内容, 如图 1 所示:(1) 自动挖掘文化规范。 这一步是基础,因为现成的文化规范往往并不存在,需要基于文化问卷来推断。图 2 展示了三种基于问询式的文化规范挖掘方法。第一种方法只依赖主题信息;另外两种方法在主题之外还需要少量调查数据。两者的差别在于所提供的答案信息是仅包含 top-1 答案还是一个排序列表。(2) 探索利用挖掘出的文化规范进行文化对齐的方法。 第一种方法将文化规范直接作为上下文加入用户请求中,属于一种上下文内对齐方式 ( In-context Alignment ) [3]。第二种方法基于微调,通过使用由文化规范增强的CoT数据,使模型能够内化文化规范,模型在使用时就能够自主进行文化反思,而不需要显式提供文化规范。
03
预备知识
一、World Values Survey(WVS)
WVS [4] 是一项全球性民意调查,旨在收集不同国家人们在 13 个文化主题下的价值观与态度,该数据集在 LLM 的文化研究中被广泛使用。本研究使用的数据源自 Xu 等人(2024)[5] 处理后的版本,共包含 261 个样本。例如,在 Social Values, Attitudes & Stereotypes 主题下,其中一道问卷(Q1)问到:“How important is family in your life?” 可选答案包括:“Very important、Rather important、Not very important、Not at all important”。以美国为例,大约 89% 的受访者选择 “Very important”,只有约 0.3% 选择 “Not at all important”。本研究采用与以往工作(Xu et al. 2024)一致的做法,使用多数人选择的选项作为各国的 ground truth。具体来说,对于每个文化主题,我们抽取 5 个样本用于挖掘文化规范或作为训练数据,因此每个国家对应 65 条训练样本,其余样本用于测试。本研究涵盖 18 个国家,包括美国、加拿大和中国等。
二、文化规范挖掘
对社会调查问卷的分析是社会科学中常见的方法。鉴于推理模型在数据理解与结构化表达方面具有强大的能力,本研究利用模型自身,从文化问卷中自动挖掘文化规范。给定一个主题以及该主题下 m 条文化调查样本(实验中 m=5),我们探索三种不同的信息利用方式,如图 2 所示。
Only Topic:如图 2(a) 所示,该方法只使用主题信息,通过提示模型为指定国家生成与该主题相关的文化规范。
Topic & Questionnaires(Top-1 Answer):如图 2(b) 和图 2(d) 所示,该方法在主题信息的基础上,加入少量问卷数据及其 top-1 答案。步骤包括:1. 模型基于问卷 + top-1 答案生成“低层级文化规范”(low-level norms);2.再将这些低层级规范聚合为较泛化的“高层级文化规范”(high-level norms)。我们在图3中展示了使用这种方法挖掘出的文化规范示例。
Topic & Questionnaires(Ranked Answers):如图 2(c) 和图 2(d) 所示,该方法与 top-1 类似,但使用完整的排序答案(ranked answers)而非仅 top-1。排序依据问卷中的统计比例,从高到低排序。
图2
图3
三、文化对齐方法
本研究探索两类文化对齐方法:
1.上下文对齐:该方法将挖掘到的文化规范直接插入到模型的输入上下文中。
2.基于微调的对齐:如图 4 所示,第二类方法通过微调使模型“内化”文化规范,不再需要在推理时显式提供规范。主要步骤包括:
a) 规范增强的 CoT 自蒸馏:利用问卷和挖掘出的文化规范,从基础模型中自蒸馏生成推理数据。
b) 监督微调(SFT):对模型进行 SFT,模型学到的是融合文化规范后的CoT推理方式。
c) 正负样本生成:利用上一步获得的 CNCA-SFT 模型,再生成包含正确与错误推理链的偏好数据。
d) 直接偏好优化(DPO):利用正负样本执行 DPO,使模型进一步强化符合文化规范的推理路径。最终得到 CNCA-DPO 模型,该模型无需输入文化规范即可表现更强的文化对齐能力。
图4
04
主要研究问题及实验结果
一、哪种文化规范挖掘方法最有效?
基于上下文对齐范式,我们在不同规模的推理模型上评估了三种文化规范挖掘方法。这种无需训练的方式使我们可以通过观察最终的对齐结果,直观比较不同方法的有效性。
表1
如表 1所示,在三类方法中,CNCA-TQ (TA) 效果最稳最强,随模型变大收益更明显;在 R1-Llama-8B 与 R1-Qwen-14B 上相对 vanilla 分别提升 +1.67 与 +2.69。
看“规范条数”的影响:在 TA 设定下,增加规范数量,三种模型的对齐分数单调提升;而在 RA 设定下,各模型趋势不一致,表现更不稳定(见 图5)。
图5
二、推理能力如何影响文化对齐?
在 CNCA 框架中,无论是文化规范的挖掘,还是对这些规范的有效使用,都与模型的推理能力密切相关。
图6
强模型产出的文化规范能显著“带动”弱模型:固定评测模型,用不同模型生成的规范做对齐时,来自更强/更大的模型的规范能把分数拉高(见图6,63.21)。
强推理模型对规范质量更具鲁棒性:例如 R1-Qwen-14B 用 R1-Qwen-7B 生成的规范也能超越最佳 ICL 基线。
三、文化规范能否被模型内化?
虽然文化规范可以通过上下文的方式直接加入模型输入中,但我们的目标是通过增强的CoT微调,让模型能够将文化规范“内化”。这样一来,模型在使用时就能够自主进行文化反思,而不需要显式提供文化规范。
表2
如表2所示,在 R1-Qwen-14B 上,相对 vanilla , CNCA-SFT 平均 +1.18,CNCA-DPO 平均 +1.35 ;且二者均优于最强微调基线 CoT-SFT,分别多 +0.53 / +0.70,验证了的内化文化规范到模型内部方法思路的可行性和有效性。
05
参考文献
[1]Guan, Melody Y., et al. "Deliberative alignment: Reasoning enables safer language models." arXiv preprint arXiv:2412.16339 (2024).
[2]Wang, Yuhang, et al. "Cdeval: A benchmark for measuring the cultural dimensions of large language models." Proceedings of the 2nd Workshop on Cross-Cultural Considerations in NLP. 2024.
[3]Wang, Wenxuan, et al. "Not all countries celebrate thanksgiving: On the cultural dominance in large language models." Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2024.
[4]Haerpfer, C.; Inglehart, R.; Moreno, A.; Welzel, C.; Kizilova, K.; Diez-Medrano, J.; Lagos, M.; Norris, P.; Ponarin, E.; and Puranen, B. 2022. World values survey.
[5]Xu, S.; Leng, Y.; Yu, L.; and Xiong, D. 2024. Self-Pluralising Culture Alignment for Large Language Models. arXiv preprint arXiv:2410.12971.
E
N
D
文案:王宇航
排版:杨云帆
责任编辑:桑基韬、黄晓雯

