

如何利用上下文提供帮助?探索联合检索段落和个性化上下文

涛哥论道

2023-09-01

导读：论文《如何利用上下文提供帮助?探索联合检索段落和个性化上下文》阅读笔记，在个性化场景，具有借鉴意义。

将外部的个性化上下文信息集成到以文档为基础的会话系统中具有巨大的潜在商业价值,但未得到很好的研究。受到个性化上下文感知文档化会话系统的概念的启发,我们引入了上下文感知段落检索任务。我们还专门为这个目的构建了一个数据集。我们描述了多个基线系统来解决这个任务,并提出了一种新颖的方法,即个性化上下文感知搜索(PCAS),它可以在段落检索过程中有效利用上下文信息。在多个流行的稠密检索系统上进行的实验评估表明,我们提出的方法不仅优于基准线在检索最相关段落方面,而且在识别所有可用上下文中的相关上下文方面也有出色表现。我们希望我们的贡献将作为催化剂,激发未来在这个有前景的方向上的研究努力。

论文原文地址：2308.13760.pdf (arxiv.org)

一、介绍

随着近年来AI的发展,世界见证了装备了LLM(大语言模型)的聊天机器人的爆炸式增长,例如ChatGPT、BARD、BlenderBot等,它们生成的文本往往与人类的流畅度难分伯仲。然而,由参数化LLM驱动的聊天机器人已知会生成事实上不正确的陈述 - 无论模型大小,这都是个问题。通过利用外部知识库,检索增强系统(包括以文档为基础的对话系统)相比纯参数化系统展示了几个优势。例如,基于外部知识库的响应已经证明可以减少各种检索系统和模型架构中的幻觉。

企业环境中的文档化会话系统,特别是那些可以访问大量上下文信息的系统(无论作为知识库还是API调用库),其中这些上下文可能是时间相关的(如当前日期和时间或最近事件),或者是用户特定的(如有关用户账户、配置文件、最近交易、活动日志等的信息)。如果没有任何此类上下文,针对“我有资格获得这项回扣吗?”这样的用户问题,系统的响应可能仅基于相关文档给出“您是否有资格获得此回扣取决于您居住的地方”。如果正确的上下文也被检索和提供,响应就可以立即提升到“是的,您有资格,因为您居住在新加坡。” 此外,检索正确的上下文信息可以帮助更好地理解用户的意图,从而提高识别正确的定位文档的可能性。

选择哪个上下文进行检索的重大挑战具有巨大的潜在商业价值,但尚未得到很好的研究。包含过多上下文信息可能会为生成步骤带来太多噪音,或超过LLM的允许输入大小。包含不相关的上下文信息可能会降低生成的响应质量。因此,我们的动机问题可以表述为:给定用户查询(本身可能不完整)、文档集合和一组可用上下文,文档化会话系统如何检索出有助于回答该查询的上下文的良好子集,这个过程又如何帮助检索最相关的定位文档?

二、上下文和段落检索

我们现在正式定义context-passage检索任务,这不仅涉及从外部知识库中检索相关文档,还涉及从所有可用上下文中选择相关上下文。

形式上,当用户u与系统进行对话时,除了静态文档语料D,所有可用的个性化上下文信息Cu也可供系统访问。还有由该会话中用户与系统之间已经发生的utterances组成的对话历史:H = {r1: X1, ..., ri: Xi, ...} 其中ri是说话者角色,Xi分别是第i轮的utterance。由于我们的工作重点是context-passage检索而不是对话历史,在本文的其余部分,我们简单地考虑单轮用户查询q而不是H。

给定用户查询q的输入,任务是选择1)最相关的潜在文档d从D中; 和2) 最相关的潜在上下文c从Cu中,以帮助系统生成良好的响应。

为了评估检索出的文档和上下文,我们使用标准的检索指标,包括二进制排序感知指标MAP(平均平均精度)和决策支持指标Recall@K。

三、ORCA-ShARC数据集

据我们所知,没有现有的开放式检索内容化对话或问答数据集,其中每个文档化示例都用一组上下文进行了注释。为此,我们整理了一个用于第2节提出的任务的数据集。

ShARC是一个专注于从给定文本和一个给定上下文(场景)进行问答的会话式QA数据集。OR-ShARC是从ShARC数据集改编而来的开放式检索设置,其中任务是从整个语料库中检索相关的文本片段。在OR-ShARC中,每个示例都给出一个相关的上下文(场景)。

我们创建了一个数据集ORCA-ShARC(开放式检索上下文感知ShARC),通过将OR-ShARC数据集转换为我们的任务设置来创建,其中每个示例都有一组可能的上下文,而不仅仅是一个相关上下文。为了创建该集合,我们使用该示例的原始相关上下文,并通过从OR-ShARC数据集中出现的所有上下文中随机采样来扩展该集合,只要上下文之间没有矛盾(由提示FLAN_T5_3B模型判断)。我们为每个示例包含10个上下文。

表1总结了ORCA-ShARC数据集的统计信息,表2给出了一个示例。

四、方案

4.1 基准

我们设计并实现了该任务的几个基准。这些方法独立于底层检索系统。我们使用scoredq(d,q)、scorecq(c,q)和scorecd(c,d)来表示检索器对文档d、查询q和上下文c之间相关性的评分。

OR {question + original relevant context} → document: 为明确起见,这是在原始OR-ShARC数据集上进行的一个实验,而不是一个基准。知道原始相关上下文的情况下,OR-ShARC中的段落检索任务比我们的任务更容易。在这个实验中,原始上下文与用户问题连接,形成一个新的查询qOR来根据scoredq(d,qOR)检索文档。

B1 {question + all contexts} → document:一个基准,将用户问题与所有可用上下文连接,形成一个新的查询qB1,并根据scoredq(d,qB1)检索文档。

B2 question → document; document → context:一个基准,使用用户问题根据scoredq(d,q)检索文档,然后使用预测的顶部文档根据scorecd(c,d)选择上下文。

B3 question → context; {question + predicted context} → document:一个基准,使用用户问题根据scorecq(c,q)选择上下文,然后将用户问题与预测的顶部1上下文连接以形成新的查询qB3,并根据scoredq(d,qB3)检索文档。

4.2 PCAS方法

我们提出了一种新颖的方法PCAS,它联合预测文档和上下文作为一对,基于文档与查询和上下文的相关性。

首先,我们使用用户问题q根据scoredq(d,q)检索前K个文档候选。然后,对于每个文档d,我们选择与其最相关的上下文,根据scoredc(d,c)。

最后但同样重要的是,凸组合分数λ * scoredq(d,q) + (1-λ) * scoredc(d,c)用于选择最相关的对(d,c),其中0 < λ < 1。其中的基本直觉如下:用户的问题可能没有足够的信息让系统理解意图并检索到金标准文档。但是,系统将部分知晓意图,并有很大可能将最佳文档包含在top-K列表中。将top-K文档与用户的实际情况相匹配,后者被上下文捕获,这将极大地帮助解密用户的真实意图并检索到金标准文档。

五、实验结果

我们在ORCA-ShARC数据集上进行0-shot上下文和段落联合检索任务,比较基准和PCAS。我们在几个流行的预训练神经检索系统上进行实验,包括后期交互检索模型ColBERT、单向量检索模型DPR、ANCE和Sentence BERT(S-BERT)。

表3中,我们呈现文档检索结果和上下文选择结果(仅限于涉及上下文检索的方法:B2、B3和PCAS)。对于同一方法,结果在不同检索器之间有很大差异,这是由于不同的模型、预训练数据和过程。例如,DPR结果较低,特别是B3文档指标,因为它涉及两步链式检索,这放大了效果。B1在所有指标上一致地产生最低准确率,主要是因为不加区分地包含所有上下文引入的噪音。重要的是,我们观察到,当原始相关上下文未知时,我们提出的PCAS方法比所有基准获得更好的检索结果,这表明联合考虑文档和上下文可以提高文档和上下文检索的性能。还要注意,PCAS结果接近OR实验,在该实验中给出了原始相关上下文。这表明PCAS可以识别查询的相关和重要上下文,而无需用户指定任何上下文。此外,B2和B3的比较说明q → d → c的检索过程优于q → c → d,这支持了我们PCAS设计的动机。

六、相关工作

我们提出的任务与仅在给定文档上执行QA,不涉及检索的上下文感知QA工作不同(Seonwoo et al., 2020; Taunk et al., 2023)。另一方面,上下文感知QA可以看作是我们任务之后的下一个步骤。

我们的工作与上下文信息检索(MERROUNI et al., 2019)的工作密切相关。与我们的工作的主要区别在于,这条线的工作不涉及选择相关上下文。所使用的上下文形式是结构化的,只有几个预定义的类型,而我们利用一组非结构化上下文。对查询的上下文和内容都没有联合相关性建模。我们的任务和方法也与上下文感知推荐系统不同(Tourani et al. 2023最近在该领域的工作),后者不涉及用户的问题或查询。

我们提出的数据集和任务还与开放域问答(Kwiatkowski et al., 2019; Lewis et al., 2020等)、开放式检索会话QA(Qu et al., 2020; Gao et al., 2021)和开放式检索文档化对话(Feng et al., 2021)相关。但是,这些数据集和任务都不包括外部上下文信息。唯一的例外是OR-SHARC,它为每个示例提供一个相关上下文,不涉及从更大的集合中选择相关上下文。

最后,我们的工作与多会话聊天(MSC)(Qian et al., 2021)相关,后者由多个聊天会话组成的数据集,创建目的是研究如何利用当前对话会话外的信息。类似地,Xu et al. (2022)最近利用增强检索方法从以前的聊天会话中选择有用的上下文。但是,两者的数据集都没有以文档为基础,也没有探索联合检索文档和上下文信息。

七、结论

本文提出了面向文档化对话的上下文感知段落检索任务,并基于OR-ShARC创建了一个数据集。我们还提出了将外部上下文信息集成到文档化会话系统检索方面的几种基准方法和一种新颖方法。所提出的PCAS方法有效地组合了文档与查询和上下文的相关性。我们在几个流行的检索系统上进行了实验评估,包括ColBERT、DPR、ANCE和S-BERT。结果表明,相比基准模型,通过PCAS可以显著改进段落检索和识别相关上下文。我们希望我们在上下文-段落联合检索方面的进步将促成未来研究工作在这个非常有前景的领域的开展。

几个潜在的方向包括将PCAS方法扩展到训练过程、整合下游模块如响应生成,以及创建具有人类反馈的真实世界上下文数据集。这些主题为社区提供了有前景的方向,以进一步推进这个领域。

八、创新之处

1. 提出了一个新的任务:面向文档化对话系统的个性化上下文感知段落检索。这是一项结合了个性化上下文和开放域问答的新颖任务。

2. 构建了第一个用于这个任务的数据集ORCA-ShARC。这是一个开创性的数据集贡献。

3. 设计了一种新的方法Personalized Context-Aware Search (PCAS),可以联合选择与查询和上下文都相关的段落,而不是分开进行查询匹配和上下文匹配。

4. 在多个流行的神经检索模型上证明了PCAS相比多个基准可以显著提高段落和上下文的联合检索效果。这证明了上下文在开放域问答中的作用。

5. 开创性地将个性化上下文引入到开放域问答中,为以后在这个方向的研究奠定了基础。

6. 为文档化对话系统的检索模块引入上下文感知的思想,拓展了该领域的研究视角。

总体来说,这项工作的创新点在于构建新任务新数据集,设计新的上下文感知联合检索方法,并取得了状态先进的结果,为后续研究打开了新的方向。

九、不足之处

1. 仅在作者构建的一个数据集上进行了验证,还需在更多数据集上验证方法的有效性和可扩展性。

2. 构建的数据集规模较小,只有2万多个训练样本,可能会对模型的效果产生影响。

3. 目前还未能与下游的回复生成任务进行端到端的结合,只看了检索效果。

4. 没有深入分析不同类型查询和上下文对方法的影响。

5. 上下文数据集比较简单,与真实世界的复杂个性化上下文还有一定差距。

6. 基准方法比较简单,可以设计更多更强大的基准进行比较。

7. 实验只覆盖了几个典型的神经检索模型,可以拓展到更多最新模型。

8. 在实际效果上,与提供金标准上下文的OR实验仍有一定差距,方法还有改进空间。

9. 目前还未解决个性化上下文规模过大时的效率问题。

总体来说,这篇论文在任务定义、数据集和方法上做了开创性工作,但由于初步探索性质,不足之处在验证、分析和讨论方面还存在可以改进的空间。这为后续的研究工作提供了机会。

十、实际场景中落地

1. 可应用于客户服务聊天机器人,利用用户账户信息、用户配置文件等上下文来帮助回复用户的问题。

2. 可应用于产品推荐聊天机器人,利用用户的历史购买、浏览记录等上下文来推荐产品。

3. 可应用于财务顾问聊天机器人,利用用户的资产配置、风险偏好等上下文来提供投资建议。

4. 可应用于医疗健康聊天机器人,利用患者的病历、测试报告等上下文来回答健康相关提问。

5. 可应用于自动驾驶场景,利用车辆当前位置、状态、目的地等上下文来理解导航类型的语音提问。

6. 可应用于虚拟助手,利用用户日历、提醒事项、联系人等上下文来回答查询并配合执行任务。

7. 可扩展至任务型对话场景,利用已有任务上下文指导检索以产生连贯一致的回复。

8. 可应用于开放域问答聊天机器人,利用用户 side information 来增强回复的个性化度。

总之,个性化上下文的引入为提高对话系统的自然性、连贯性和适用性提供了可能,在多种实际场景中都可以采用该方法提升性能。

【声明】内容源于网络

涛哥论道

李鹏涛，行业知名AI技术专家，清华大学创新领军工程博士，2012年加入京东，任高级总监，领导京东核心系统的研发，2017年任居家事业部产品研发部总经理。先后荣获全球架构师峰会优秀出品人，全球软件开发大会优秀讲师，物流信息化风云人物等奖项。

内容 114

粉丝 0

涛哥论道李鹏涛，行业知名AI技术专家，清华大学创新领军工程博士，2012年加入京东，任高级总监，领导京东核心系统的研发，2017年任居家事业部产品研发部总经理。先后荣获全球架构师峰会优秀出品人，全球软件开发大会优秀讲师，物流信息化风云人物等奖项。

总阅读68

粉丝0

内容114