Refine-POI: 基于强化学习微调的大模型用于POI推荐
Point-of-Interest, POI领域面临的核心挑战是:如何让模型在准确预测用户下一个目的地的同时,保持生成内容的灵活性和可解释性。现有的基于提示(prompt-based)的大模型方法输出灵活但准确性不足;基于监督微调(SFT)的方法性能较好但存在本质性不匹配——下一POI推荐数据并不适合监督微调,每个训练样本只有一个目标POI,无法为top-k推荐列表提供完整标签。
Refine-POI框架通过强化微调(RFT)方法解决了这一根本矛盾,设计推荐驱动的奖励机制,让大模型仅凭单个真实POI就能学会生成top-k推荐列表。该研究不仅实现了最先进的实验性能,更为强化学习与推荐系统的结合开辟了新路径,为传统方法局限性提供了突破性解决方案。
1. 基本信息
论文标题为《Refine-POI: Reinforcement Fine-Tuned Large Language Models for Next Point-of-Interest Recommendation》(Refine-POI: 基于强化学习微调的大模型用于POI推荐)。作者团队包括University of New South Wales的Peibo Li、Shuang Ao、Hao Xue、Yang Song和Flora D. Salim,University of Amsterdam的Maarten de Rijke,以及Nvidia的Johan Barthélemy和Tomasz Bednarz。
2. 研究背景
移动通信和定位技术的迅猛发展催生了基于位置的社交网络(Location-Based Social Networks, LBSNs)的爆发式增长,这类网络现已积累了海量地理信息数据。POI推荐作为LBSN数据的核心应用,通过分析用户历史签到轨迹来预测其下一个访问地点。相比传统机器学习和图神经网络方法,基于大模型的下一POI推荐系统凭借其先验地理和常识知识受到广泛关注。同时,大模型的自然语言输出特性使其特别适合交互式任务,不仅能提供推荐结果,还能生成解释性内容。
目前,基于大模型的POI推荐方法主要分为两大类:基于提示的方法和基于监督微调的方法。基于提示的方法(如LLM-Mob、LLMMove和AgentMove)直接使用预训练模型,输出效果完全取决于提示设计。这类方法普遍表现不佳,原因在于缺乏数据集的专门知识,只能利用提示中的有限信息,难以推荐未曾见过的POI。不过,这类方法保留了预训练模型的完整能力,能够输出推荐结果和其他类型的灵活内容。基于监督微调的方法(如LLM4POI、NextLocLLM和Genup)则通过微调使模型输出准确的真实标签。这类方法性能更优,因为模型在数据上经过训练,能够处理提示中未明确出现的项目。
但现有方法都存在根本性缺陷。基于提示的方法虽具备灵活性但准确性不足,基于监督微调的方法虽然准确但受制于一个基本限制:需要为所有输出内容提供真实标签。具体表现为,数据集仅提供top-1推荐,而实际应用需要top-k推荐;大模型一旦针对top-1推荐进行微调,其通用内容生成能力就会削弱,通常需要人工或其他大模型生成的真实标签才能产生推理或解释。这种不匹配问题严重制约了现有方法的实用性,亟需一种兼具两类方法优势的新框架。
3. 方法
Refine-POI框架针对现有方法的根本缺陷提出了新解决方案。传统监督微调的核心问题是强制模型输出与真实标签严格一致,但下一POI推荐任务中,每个训练样本仅含一个目标POI,无法为完整的top-k推荐列表提供真实标签。Refine-POI采用强化微调(RFT)突破了这一限制,通过设计基于规则的奖励函数,仅需检查正确答案是否包含在大模型输出中,无需强制模型输出与真实标签完全匹配。
3.1 位置感知轨迹提示
Refine-POI的首个核心组件是位置感知轨迹提示,目标是让签到轨迹数据适配大模型处理。该组件融合了长期记忆、短期记忆和位置感知POI信息。长期记忆模块通过提取历史轨迹来丰富当前轨迹信息,具体做法是将用户的完整数据 按长度比例切分为若干子段,模拟月度数据更新过程。当前轨迹推进到下一子段时,系统会更新长期记忆,将新的历史轨迹子段加入现有长期记忆。短期记忆代表待推荐用户的最新轨迹,对于轨迹 ,系统仅使用 作为短期记忆, 的最后一项作为预测目标。
位置感知POI信息的设计充分考虑了大模型的处理特点。现有人类移动性研究通常直接采用地理坐标或基于坐标的网格单元表示POI位置,但这些方法不适合大模型,原因有三:第一,地理坐标为数值型数据,要么消耗过多token,要么需要大模型采用特殊标记化方式,这都意味着额外的微调需求;第二,尽管大模型具备地图先验知识,但其预训练语料以文本为主,因此对地理坐标的敏感度天然低于具体地址;第三,基于地理坐标的网格单元剥离了坐标的语义信息,而这些语义对大模型解决问题至关重要。
3.2 推荐驱动奖励机制
Refine-POI的创新核心在于推荐驱动奖励机制的设计。将强化微调应用于POI推荐面临两大挑战:第一,通用R1类模型主要处理数学和编程任务,答案评估通常是二元的(如数学答案正误或代码可执行性),而推荐任务输出为项目列表,无法简单判断推荐列表正误,因为只有一个真实项目而非完整列表;第二,大模型容易在推荐列表中生成重复项目,监督微调后尤为明显。
为应对这两大挑战,研究提出了包含四个组件的推荐驱动奖励:列表格式奖励、倒数排名奖励、软准确性奖励和区分奖励。列表格式奖励基于传统语法格式奖励扩展而来,确保推荐列表包含指定数量的项目,采用二元奖励策略:语法正确且恰含k个项目的输出获得奖励1,否则为0,公式如下:
倒数排名奖励借鉴平均倒数排名(MRR)指标设计。由于只有单个真实项目而非完整推荐列表,系统只能检测真实项目是否出现在列表中,但可通过真实项目的排名位置评估列表质量。倒数排名奖励遵循MRR设计思路,给予等于真实项目排名倒数的奖励:
软准确性奖励在训练初期发挥重要作用,此时倒数排名奖励可能失效,因为模型仍在学习格式规范。软准确性奖励对格式错误更为宽容,当真实项目出现在答案中且语法正确时给予奖励1,否则为0:
区分奖励旨在促进模型推荐项目的多样性,通过统计推荐列表中不同项目的数量:
每个输出 的总奖励为四项奖励的加权和:
其中 为对应权重。
3.3 动态采样技术
强化微调训练中,作者观察到经常出现奖励相同的响应组现象。例如,大模型可能为某个困难数据点生成八个输出,但整组输出都错误。这种情况下策略梯度为零,会在训练中引入噪声。研究采用动态采样技术,过滤掉所有输出准确性均为0或1的数据。由于该框架以倒数排名奖励作为准确性的核心度量,系统会过滤导致输出组具有相同倒数排名奖励的数据,从而提升训练稳定性和质量。
4. 实验与发现
研究在两个公开数据集上开展了完整的实验评估:Foursquare-NYC和Foursquare-TKY。这两个数据集涵盖11个月的数据,分别来自纽约市和东京,数据源为Foursquare平台。数据预处理包括以下步骤:过滤历史访问记录少于10次的兴趣点;排除历史访问记录少于10次的用户;将用户签到记录按24小时间隔划分为多个轨迹,剔除仅包含单个签到记录的轨迹。所有签到记录按时间排序,前80%作为训练集,中间10%为验证集,最后10%为测试集。验证集和测试集必须包含训练集中的所有用户和POI,未见用户和POI将被移除。
实验采用广泛认可的评估指标:Acc@k和MRR。Acc@k衡量测试项目在top-k推荐列表中的检索比例,形式化表示为 ,其中 为指示函数,rank表示正确预测在推荐列表中的排名,数值越大性能越好。MRR@k不仅考虑测试项目是否存在,还关注其在推荐列表中的排名,定义为 。
实验结果显示,Refine-POI在NYC数据集的所有评估指标上均超越全部基线方法。具体而言,在Acc@1、Acc@5、Acc@10和MRR方面分别取得2.88%、11.62%、6.13%和15.46%的提升。在TKY数据集上,Refine-POI在Acc@1和MRR指标上实现最优性能。NYC到TKY的性能下降主要因为搜索空间更大,TKY数据集包含更多POI和用户。相比之前的监督微调模型,Refine-POI能够输出top-k推荐的同时保持竞争性能,充分验证了强化微调框架的有效性。
研究还进行了深入分析和讨论。在推理能力方面,尽管R1类模型的突破性在于推理能力(这归功于强化微调和基于结果的规则奖励),但本文的Refine-POI版本并未展现推理能力,反而倾向于直接给出答案而不提供思考过程。作者设计了两个变体进行探索:Refine-POI-len添加长度奖励,Refine-POI-guide在提示中加入指导模型推理的指令。实验发现,虽然这两个变体能生成更详细的思考过程,但性能出现下降,特别是Acc@1指标,这可能源于奖励欺骗问题。
用户冷启动分析中,Refine-POI展现了处理非活跃用户的优秀能力。研究根据训练集轨迹数量将用户分为非活跃、正常和高活跃三组,前30%为高活跃,后30%为非活跃。结果表明,Refine-POI在NYC数据集的非活跃用户群体中实现最佳性能,证明其在冷启动问题处理上的有效性。轨迹长度分析中,研究将轨迹分为短、中、长三类,结果显示Refine-POI在短轨迹和长轨迹上均优于基线方法,其在长轨迹上的显著优势体现了从丰富数据中提取insight的强大能力。
5. 结论
Refine-POI作为首个将强化微调应用于下一POI推荐任务的框架,成功解决了传统方法的根本性挑战。研究开发的位置感知轨迹提示充分发挥了大模型的地理知识优势,推荐驱动奖励机制创新性地实现了仅用单个真实项目优化top-k推荐的目标。在两个真实数据集上的广泛实验证明,该方法在top-k推荐方面达到了最先进性能,同时有效应对了冷启动问题和多种轨迹长度的挑战。

