引言
大语言模型(LLM)正从“被动响应者”向“主动智能体”演进,通过检索增强生成(RAG)、思维链(COT)和工具调用(Tool Use)等技术,在复杂问题解决、响应鲁棒性和生成透明度方面实现质的飞跃。然而,训练此类智能体的关键在于高质量数据。当前主流范式依赖高质量数据冷启动与强化学习优化,但Tool Use场景下的训练数据稀缺,尤其在特定业务中更难获取。人工标注成本高、效率低,难以覆盖多样场景。因此,合成数据成为关键突破口——利用更强的大模型自动生成大规模、高难度、可扩展的Tool Use训练数据,并形成“数据飞轮”,推动模型能力持续进化。本文以支付宝芝麻租赁频道的导购助理“小不懂”为例,介绍一套面向真实业务需求的One Model架构下Tool Use训练数据合成方案。
租赁助理“小不懂”介绍
“小不懂”是支付宝芝麻租赁频道的官方智能助理,需同时满足用户咨询与商品导购两大核心需求。其工具调用能力不同于典型的Deep Research任务:除知识检索外,还需高效调用商品库检索工具,在数万级商品池中基于品类、品牌、型号、功能特征、租金价格、租期及商家信誉等多维参数进行动态筛选与推荐。现有公开Tool Use数据集无法复用,必须构建融合知识理解与商品决策的专属合成数据体系,方能训练出懂业务、会导购、能闭环的智能助理。
技术上采用One-Model架构,通过单一基座模型实现多工具协同,涉及的主要工具包括:
LLM Tool Use 推理与训练流程介绍
1.2.1. 推理流程
在推理阶段,模型采用ReAct方式,以自回归模式交替生成思考(Thought)与行动(Action),动态判断是否继续调用工具或输出最终答案。具体流程如下:
每一步包含以下四个阶段:
1.2.2. 训练流程
为使模型掌握上述推理逻辑,采用Multi-Step SFT + RL训练策略,将完整“行动轨迹”数据拆解为多个独立训练步骤,目标如下:
数据合成的目标与难点
1.3.1. 目标
当前社区缺乏适用于混合工具调用(如知识检索+商品查询+服务触发)和复杂多轮交互场景的基础模型。尽管已有search-r1、Re-tool等针对特定工具强化的模型,但在泛化能力和长上下文处理上仍存在局限。为此,核心目标是构建一个面向租赁导购业务的高质量训练数据集,具备以下能力:
为此,需合成包含完整“思考-行动”轨迹的数据,遵循Query-Answer结构:Query包含用户当前问题及历史对话,Answer则涵盖完整的工具调用链及人性化回答。
1.3.2. 难点
构建此类高质量多轮Tool Use数据集面临四大挑战:
相关工作
2.1. ToolUse公开评测集构建方案
- Normal数据:评估基础场景下的工具调用能力;
- Special数据:评估指令不完整或参数错误等特殊情况下的表现;
- Agent数据:通过多智能体交互模拟真实多轮对话,利用GPT-4o模拟用户角色。
其中Normal与Special数据由LLM自动构建:
- API合成:采用自演进方法构建分层API上下文树,覆盖广泛领域;
- 对话构建:从API池中采样3-6个API,简单查询用模板生成,复杂查询引入多智能体角色扮演生成动态对话。
Agent Data由专家构造:
- 场景构建:抽象真实世界场景(如移动应用、食品配送、金融服务、旅行预订),并设计对应工具集;
- 环境构建:完成工具的代码实现;
- 问题设计:预定义多轮对话规范,由领域专家迭代标注。
其数据构造流程包括:
- 定义原子任务:将复杂任务分解为最小不可再分的任务单元;
- 构建任务模板:编排原子任务形成标准化解决流程;
- 模板实例化:填充具体任务与参数,自动生成初始与目标状态,提升多样性与可验证性。
2.2. 其他数据合成方案
学术界还探索了多种面向特定挑战的数据合成技术:
- 基于Wikidata随机游走构建复杂知识子图;
- 对子图和子表采样生成初始问题与答案;
- 通过模糊化实体或时间生成高难度推理问题。
- 让工具增强的LLM自主解决问题,记录完整“行动轨迹”;
- 将长轨迹分解为子任务,并用评估模型对每步合理性打分;
- 仅保留所有步骤均合理的“高质量轨迹”,该过程性过滤被证明是最有效的质量控制手段。
方案介绍
现有Tool Use数据合成方案应用于租赁导购场景时存在局限:完全无约束生成易偏离业务主线,而过度依赖模板则牺牲对话自然性。为此,提出一种动态多智能体对话生成框架,借鉴“导演-演员”协作机制,通过可控话题路径引导与角色驱动的动态交互,在保证业务合规性的同时生成高度拟真、逻辑连贯且覆盖全链路的多轮对话数据,弥补现有方法在场景深度与交互自然性上的不足。
3.1. 多轮数据合成
通过“导演-演员”式协作框架,由多智能体(用户、助手)角色扮演生成动态交互,模拟真实多轮对话。
3.1.1. 对话话题路径采样
输入:话题池、主推商品信息(如“大疆Pocket3”)或租赁场景(如“演唱会”)。
输出:差异化用户租赁偏好 + 对话话题转移路径。
实现步骤:
-
步骤1:构建话题池。根据租前、租中、租后三个阶段定义话题节点及示例,确保对话贴合业务流程。
-
步骤2:获取商品结构化知识。用于支撑模型生成符合真实场景的问题。
{
"product_name": "大疆pocket3",
"knowledge": "[检索到的种草知识文档...]",
"attribute": {
"简介": "大疆Pocket3是大疆推出的一款便携式云台相机,支持4K视频拍摄,提供多种参数调节功能(如曝光+0.3、感光度50-6400、白平衡4700K等),支持10bit色彩深度。用户可通过自定义参数提升画质,如关闭美颜、调整锐度与去噪等。设备支持竖屏模式、自动旋转运镜及希区柯克变焦功能,操作门槛较高但画质表现优秀,适合内容创作。",
"特点/卖点": ["电影级画质还原", "直出参数可调性强(白平衡/曝光/色彩等)", "云台稳定技术(主角跟随/自动虚化背景)", "支持4K竖屏拍摄", "多种创意运镜模式(自动旋转/希区柯克变焦)"],
"同类商品/竞品": [{"品牌": "影石", "型号": ["GO3S", "AcePro2"]}, {"品牌": "大疆", "型号": ["mini2"]}],
"适用场景": "旅行记录、vlog创作、口播视频拍摄、探店场景、户外风光及人像摄影",
"适用人群": "自媒体创作者、视频内容制作者、旅行爱好者、追求高质量便携拍摄设备的用户"
}
}
-
步骤3:生成话题转移路径。实现有逻辑、有目的的话题流转,提升对话可控性与灵活性。
支持定制化要求,例如强制路径中出现两次“商品选择要求”节点,以控制数据多样性与业务覆盖度。
【对话路径采样结果展示】
{
"场景": "iPhone新品尝鲜",
"品类": "手机",
"product_name": "iphone17 pro",
"product_info": {
"简介": "xxx",
"特点/卖点": ["xxx"],
"同类商品/竞品": [{"品牌": "xx", "型号": ["xxx"]},...],
"适用场景": "xxx",
"适用人群": "xxx"
},
"sop": [{
"租赁场景": "iPhone新品尝鲜",
"租赁需求": {
"价格": "希望日租金控制在50元以内",
"租期": "需要租用7-10天",
"商品成色": "全新",
"商品属性特征": "重点关注摄像头的变焦能力和防抖性能"
},
"提问路径": "使用场景描述→商品选择要求→商品信息咨询→租赁规则咨询→商家售后问题"
}, {
"租赁场景": "iPhone新品评测",
"租赁需求": {
"价格": "接受日租金80-100元",
"租期": "短期3-5天",
"商品成色": "二手9成新以上",
"商品属性特征": "需要A19芯片+120Hz高刷屏"
},
"提问路径": "使用场景描述→商品对比→商品对比→租赁规则咨询→审核信息搜集"
}]
}
3.1.2. 多Agent动态对话生成
1. 用户 Agent(负责生成用户提问)
输入:
- 用户租赁偏好:上一步生成的个性化偏好;
- 历史对话上下文;
- 当前指定的话题节点(如“商品对比”“租赁规则咨询”)。
输出:
- 自然语言提问:生成符合真实用户表达习惯的口语化问题,包含合理指代与省略(如:“这个长焦效果怎么样?”);
- 结构化意图解析:包括问题类型(如“商品属性咨询”)、提及商品实体及推荐调用工具(如`knowledge_search`或`search_db`),用于指导助理Agent选择合适工具与回复策略。
2. 助理 Agent(负责生成复杂回复)
输入:
- 完整历史对话;
- 用户Agent生成的提问;
- 用户Agent推荐的调用工具。
输出:
- 根据任务需求生成带或不带商品卡片的自然语言回复。
工具驱动的回复策略:
- 若需调用`knowledge_search`:提取关键词构造检索查询,从知识库(内部规则、小红书种草、全网资讯)获取相关信息;
- 若需调用`search_db`:不直接查询真实数据库,而是根据用户需求Mock符合条件的商品数据,优势在于:1)避免API开销,加快合成速度;2)可控注入负样本,增强模型鲁棒性。
【多轮对话生成效果展示】
{
"session": {
"metadata": {
"user_preference": {
"租赁场景": "iPhone新品评测",
"租赁需求": {
"价格": "接受日租金80-100元",
"租期": "短期3-5天",
"商品成色": "二手9成新以上",
"商品属性特征": "需要A19芯片+120Hz高刷屏",
"型号": "iphone17 pro"
},
"提问路径": "综合商品推荐→商品对比→商品对比→租赁规则咨询→审核信息搜集"
},
"product_info": {
"商品简介": "iPhone 17 Pro是苹果公司于2025年9月10日发布的智能手机...",
"特点/卖点": ["强大的A19 Pro芯片...", "专业的影像系统...", "出色的续航能力...", "坚固耐用的机身设计...", "流畅的显示效果...", "一体成型的航空级铝合金机身..."],
"同类商品/竞品": [{"品牌": "小米", "型号": ["小米17 Pro"]}, {"品牌": "华为", "型号": ["华为Mate 70 Pro"]}],
"适用场景": "专业摄影与视频创作...",
"适用人群": "摄影爱好者和专业内容创作者...",
"商品名称": "iphone17 pro"
}
},
"dialogue": [
{
"role": "user",
"content": "今年iPhone发布了哪些款手机?",
"select_tool": "knowledge_search,search_db",
"intent_category": "咨询教程指南",
"mentioned_product": []
},
{
"role": "assistant",
"content": "哇!今年苹果确实发布了重磅的新款iPhone呢!\n根据最新消息,苹果在9月10日发布了全新的iPhone 17系列,包括iPhone 17、iPhone 17 Pro和iPhone 17 Pro Max三款旗舰机型,都是搭载了最新的A19芯片和各项技术创新!\n\n**iPhone 17**\n- 搭载A19芯片,性能强劲\n- 首次配备120Hz ProMotion自适应刷新率屏幕\n- 主打性价比,适合广大用户群体\n\n商品名称: iPhone 17 Pro 无锁|非监管机 高通过率 全新苹果 0押金0预付 赠送壳膜 顺丰包邮\n标品名称: 苹果/Apple iPhone 17 Pro\n商家名称: 叮咚品租\n商品成色: 全新\n日租金: 15.68元/天\n服务保障: 免赔保障,可买断,可续租,租期质保,随租随还,隐私保护,晚发必赔,300+人租过\n\n**iPhone 17 Pro**\n- A19 Pro处理器,专业级性能\n- 12GB RAM + 三摄系统,影像能力出色\n- VC散热技术,游戏体验更佳\n\n商品名称: 【首月1元】 iPhone 17 Pro Max 2025新款 国行全新 原封未激活 官网正品\n标品名称: 苹果/Apple iPhone 17 Pro Max\n商家名称: 三宜租机\n商品成色: 全新\n日租金: 16.67元/天\n服务保障: 免赔保障,可买断,可续租,租期质保,随租随还,隐私保护,晚发必赔,600+人租过\n\n**iPhone 17 Pro Max**\n- 顶配版Pro系列,专业用户首选\n- 4800万像素三摄系统,4倍光学变焦\n- 超大电池容量,续航表现优秀\n\n商品名称: iPhone 17 Pro Max 首月5折 全新国行 官方正品 顺丰包邮\n标品名称: 苹果/Apple iPhone 17 Pro Max\n商家名称: 友好物Apple产品租赁\n商品成色: 全新\n日租金: 12.23元/天\n服务保障: 免赔保障,可买断,可续租,租期质保,隐私保护,晚发必赔,1.2万+人租过\n这几款新机都支持5G网络,拥有出色的影像系统和长续航能力,无论是日常使用还是专业创作都很棒呢!如果你想体验最新款的iPhone,现在就可以在芝麻租赁平台上找到合适的租赁方案哦~"
},
{
"role": "user",
"content": "17和17 pro区别",
"完整问题": "iPhone 17和 iPhone 17 pro区别",
"追问策略": "依赖上一轮回答",
"select_tools": "knowledge_search,search_db",
"intent_category": "商品属性对比",
"mentioned_product": ["iPhone 17", "iPhone 17 Pro"]
},
{
"role": "assistant",
"content": "iPhone 17 和 iPhone 17 Pro 的主要区别如下(基于2025年苹果发布信息):\n\n1. **核心配置** \n - **芯片**:17 Pro 搭载 **A19 Pro**(3nm工艺,性能提升40%),17 标准版为 A19\n - **运存**:Pro 配备 **12GB RAM**,标准版为 8GB \n - **存储**:Pro 起步 **256GB**(可选512GB/1TB),标准版起步128GB \n\n2. **影像系统** \n - **摄像头**:Pro 后置三颗 **4800万像素** 镜头(支持8倍光学变焦),标准版为双摄系统(无长焦镜头) \n - **视频能力**:Pro 支持 **ProRes RAW** 专业格式,防抖和色彩优化更强 \n\n3. **屏幕与设计** \n - **屏幕**:Pro 为 **6.3英寸120Hz 自适应刷新率** 屏,标准版为 60Hz \n - **材质**:Pro 采用 **航空级铝合金** 机身+超磁晶面板,标准版为普通铝合金 \n\n4. **续航与充电** \n - **电池**:Pro 视频播放 **31小时**,标准版约26小时 \n - **快充**:两者均支持40W有线快充,但 Pro 无线充电功率更高(25W vs 15W) \n\n5. **价格差异** \n - Pro 起售价 **8999元**(256GB),标准版预计低2000-3000元 \n\n简单总结:Pro 适合追求极致性能、摄影和屏幕体验的用户,标准版性价比更高,适合日常使用。需要帮你对比其他参数吗?"
},
{
"role": "user",
"content": "审核需要身份证吗",
"完整问题": "审核需要身份证吗",
"追问策略": "独立问题",
"select_tools": "knowledge_search",
"intent_category": "芝麻租赁内部问题",
"mentioned_product": []
},
{
"role": "assistant",
"content": "[订单履约纠纷卡片服务卡片]"
},
{
"role": "user",
"content": "为什么商家找我要了",
"完整问题": "为什么商家找我要了身份证",
"追问策略": "依赖历史对话",
"select_tools": "rental_service",
"intent_category": "审核信息搜集",
"mentioned_product": []
}
]
}
}
3.2. 复杂问题合成
- 复杂问题需隐含多层需求,解决过程涉及多个工具协调调用。
输入:可选工具集 + 复杂问题few-shot + 用户租赁偏好
输出:复杂问题 + 工具调用链
作为数据构造专家,请参考复杂问题示例依次构造各个租赁场景下高质量的复杂问题。要求该复杂问题需求是隐性的和复杂的,解决用户问题需要多个工具之间协调调用。请输出复杂问题以及对应的工具调用链。
# 可选工具
【这里是工具描述】
# 复杂问题示例
问题: 南京2177,买了125区的票,想出图,有什么推荐的吗?**
工具调用链:`知识检索(解码演唱会行话)` -> `知识检索(分析座位位置)` -> `知识检索(演唱会场馆不同位置的拍照设备推荐)` -> `商品检索(根据推理结果搜索特定品类)`。
# 用户租赁偏好
{query}
{
"query": "周杰伦上海站内场1排,想拍4K视频发抖音,但怕手机过热,租个能长时间录4K还不烫的相机,最好带云台。",
"tool_call": "`知识检索(内场1排拍摄需求分析)` →`知识检索(4K长时间录制设备散热能力)` →`商品库检索(品类=相机, 特征=4K持续录制/散热好/支持云台) `→`服务承接(确认是否提供云台配件租赁)`"
},
{
"query": "新手学拍vlog,想租个带美颜、能竖屏、重量<500g的相机,还要有B站教程,租一周。",
"tool_call": "`知识检索(vlog新手设备选型标准) ` →`商品库检索(品类=相机, 特征=美颜/竖屏/重量<500g, 租期=7天)` →`知识检索(关联B站/小红书种草教程)`"
}
3.3. 数据过滤方案
参照tau2-bench方案,预先定义任务类型与工具调用链规则,用于验证数据正确性并过滤明显错误样本,最终辅以人工二次核验。
### 1. 商品推荐
- 触发条件:用户的主要意图是寻找商品,明确表达了品牌、型号、品类修饰词、使用场景、参数或价格要求。
- 示例:“华为Mate60”、“适合拍vlog的相机”、“长续航”、“月租3000”、“热门手机”
- 工具链:[强制执行] `knowledge_search(种草)` -> [强制执行]`search_db`
### 2. 芝麻租赁内部问题
- 触发条件:除「服务履约」外,涉及租/借规则、流程、平台活动、芝麻分、信用、免押、资格、费用、订单、政策、app操作等。
- 示例:“租期怎么算”、“租手机限制年龄吗”
- 工具链:[强制执行]`knowledge_search(租赁内部知识)` -> [条件触发]`knowledge_search(全网搜)`
### 3 通用问答
- 触发条件:需要实时信息
- 示例:“今天天气怎么样”、“美国总统是谁”
- 工具链:[强制执行]`knowledge_search(全网搜)`
### 4. 无意义问题
- 触发条件:无信息的问题
- 示例:“你好”
- 工具链: 禁止调用工具,直接礼貌回复,引导到商品推荐。
...
3.4. 线上数据积累
上线后回流线上数据,对预测结果打标,统计错误类型,并针对badcase构造更多训练数据,实现模型自我改进。整体数据合成节奏如下:
数据效果
4.1. 合成数据分析
4.2. 模型效果分析
4.2.1. 训练数据量影响
实验配置:
- 模型:基座模型为Qwen3-Next-80B-A3B-Instruct,采用SFT+RL多阶段训练。
- 数据:经人工筛选与反复订正,获得1500条高质量训练数据,格式如下:
{
"conversations": [
{
"from": "human",
"value": "想租个VR设备,有什么推荐吗?"
},
{
"from": "gpt",
"value": "根据你的需求,我为你精选了一款适合租赁的VR设备..."
},
{
"from": "human",
"value": "有这个的操作指南吗"
},
{
"from": "function_call",
"value": "{\"name\":\"knowledge_search\",\"arguments\":{\"thought\":\"用户询问Pico Neo3 VR一体机的操作指南,需要搜索相关的使用教程和操作说明\",\"search_groups\":[{\"query\":\"Pico Neo3 VR一体机 操作指南 使用教程\",\"source\":[\"种草知识\"]}]}}"
},
{
"from": "observation",
"value": "搜索词:Pico Neo3 VR一体机 操作指南 使用教程\n搜索来源:种草知识\n标题:Pico VR开发课程推荐\n内容:大三下时学校课程《虚拟现实与交互》需要做一个VR游戏..."
},
{
"from": "function_call",
"value": "{\"name\":\"search_db\",\"arguments\": {\"thought\":\"用户询问Pico Neo3 VR操作指南,现在要查询该型号的租赁商品\",\"queries\":[{\"brand\":\"Pico\",\"models\":[\"Neo3\"]}]}}"
},
{
"from": "observation",
"value": "name: Pico neo3 VR眼镜一体机内置海量游戏 当天发出\nspu_name: Pico neo3\nmerchant: 友租\nbrand: Pico\ndaily_rate: 203.58元/天\nlease_periods: 30\nservice_guarantees: 免赔保障, 租期质保, 随租随还, 隐私保护, 晚发必赔, 寄出包邮\n..."
},
{
"from": "gpt",
"value": "我来为你详细介绍Pico Neo3 VR一体机的操作指南!这款设备上手其实很简单,新手也能快速掌握~ \n\n**Pico Neo3 基础操作指南:**\n\n**开机与设置:**\n- 长按电源键开机...\n\n希望这些操作指南对你有帮助!如果想深入了解某个特定功能,随时可以问我哦~"
}
],
"tools": "这里是各个工具的参数定义",
"system": ""
}
评测口径:
结论:随着训练数据量增加,模型SFT后准确率由64%提升至88%。
4.2.2. 数据合成方法效果
- 无话题路径采样:以租赁商品/场景为种子,让user agent和simulator随机对话。
- 无多Agent生成:一次性生成多轮问题和答案。
- 线上数据:采样线上真实数据。
结论:采用本方案的数据合成方法,能更有效地提升模型工具调用能力。
4.2.3. 多轮理解与工具调用互相泛化
结论:在模型训练前期仅使用多轮问答数据,也能提升工具调用能力,表明多轮理解与工具调用任务相辅相成,高质量多轮历史对话数据有助于模型学习工具调用。
未来工作
参考文献
[1]: Synthetic Data Generation & Multi-Step RL for Reasoning & Tool Use, https://arxiv.org/abs/2504.04736
[2]: WebSailor: Navigating Super-human Reasoning for Web Agent, https://arxiv.org/abs/2507.02592
[3]: ACEBench: Who Wins the Match Point in Tool Usage?, https://arxiv.org/abs/2501.12851
[4]: Tongyi DeepResearch Technical Report, https://arxiv.org/abs/2510.24701
[5]: τ2-Bench: Evaluating Conversational Agents in a Dual-Control Environment, https://arxiv.org/abs/2506.07982

