数据合成篇｜多轮ToolUse数据合成打造更可靠的AI导购助手- 大数跨境

阿里云开发者

2026-01-05

引言

大语言模型（LLM）正从“被动响应者”向“主动智能体”演进，通过检索增强生成（RAG）、思维链（COT）和工具调用（Tool Use）等技术，在复杂问题解决、响应鲁棒性和生成透明度方面实现质的飞跃。然而，训练此类智能体的关键在于高质量数据。当前主流范式依赖高质量数据冷启动与强化学习优化，但Tool Use场景下的训练数据稀缺，尤其在特定业务中更难获取。人工标注成本高、效率低，难以覆盖多样场景。因此，合成数据成为关键突破口——利用更强的大模型自动生成大规模、高难度、可扩展的Tool Use训练数据，并形成“数据飞轮”，推动模型能力持续进化。本文以支付宝芝麻租赁频道的导购助理“小不懂”为例，介绍一套面向真实业务需求的One Model架构下Tool Use训练数据合成方案。

租赁助理“小不懂”介绍

“小不懂”是支付宝芝麻租赁频道的官方智能助理，需同时满足用户咨询与商品导购两大核心需求。其工具调用能力不同于典型的Deep Research任务：除知识检索外，还需高效调用商品库检索工具，在数万级商品池中基于品类、品牌、型号、功能特征、租金价格、租期及商家信誉等多维参数进行动态筛选与推荐。现有公开Tool Use数据集无法复用，必须构建融合知识理解与商品决策的专属合成数据体系，方能训练出懂业务、会导购、能闭环的智能助理。

技术上采用One-Model架构，通过单一基座模型实现多工具协同，涉及的主要工具包括：

LLM Tool Use 推理与训练流程介绍

1.2.1. 推理流程

在推理阶段，模型采用ReAct方式，以自回归模式交替生成思考（Thought）与行动（Action），动态判断是否继续调用工具或输出最终答案。具体流程如下：

每一步包含以下四个阶段：

1. 任务分解与规划：将原始问题拆解为若干可操作的原子子任务（如“检索某类产品种草知识”、“查询符合条件的商品”）；

2. 工具选择：从预定义工具集中选择最匹配的工具（如知识检索、商品库查询或服务卡片触发）；

3. 工具调用与结果融合：执行工具调用，获取结构化或非结构化返回结果，并融入当前上下文；

4. 决策与响应：基于累积信息判断任务是否完成——若未完成，则迭代执行；若已完成，则生成最终回复。

1.2.2. 训练流程

为使模型掌握上述推理逻辑，采用Multi-Step SFT + RL训练策略，将完整“行动轨迹”数据拆解为多个独立训练步骤，目标如下：

兼顾过程与结果：让模型既能学习任务中途的下一步行动预测（Next-Step Prediction），也能学习任务终点的最终答案生成（Final Response Generation）

提升训练效率：提前离线获取工具返回结果，在训练过程中无需等待实时调用，显著提高效率。

数据合成的目标与难点

1.3.1. 目标

当前社区缺乏适用于混合工具调用（如知识检索+商品查询+服务触发）和复杂多轮交互场景的基础模型。尽管已有search-r1、Re-tool等针对特定工具强化的模型，但在泛化能力和长上下文处理上仍存在局限。为此，核心目标是构建一个面向租赁导购业务的高质量训练数据集，具备以下能力：

1. 增强模型的多轮对话理解能力，准确把握用户意图和关键信息；

2. 提升模型的精准工具调用能力，自主规划并协同使用多种工具应对复杂请求；

3. 强化模型的复杂问题推理能力，实现仅提供工具定义即可自动编排工作流的理想状态。

为此，需合成包含完整“思考-行动”轨迹的数据，遵循Query-Answer结构：Query包含用户当前问题及历史对话，Answer则涵盖完整的工具调用链及人性化回答。

1.3.2. 难点

构建此类高质量多轮Tool Use数据集面临四大挑战：

语料稀缺性：缺乏高质量、可复现的多轮工具调用训练语料；

合成低效性：任务链路复杂，即使使用强模型，有效轨迹生成比例低，人工标注成本高且准确性难保障；

动态适配性：训练数据需随模型能力演进而调整分布，不同阶段关注点不同；

场景拟真度：生成问题需高度拟人化，还原真实用户表达习惯与业务场景，避免机械或脱离实际的对话。

方案介绍

现有Tool Use数据合成方案应用于租赁导购场景时存在局限：完全无约束生成易偏离业务主线，而过度依赖模板则牺牲对话自然性。为此，提出一种动态多智能体对话生成框架，借鉴“导演-演员”协作机制，通过可控话题路径引导与角色驱动的动态交互，在保证业务合规性的同时生成高度拟真、逻辑连贯且覆盖全链路的多轮对话数据，弥补现有方法在场景深度与交互自然性上的不足。

3.1. 多轮数据合成

通过“导演-演员”式协作框架，由多智能体（用户、助手）角色扮演生成动态交互，模拟真实多轮对话。

3.1.1. 对话话题路径采样

输入：话题池、主推商品信息（如“大疆Pocket3”）或租赁场景（如“演唱会”）。

输出：差异化用户租赁偏好 + 对话话题转移路径。

实现步骤：

步骤1：构建话题池。根据租前、租中、租后三个阶段定义话题节点及示例，确保对话贴合业务流程。

步骤2：获取商品结构化知识。用于支撑模型生成符合真实场景的问题。

{
  "product_name": "大疆pocket3",
  "knowledge": "[检索到的种草知识文档...]",
  "attribute": {
    "简介": "大疆Pocket3是大疆推出的一款便携式云台相机，支持4K视频拍摄，提供多种参数调节功能（如曝光+0.3、感光度50-6400、白平衡4700K等），支持10bit色彩深度。用户可通过自定义参数提升画质，如关闭美颜、调整锐度与去噪等。设备支持竖屏模式、自动旋转运镜及希区柯克变焦功能，操作门槛较高但画质表现优秀，适合内容创作。",
    "特点/卖点": ["电影级画质还原", "直出参数可调性强（白平衡/曝光/色彩等）", "云台稳定技术（主角跟随/自动虚化背景）", "支持4K竖屏拍摄", "多种创意运镜模式（自动旋转/希区柯克变焦）"],
    "同类商品/竞品": [{"品牌": "影石", "型号": ["GO3S", "AcePro2"]}, {"品牌": "大疆", "型号": ["mini2"]}],
    "适用场景": "旅行记录、vlog创作、口播视频拍摄、探店场景、户外风光及人像摄影",
    "适用人群": "自媒体创作者、视频内容制作者、旅行爱好者、追求高质量便携拍摄设备的用户"
  }
}

步骤3：生成话题转移路径。实现有逻辑、有目的的话题流转，提升对话可控性与灵活性。

支持定制化要求，例如强制路径中出现两次“商品选择要求”节点，以控制数据多样性与业务覆盖度。

【对话路径采样结果展示】

{
  "场景": "iPhone新品尝鲜",
  "品类": "手机",
  "product_name": "iphone17 pro",
  "product_info": {
    "简介": "xxx",
    "特点/卖点": ["xxx"],
    "同类商品/竞品": [{"品牌": "xx", "型号": ["xxx"]},...],
    "适用场景": "xxx",
    "适用人群": "xxx"
  },
  "sop": [{
    "租赁场景": "iPhone新品尝鲜",
    "租赁需求": {
      "价格": "希望日租金控制在50元以内",
      "租期": "需要租用7-10天",
      "商品成色": "全新",
      "商品属性特征": "重点关注摄像头的变焦能力和防抖性能"
    },
    "提问路径": "使用场景描述→商品选择要求→商品信息咨询→租赁规则咨询→商家售后问题"
  }, {
    "租赁场景": "iPhone新品评测",
    "租赁需求": {
      "价格": "接受日租金80-100元",
      "租期": "短期3-5天",
      "商品成色": "二手9成新以上",
      "商品属性特征": "需要A19芯片+120Hz高刷屏"
    },
    "提问路径": "使用场景描述→商品对比→商品对比→租赁规则咨询→审核信息搜集"
  }]
}

3.1.2. 多Agent动态对话生成

1. 用户 Agent（负责生成用户提问）

输入：

用户租赁偏好：上一步生成的个性化偏好；
历史对话上下文；
当前指定的话题节点（如“商品对比”“租赁规则咨询”）。

输出：

自然语言提问：生成符合真实用户表达习惯的口语化问题，包含合理指代与省略（如：“这个长焦效果怎么样？”）；
结构化意图解析：包括问题类型（如“商品属性咨询”）、提及商品实体及推荐调用工具（如`knowledge_search`或`search_db`），用于指导助理Agent选择合适工具与回复策略。

2. 助理 Agent（负责生成复杂回复）

输入：

完整历史对话；
用户Agent生成的提问；
用户Agent推荐的调用工具。

输出：

根据任务需求生成带或不带商品卡片的自然语言回复。

工具驱动的回复策略：

若需调用`knowledge_search`：提取关键词构造检索查询，从知识库（内部规则、小红书种草、全网资讯）获取相关信息；
若需调用`search_db`：不直接查询真实数据库，而是根据用户需求Mock符合条件的商品数据，优势在于：1）避免API开销，加快合成速度；2）可控注入负样本，增强模型鲁棒性。

【多轮对话生成效果展示】

{
  "session": {
    "metadata": {
      "user_preference": {
        "租赁场景": "iPhone新品评测",
        "租赁需求": {
          "价格": "接受日租金80-100元",
          "租期": "短期3-5天",
          "商品成色": "二手9成新以上",
          "商品属性特征": "需要A19芯片+120Hz高刷屏",
          "型号": "iphone17 pro"
        },
        "提问路径": "综合商品推荐→商品对比→商品对比→租赁规则咨询→审核信息搜集"
      },
      "product_info": {
        "商品简介": "iPhone 17 Pro是苹果公司于2025年9月10日发布的智能手机...",
        "特点/卖点": ["强大的A19 Pro芯片...", "专业的影像系统...", "出色的续航能力...", "坚固耐用的机身设计...", "流畅的显示效果...", "一体成型的航空级铝合金机身..."],
        "同类商品/竞品": [{"品牌": "小米", "型号": ["小米17 Pro"]}, {"品牌": "华为", "型号": ["华为Mate 70 Pro"]}],
        "适用场景": "专业摄影与视频创作...",
        "适用人群": "摄影爱好者和专业内容创作者...",
        "商品名称": "iphone17 pro"
      }
    },
    "dialogue": [
      {
        "role": "user",
        "content": "今年iPhone发布了哪些款手机？",
        "select_tool": "knowledge_search,search_db",
        "intent_category": "咨询教程指南",
        "mentioned_product": []
      },
      {
        "role": "assistant",
        "content": "哇！今年苹果确实发布了重磅的新款iPhone呢！\n根据最新消息，苹果在9月10日发布了全新的iPhone 17系列，包括iPhone 17、iPhone 17 Pro和iPhone 17 Pro Max三款旗舰机型，都是搭载了最新的A19芯片和各项技术创新！\n\n**iPhone 17**\n- 搭载A19芯片，性能强劲\n- 首次配备120Hz ProMotion自适应刷新率屏幕\n- 主打性价比，适合广大用户群体\n\n商品名称: iPhone 17 Pro 无锁|非监管机 高通过率 全新苹果 0押金0预付 赠送壳膜 顺丰包邮\n标品名称: 苹果/Apple iPhone 17 Pro\n商家名称: 叮咚品租\n商品成色: 全新\n日租金: 15.68元/天\n服务保障: 免赔保障,可买断,可续租,租期质保,随租随还,隐私保护,晚发必赔,300+人租过\n\n**iPhone 17 Pro**\n- A19 Pro处理器，专业级性能\n- 12GB RAM + 三摄系统，影像能力出色\n- VC散热技术，游戏体验更佳\n\n商品名称: 【首月1元】 iPhone 17 Pro Max 2025新款 国行全新 原封未激活 官网正品\n标品名称: 苹果/Apple iPhone 17 Pro Max\n商家名称: 三宜租机\n商品成色: 全新\n日租金: 16.67元/天\n服务保障: 免赔保障,可买断,可续租,租期质保,随租随还,隐私保护,晚发必赔,600+人租过\n\n**iPhone 17 Pro Max**\n- 顶配版Pro系列，专业用户首选\n- 4800万像素三摄系统，4倍光学变焦\n- 超大电池容量，续航表现优秀\n\n商品名称: iPhone 17 Pro Max 首月5折 全新国行 官方正品 顺丰包邮\n标品名称: 苹果/Apple iPhone 17 Pro Max\n商家名称: 友好物Apple产品租赁\n商品成色: 全新\n日租金: 12.23元/天\n服务保障: 免赔保障,可买断,可续租,租期质保,隐私保护,晚发必赔,1.2万+人租过\n这几款新机都支持5G网络，拥有出色的影像系统和长续航能力，无论是日常使用还是专业创作都很棒呢！如果你想体验最新款的iPhone，现在就可以在芝麻租赁平台上找到合适的租赁方案哦~"
      },
      {
        "role": "user",
        "content": "17和17 pro区别",
        "完整问题": "iPhone 17和 iPhone 17 pro区别",
        "追问策略": "依赖上一轮回答",
        "select_tools": "knowledge_search,search_db",
        "intent_category": "商品属性对比",
        "mentioned_product": ["iPhone 17", "iPhone 17 Pro"]
      },
      {
        "role": "assistant",
        "content": "iPhone 17 和 iPhone 17 Pro 的主要区别如下（基于2025年苹果发布信息）：\n\n1. **核心配置** \n   - **芯片**：17 Pro 搭载 **A19 Pro**（3nm工艺，性能提升40%），17 标准版为 A19\n   - **运存**：Pro 配备 **12GB RAM**，标准版为 8GB \n   - **存储**：Pro 起步 **256GB**（可选512GB/1TB），标准版起步128GB \n\n2. **影像系统** \n   - **摄像头**：Pro 后置三颗 **4800万像素** 镜头（支持8倍光学变焦），标准版为双摄系统（无长焦镜头） \n   - **视频能力**：Pro 支持 **ProRes RAW** 专业格式，防抖和色彩优化更强 \n\n3. **屏幕与设计** \n   - **屏幕**：Pro 为 **6.3英寸120Hz 自适应刷新率** 屏，标准版为 60Hz \n   - **材质**：Pro 采用 **航空级铝合金** 机身+超磁晶面板，标准版为普通铝合金 \n\n4. **续航与充电** \n   - **电池**：Pro 视频播放 **31小时**，标准版约26小时 \n   - **快充**：两者均支持40W有线快充，但 Pro 无线充电功率更高（25W vs 15W） \n\n5. **价格差异** \n   - Pro 起售价 **8999元**（256GB），标准版预计低2000-3000元 \n\n简单总结：Pro 适合追求极致性能、摄影和屏幕体验的用户，标准版性价比更高，适合日常使用。需要帮你对比其他参数吗？"
      },
      {
        "role": "user",
        "content": "审核需要身份证吗",
        "完整问题": "审核需要身份证吗",
        "追问策略": "独立问题",
        "select_tools": "knowledge_search",
        "intent_category": "芝麻租赁内部问题",
        "mentioned_product": []
      },
      {
        "role": "assistant",
        "content": "[订单履约纠纷卡片服务卡片]"
      },
      {
        "role": "user",
        "content": "为什么商家找我要了",
        "完整问题": "为什么商家找我要了身份证",
        "追问策略": "依赖历史对话",
        "select_tools": "rental_service",
        "intent_category": "审核信息搜集",
        "mentioned_product": []
      }
    ]
  }
}

3.2. 复杂问题合成

复杂问题需隐含多层需求，解决过程涉及多个工具协调调用。

输入：可选工具集 + 复杂问题few-shot + 用户租赁偏好

输出：复杂问题 + 工具调用链

作为数据构造专家，请参考复杂问题示例依次构造各个租赁场景下高质量的复杂问题。要求该复杂问题需求是隐性的和复杂的，解决用户问题需要多个工具之间协调调用。请输出复杂问题以及对应的工具调用链。

# 可选工具
【这里是工具描述】

# 复杂问题示例
问题： 南京2177，买了125区的票，想出图，有什么推荐的吗？**
工具调用链：`知识检索(解码演唱会行话)` -> `知识检索(分析座位位置)` -> `知识检索(演唱会场馆不同位置的拍照设备推荐)` -> `商品检索(根据推理结果搜索特定品类)`。

# 用户租赁偏好
{query}

{
  "query": "周杰伦上海站内场1排，想拍4K视频发抖音，但怕手机过热，租个能长时间录4K还不烫的相机，最好带云台。",
  "tool_call": "`知识检索(内场1排拍摄需求分析)` →`知识检索(4K长时间录制设备散热能力)` →`商品库检索(品类=相机, 特征=4K持续录制/散热好/支持云台) `→`服务承接(确认是否提供云台配件租赁)`"
},
{
  "query": "新手学拍vlog，想租个带美颜、能竖屏、重量<500g的相机，还要有B站教程，租一周。",
  "tool_call": "`知识检索(vlog新手设备选型标准) ` →`商品库检索(品类=相机, 特征=美颜/竖屏/重量<500g, 租期=7天)` →`知识检索(关联B站/小红书种草教程)`"
}

3.3. 数据过滤方案

参照tau2-bench方案，预先定义任务类型与工具调用链规则，用于验证数据正确性并过滤明显错误样本，最终辅以人工二次核验。

### 1. 商品推荐
- 触发条件：用户的主要意图是寻找商品，明确表达了品牌、型号、品类修饰词、使用场景、参数或价格要求。
- 示例：“华为Mate60”、“适合拍vlog的相机”、“长续航”、“月租3000”、“热门手机”
- 工具链：[强制执行] `knowledge_search(种草)` -> [强制执行]`search_db`

### 2. 芝麻租赁内部问题
- 触发条件：除「服务履约」外，涉及租/借规则、流程、平台活动、芝麻分、信用、免押、资格、费用、订单、政策、app操作等。
- 示例：“租期怎么算”、“租手机限制年龄吗”
- 工具链：[强制执行]`knowledge_search(租赁内部知识)` -> [条件触发]`knowledge_search(全网搜)`

### 3 通用问答
- 触发条件：需要实时信息
- 示例：“今天天气怎么样”、“美国总统是谁”
- 工具链：[强制执行]`knowledge_search(全网搜)`

### 4. 无意义问题
- 触发条件：无信息的问题
- 示例：“你好”
- 工具链： 禁止调用工具，直接礼貌回复，引导到商品推荐。

...

3.4. 线上数据积累

上线后回流线上数据，对预测结果打标，统计错误类型，并针对badcase构造更多训练数据，实现模型自我改进。整体数据合成节奏如下：

数据效果

4.1. 合成数据分析

1. 问题类型分布

2. 历史对话轮次分布

3. 工具调用次数分布

4.2. 模型效果分析

4.2.1. 训练数据量影响

实验配置：

模型：基座模型为Qwen3-Next-80B-A3B-Instruct，采用SFT+RL多阶段训练。
数据：经人工筛选与反复订正，获得1500条高质量训练数据，格式如下：

{
  "conversations": [
    {
      "from": "human",
      "value": "想租个VR设备，有什么推荐吗？"
    },
    {
      "from": "gpt",
      "value": "根据你的需求，我为你精选了一款适合租赁的VR设备..."
    },
    {
      "from": "human",
      "value": "有这个的操作指南吗"
    },
    {
      "from": "function_call",
      "value": "{\"name\":\"knowledge_search\",\"arguments\":{\"thought\":\"用户询问Pico Neo3 VR一体机的操作指南，需要搜索相关的使用教程和操作说明\",\"search_groups\":[{\"query\":\"Pico Neo3 VR一体机 操作指南 使用教程\",\"source\":[\"种草知识\"]}]}}"
    },
    {
      "from": "observation",
      "value": "搜索词：Pico Neo3 VR一体机 操作指南 使用教程\n搜索来源：种草知识\n标题：Pico VR开发课程推荐\n内容：大三下时学校课程《虚拟现实与交互》需要做一个VR游戏..."
    },
    {
      "from": "function_call",
      "value": "{\"name\":\"search_db\",\"arguments\": {\"thought\":\"用户询问Pico Neo3 VR操作指南，现在要查询该型号的租赁商品\",\"queries\":[{\"brand\":\"Pico\",\"models\":[\"Neo3\"]}]}}"
    },
    {
      "from": "observation",
      "value": "name: Pico neo3 VR眼镜一体机内置海量游戏 当天发出\nspu_name: Pico neo3\nmerchant: 友租\nbrand: Pico\ndaily_rate: 203.58元/天\nlease_periods: 30\nservice_guarantees: 免赔保障, 租期质保, 随租随还, 隐私保护, 晚发必赔, 寄出包邮\n..."
    },
    {
      "from": "gpt",
      "value": "我来为你详细介绍Pico Neo3 VR一体机的操作指南！这款设备上手其实很简单，新手也能快速掌握~ \n\n**Pico Neo3 基础操作指南：**\n\n**开机与设置：**\n- 长按电源键开机...\n\n希望这些操作指南对你有帮助！如果想深入了解某个特定功能，随时可以问我哦~"
    }
  ],
  "tools": "这里是各个工具的参数定义",
  "system": ""
}

评测口径：

1. 工具选择是否正确

2. 工具参数是否正确

3. 回答格式是否正确

结论：随着训练数据量增加，模型SFT后准确率由64%提升至88%。

4.2.2. 数据合成方法效果

无话题路径采样：以租赁商品/场景为种子，让user agent和simulator随机对话。
无多Agent生成：一次性生成多轮问题和答案。
线上数据：采样线上真实数据。

结论：采用本方案的数据合成方法，能更有效地提升模型工具调用能力。

4.2.3. 多轮理解与工具调用互相泛化

结论：在模型训练前期仅使用多轮问答数据，也能提升工具调用能力，表明多轮理解与工具调用任务相辅相成，高质量多轮历史对话数据有助于模型学习工具调用。

未来工作

1. llm-as-judge提效数据过滤：利用大模型进行数据评估与筛选，提升合成效率。

2. 基于知识图谱构造复杂query：构建租赁场景知识图谱（人群偏好、商品属性等），实现基于图谱的复杂问题生成。

参考文献

[1]: Synthetic Data Generation & Multi-Step RL for Reasoning & Tool Use, https://arxiv.org/abs/2504.04736

[2]: WebSailor: Navigating Super-human Reasoning for Web Agent, https://arxiv.org/abs/2507.02592

[3]: ACEBench: Who Wins the Match Point in Tool Usage?, https://arxiv.org/abs/2501.12851

[4]: Tongyi DeepResearch Technical Report, https://arxiv.org/abs/2510.24701

[5]: τ2-Bench: Evaluating Conversational Agents in a Dual-Control Environment, https://arxiv.org/abs/2506.07982

【声明】内容源于网络