大数跨境
0
0

数据合成篇|多轮ToolUse数据合成打造更可靠的AI导购助手

数据合成篇|多轮ToolUse数据合成打造更可靠的AI导购助手 阿里云开发者
2026-01-05
19

引言

大语言模型(LLM)正从“被动响应者”向“主动智能体”演进,通过检索增强生成(RAG)、思维链(COT)和工具调用(Tool Use)等技术,在复杂问题解决、响应鲁棒性和生成透明度方面实现质的飞跃。然而,训练此类智能体的关键在于高质量数据。当前主流范式依赖高质量数据冷启动与强化学习优化,但Tool Use场景下的训练数据稀缺,尤其在特定业务中更难获取。人工标注成本高、效率低,难以覆盖多样场景。因此,合成数据成为关键突破口——利用更强的大模型自动生成大规模、高难度、可扩展的Tool Use训练数据,并形成“数据飞轮”,推动模型能力持续进化。本文以支付宝芝麻租赁频道的导购助理“小不懂”为例,介绍一套面向真实业务需求的One Model架构下Tool Use训练数据合成方案。

租赁助理“小不懂”介绍

“小不懂”是支付宝芝麻租赁频道的官方智能助理,需同时满足用户咨询与商品导购两大核心需求。其工具调用能力不同于典型的Deep Research任务:除知识检索外,还需高效调用商品库检索工具,在数万级商品池中基于品类、品牌、型号、功能特征、租金价格、租期及商家信誉等多维参数进行动态筛选与推荐。现有公开Tool Use数据集无法复用,必须构建融合知识理解与商品决策的专属合成数据体系,方能训练出懂业务、会导购、能闭环的智能助理。

技术上采用One-Model架构,通过单一基座模型实现多工具协同,涉及的主要工具包括:

LLM Tool Use 推理与训练流程介绍

1.2.1. 推理流程

在推理阶段,模型采用ReAct方式,以自回归模式交替生成思考(Thought)与行动(Action),动态判断是否继续调用工具或输出最终答案。具体流程如下:

每一步包含以下四个阶段:

1. 任务分解与规划:将原始问题拆解为若干可操作的原子子任务(如“检索某类产品种草知识”、“查询符合条件的商品”);
2. 工具选择:从预定义工具集中选择最匹配的工具(如知识检索、商品库查询或服务卡片触发);
3. 工具调用与结果融合:执行工具调用,获取结构化或非结构化返回结果,并融入当前上下文;
4. 决策与响应:基于累积信息判断任务是否完成——若未完成,则迭代执行;若已完成,则生成最终回复。

1.2.2. 训练流程

为使模型掌握上述推理逻辑,采用Multi-Step SFT + RL训练策略,将完整“行动轨迹”数据拆解为多个独立训练步骤,目标如下:

兼顾过程与结果:让模型既能学习任务中途的下一步行动预测(Next-Step Prediction),也能学习任务终点的最终答案生成(Final Response Generation)
提升训练效率:提前离线获取工具返回结果,在训练过程中无需等待实时调用,显著提高效率。

数据合成的目标与难点

1.3.1. 目标

当前社区缺乏适用于混合工具调用(如知识检索+商品查询+服务触发)和复杂多轮交互场景的基础模型。尽管已有search-r1、Re-tool等针对特定工具强化的模型,但在泛化能力和长上下文处理上仍存在局限。为此,核心目标是构建一个面向租赁导购业务的高质量训练数据集,具备以下能力:

1. 增强模型的多轮对话理解能力,准确把握用户意图和关键信息;
2. 提升模型的精准工具调用能力,自主规划并协同使用多种工具应对复杂请求;
3. 强化模型的复杂问题推理能力,实现仅提供工具定义即可自动编排工作流的理想状态。

为此,需合成包含完整“思考-行动”轨迹的数据,遵循Query-Answer结构:Query包含用户当前问题及历史对话,Answer则涵盖完整的工具调用链及人性化回答。

1.3.2. 难点

构建此类高质量多轮Tool Use数据集面临四大挑战:

语料稀缺性:缺乏高质量、可复现的多轮工具调用训练语料;
合成低效性:任务链路复杂,即使使用强模型,有效轨迹生成比例低,人工标注成本高且准确性难保障;
动态适配性:训练数据需随模型能力演进而调整分布,不同阶段关注点不同;
场景拟真度:生成问题需高度拟人化,还原真实用户表达习惯与业务场景,避免机械或脱离实际的对话。

相关工作

2.1. ToolUse公开评测集构建方案

1. ACE-Bench将数据划分为三类以全面评估工具调用能力:
  • Normal数据:评估基础场景下的工具调用能力;
  • Special数据:评估指令不完整或参数错误等特殊情况下的表现;
  • Agent数据:通过多智能体交互模拟真实多轮对话,利用GPT-4o模拟用户角色。

其中Normal与Special数据由LLM自动构建:

  • API合成:采用自演进方法构建分层API上下文树,覆盖广泛领域;
  • 对话构建:从API池中采样3-6个API,简单查询用模板生成,复杂查询引入多智能体角色扮演生成动态对话。

Agent Data由专家构造:

  • 场景构建:抽象真实世界场景(如移动应用、食品配送、金融服务、旅行预订),并设计对应工具集;
  • 环境构建:完成工具的代码实现;
  • 问题设计:预定义多轮对话规范,由领域专家迭代标注。
Tau2-Bench同样利用多角色扮演生成对话,创新之处在于允许用户和助手共享工具与知识,更贴近真实交互场景。

其数据构造流程包括:

  • 定义原子任务:将复杂任务分解为最小不可再分的任务单元;
  • 构建任务模板:编排原子任务形成标准化解决流程;
  • 模板实例化:填充具体任务与参数,自动生成初始与目标状态,提升多样性与可验证性。

2.2. 其他数据合成方案

学术界还探索了多种面向特定挑战的数据合成技术:

1. 在query生成方面:WebSailor基于图方法构建高难度问答数据:
  • 基于Wikidata随机游走构建复杂知识子图;
  • 对子图和子表采样生成初始问题与答案;
  • 通过模糊化实体或时间生成高难度推理问题。
2. 在多步tool use轨迹生成方面:Google DeepMind提出利用更强LLM迭代生成轨迹:
  • 让工具增强的LLM自主解决问题,记录完整“行动轨迹”;
  • 将长轨迹分解为子任务,并用评估模型对每步合理性打分;
  • 仅保留所有步骤均合理的“高质量轨迹”,该过程性过滤被证明是最有效的质量控制手段。

方案介绍

现有Tool Use数据合成方案应用于租赁导购场景时存在局限:完全无约束生成易偏离业务主线,而过度依赖模板则牺牲对话自然性。为此,提出一种动态多智能体对话生成框架,借鉴“导演-演员”协作机制,通过可控话题路径引导与角色驱动的动态交互,在保证业务合规性的同时生成高度拟真、逻辑连贯且覆盖全链路的多轮对话数据,弥补现有方法在场景深度与交互自然性上的不足。

3.1. 多轮数据合成

通过“导演-演员”式协作框架,由多智能体(用户、助手)角色扮演生成动态交互,模拟真实多轮对话。

3.1.1. 对话话题路径采样

输入:话题池、主推商品信息(如“大疆Pocket3”)或租赁场景(如“演唱会”)。

输出:差异化用户租赁偏好 + 对话话题转移路径。

实现步骤

  • 步骤1:构建话题池。根据租前、租中、租后三个阶段定义话题节点及示例,确保对话贴合业务流程。
  • 步骤2:获取商品结构化知识。用于支撑模型生成符合真实场景的问题。
{
  "product_name": "大疆pocket3",
  "knowledge": "[检索到的种草知识文档...]",
  "attribute": {
    "简介": "大疆Pocket3是大疆推出的一款便携式云台相机,支持4K视频拍摄,提供多种参数调节功能(如曝光+0.3、感光度50-6400、白平衡4700K等),支持10bit色彩深度。用户可通过自定义参数提升画质,如关闭美颜、调整锐度与去噪等。设备支持竖屏模式、自动旋转运镜及希区柯克变焦功能,操作门槛较高但画质表现优秀,适合内容创作。",
    "特点/卖点": ["电影级画质还原", "直出参数可调性强(白平衡/曝光/色彩等)", "云台稳定技术(主角跟随/自动虚化背景)", "支持4K竖屏拍摄", "多种创意运镜模式(自动旋转/希区柯克变焦)"],
    "同类商品/竞品": [{"品牌": "影石", "型号": ["GO3S", "AcePro2"]}, {"品牌": "大疆", "型号": ["mini2"]}],
    "适用场景": "旅行记录、vlog创作、口播视频拍摄、探店场景、户外风光及人像摄影",
    "适用人群": "自媒体创作者、视频内容制作者、旅行爱好者、追求高质量便携拍摄设备的用户"
  }
}
  • 步骤3:生成话题转移路径。实现有逻辑、有目的的话题流转,提升对话可控性与灵活性。

支持定制化要求,例如强制路径中出现两次“商品选择要求”节点,以控制数据多样性与业务覆盖度。

【对话路径采样结果展示】

{
  "场景": "iPhone新品尝鲜",
  "品类": "手机",
  "product_name": "iphone17 pro",
  "product_info": {
    "简介": "xxx",
    "特点/卖点": ["xxx"],
    "同类商品/竞品": [{"品牌": "xx", "型号": ["xxx"]},...],
    "适用场景": "xxx",
    "适用人群": "xxx"
  },
  "sop": [{
    "租赁场景": "iPhone新品尝鲜",
    "租赁需求": {
      "价格": "希望日租金控制在50元以内",
      "租期": "需要租用7-10天",
      "商品成色": "全新",
      "商品属性特征": "重点关注摄像头的变焦能力和防抖性能"
    },
    "提问路径": "使用场景描述→商品选择要求→商品信息咨询→租赁规则咨询→商家售后问题"
  }, {
    "租赁场景": "iPhone新品评测",
    "租赁需求": {
      "价格": "接受日租金80-100元",
      "租期": "短期3-5天",
      "商品成色": "二手9成新以上",
      "商品属性特征": "需要A19芯片+120Hz高刷屏"
    },
    "提问路径": "使用场景描述→商品对比→商品对比→租赁规则咨询→审核信息搜集"
  }]
}

3.1.2. 多Agent动态对话生成

1. 用户 Agent(负责生成用户提问)

输入

  • 用户租赁偏好:上一步生成的个性化偏好;
  • 历史对话上下文;
  • 当前指定的话题节点(如“商品对比”“租赁规则咨询”)。

输出

  • 自然语言提问:生成符合真实用户表达习惯的口语化问题,包含合理指代与省略(如:“这个长焦效果怎么样?”);
  • 结构化意图解析:包括问题类型(如“商品属性咨询”)、提及商品实体及推荐调用工具(如`knowledge_search`或`search_db`),用于指导助理Agent选择合适工具与回复策略。

2. 助理 Agent(负责生成复杂回复)

输入

  • 完整历史对话;
  • 用户Agent生成的提问;
  • 用户Agent推荐的调用工具。

输出

  • 根据任务需求生成带或不带商品卡片的自然语言回复。

工具驱动的回复策略

  • 若需调用`knowledge_search`:提取关键词构造检索查询,从知识库(内部规则、小红书种草、全网资讯)获取相关信息;
  • 若需调用`search_db`:不直接查询真实数据库,而是根据用户需求Mock符合条件的商品数据,优势在于:1)避免API开销,加快合成速度;2)可控注入负样本,增强模型鲁棒性。

【多轮对话生成效果展示】

{
  "session": {
    "metadata": {
      "user_preference": {
        "租赁场景": "iPhone新品评测",
        "租赁需求": {
          "价格": "接受日租金80-100元",
          "租期": "短期3-5天",
          "商品成色": "二手9成新以上",
          "商品属性特征": "需要A19芯片+120Hz高刷屏",
          "型号": "iphone17 pro"
        },
        "提问路径": "综合商品推荐→商品对比→商品对比→租赁规则咨询→审核信息搜集"
      },
      "product_info": {
        "商品简介": "iPhone 17 Pro是苹果公司于2025年9月10日发布的智能手机...",
        "特点/卖点": ["强大的A19 Pro芯片...", "专业的影像系统...", "出色的续航能力...", "坚固耐用的机身设计...", "流畅的显示效果...", "一体成型的航空级铝合金机身..."],
        "同类商品/竞品": [{"品牌": "小米", "型号": ["小米17 Pro"]}, {"品牌": "华为", "型号": ["华为Mate 70 Pro"]}],
        "适用场景": "专业摄影与视频创作...",
        "适用人群": "摄影爱好者和专业内容创作者...",
        "商品名称": "iphone17 pro"
      }
    },
    "dialogue": [
      {
        "role": "user",
        "content": "今年iPhone发布了哪些款手机?",
        "select_tool": "knowledge_search,search_db",
        "intent_category": "咨询教程指南",
        "mentioned_product": []
      },
      {
        "role": "assistant",
        "content": "哇!今年苹果确实发布了重磅的新款iPhone呢!\n根据最新消息,苹果在9月10日发布了全新的iPhone 17系列,包括iPhone 17、iPhone 17 Pro和iPhone 17 Pro Max三款旗舰机型,都是搭载了最新的A19芯片和各项技术创新!\n\n**iPhone 17**\n- 搭载A19芯片,性能强劲\n- 首次配备120Hz ProMotion自适应刷新率屏幕\n- 主打性价比,适合广大用户群体\n\n商品名称: iPhone 17 Pro 无锁|非监管机 高通过率 全新苹果 0押金0预付 赠送壳膜 顺丰包邮\n标品名称: 苹果/Apple iPhone 17 Pro\n商家名称: 叮咚品租\n商品成色: 全新\n日租金: 15.68元/天\n服务保障: 免赔保障,可买断,可续租,租期质保,随租随还,隐私保护,晚发必赔,300+人租过\n\n**iPhone 17 Pro**\n- A19 Pro处理器,专业级性能\n- 12GB RAM + 三摄系统,影像能力出色\n- VC散热技术,游戏体验更佳\n\n商品名称: 【首月1元】 iPhone 17 Pro Max 2025新款 国行全新 原封未激活 官网正品\n标品名称: 苹果/Apple iPhone 17 Pro Max\n商家名称: 三宜租机\n商品成色: 全新\n日租金: 16.67元/天\n服务保障: 免赔保障,可买断,可续租,租期质保,随租随还,隐私保护,晚发必赔,600+人租过\n\n**iPhone 17 Pro Max**\n- 顶配版Pro系列,专业用户首选\n- 4800万像素三摄系统,4倍光学变焦\n- 超大电池容量,续航表现优秀\n\n商品名称: iPhone 17 Pro Max 首月5折 全新国行 官方正品 顺丰包邮\n标品名称: 苹果/Apple iPhone 17 Pro Max\n商家名称: 友好物Apple产品租赁\n商品成色: 全新\n日租金: 12.23元/天\n服务保障: 免赔保障,可买断,可续租,租期质保,隐私保护,晚发必赔,1.2万+人租过\n这几款新机都支持5G网络,拥有出色的影像系统和长续航能力,无论是日常使用还是专业创作都很棒呢!如果你想体验最新款的iPhone,现在就可以在芝麻租赁平台上找到合适的租赁方案哦~"
      },
      {
        "role": "user",
        "content": "17和17 pro区别",
        "完整问题": "iPhone 17和 iPhone 17 pro区别",
        "追问策略": "依赖上一轮回答",
        "select_tools": "knowledge_search,search_db",
        "intent_category": "商品属性对比",
        "mentioned_product": ["iPhone 17", "iPhone 17 Pro"]
      },
      {
        "role": "assistant",
        "content": "iPhone 17 和 iPhone 17 Pro 的主要区别如下(基于2025年苹果发布信息):\n\n1. **核心配置** \n   - **芯片**:17 Pro 搭载 **A19 Pro**(3nm工艺,性能提升40%),17 标准版为 A19\n   - **运存**:Pro 配备 **12GB RAM**,标准版为 8GB \n   - **存储**:Pro 起步 **256GB**(可选512GB/1TB),标准版起步128GB \n\n2. **影像系统** \n   - **摄像头**:Pro 后置三颗 **4800万像素** 镜头(支持8倍光学变焦),标准版为双摄系统(无长焦镜头) \n   - **视频能力**:Pro 支持 **ProRes RAW** 专业格式,防抖和色彩优化更强 \n\n3. **屏幕与设计** \n   - **屏幕**:Pro 为 **6.3英寸120Hz 自适应刷新率** 屏,标准版为 60Hz \n   - **材质**:Pro 采用 **航空级铝合金** 机身+超磁晶面板,标准版为普通铝合金 \n\n4. **续航与充电** \n   - **电池**:Pro 视频播放 **31小时**,标准版约26小时 \n   - **快充**:两者均支持40W有线快充,但 Pro 无线充电功率更高(25W vs 15W) \n\n5. **价格差异** \n   - Pro 起售价 **8999元**(256GB),标准版预计低2000-3000元 \n\n简单总结:Pro 适合追求极致性能、摄影和屏幕体验的用户,标准版性价比更高,适合日常使用。需要帮你对比其他参数吗?"
      },
      {
        "role": "user",
        "content": "审核需要身份证吗",
        "完整问题": "审核需要身份证吗",
        "追问策略": "独立问题",
        "select_tools": "knowledge_search",
        "intent_category": "芝麻租赁内部问题",
        "mentioned_product": []
      },
      {
        "role": "assistant",
        "content": "[订单履约纠纷卡片服务卡片]"
      },
      {
        "role": "user",
        "content": "为什么商家找我要了",
        "完整问题": "为什么商家找我要了身份证",
        "追问策略": "依赖历史对话",
        "select_tools": "rental_service",
        "intent_category": "审核信息搜集",
        "mentioned_product": []
      }
    ]
  }
}

3.2. 复杂问题合成

  • 复杂问题需隐含多层需求,解决过程涉及多个工具协调调用。

输入:可选工具集 + 复杂问题few-shot + 用户租赁偏好

输出:复杂问题 + 工具调用链

作为数据构造专家,请参考复杂问题示例依次构造各个租赁场景下高质量的复杂问题。要求该复杂问题需求是隐性的和复杂的,解决用户问题需要多个工具之间协调调用。请输出复杂问题以及对应的工具调用链。

# 可选工具
【这里是工具描述】

# 复杂问题示例
问题: 南京2177,买了125区的票,想出图,有什么推荐的吗?**
工具调用链:`知识检索(解码演唱会行话)` -> `知识检索(分析座位位置)` -> `知识检索(演唱会场馆不同位置的拍照设备推荐)` -> `商品检索(根据推理结果搜索特定品类)`。

# 用户租赁偏好
{query}
{
  "query": "周杰伦上海站内场1排,想拍4K视频发抖音,但怕手机过热,租个能长时间录4K还不烫的相机,最好带云台。",
  "tool_call": "`知识检索(内场1排拍摄需求分析)` →`知识检索(4K长时间录制设备散热能力)` →`商品库检索(品类=相机, 特征=4K持续录制/散热好/支持云台) `→`服务承接(确认是否提供云台配件租赁)`"
},
{
  "query": "新手学拍vlog,想租个带美颜、能竖屏、重量<500g的相机,还要有B站教程,租一周。",
  "tool_call": "`知识检索(vlog新手设备选型标准) ` →`商品库检索(品类=相机, 特征=美颜/竖屏/重量<500g, 租期=7天)` →`知识检索(关联B站/小红书种草教程)`"
}

3.3. 数据过滤方案

参照tau2-bench方案,预先定义任务类型与工具调用链规则,用于验证数据正确性并过滤明显错误样本,最终辅以人工二次核验。

### 1. 商品推荐
- 触发条件:用户的主要意图是寻找商品,明确表达了品牌、型号、品类修饰词、使用场景、参数或价格要求。
- 示例:“华为Mate60”、“适合拍vlog的相机”、“长续航”、“月租3000”、“热门手机”
- 工具链:[强制执行] `knowledge_search(种草)` -> [强制执行]`search_db`

### 2. 芝麻租赁内部问题
- 触发条件:除「服务履约」外,涉及租/借规则、流程、平台活动、芝麻分、信用、免押、资格、费用、订单、政策、app操作等。
- 示例:“租期怎么算”、“租手机限制年龄吗”
- 工具链:[强制执行]`knowledge_search(租赁内部知识)` -> [条件触发]`knowledge_search(全网搜)`

### 3 通用问答
- 触发条件:需要实时信息
- 示例:“今天天气怎么样”、“美国总统是谁”
- 工具链:[强制执行]`knowledge_search(全网搜)`

### 4. 无意义问题
- 触发条件:无信息的问题
- 示例:“你好”
- 工具链: 禁止调用工具,直接礼貌回复,引导到商品推荐。

...

3.4. 线上数据积累

上线后回流线上数据,对预测结果打标,统计错误类型,并针对badcase构造更多训练数据,实现模型自我改进。整体数据合成节奏如下:

数据效果

4.1. 合成数据分析

1. 问题类型分布
2. 历史对话轮次分布
3. 工具调用次数分布

4.2. 模型效果分析

4.2.1. 训练数据量影响

实验配置

  • 模型:基座模型为Qwen3-Next-80B-A3B-Instruct,采用SFT+RL多阶段训练。
  • 数据:经人工筛选与反复订正,获得1500条高质量训练数据,格式如下:
{
  "conversations": [
    {
      "from": "human",
      "value": "想租个VR设备,有什么推荐吗?"
    },
    {
      "from": "gpt",
      "value": "根据你的需求,我为你精选了一款适合租赁的VR设备..."
    },
    {
      "from": "human",
      "value": "有这个的操作指南吗"
    },
    {
      "from": "function_call",
      "value": "{\"name\":\"knowledge_search\",\"arguments\":{\"thought\":\"用户询问Pico Neo3 VR一体机的操作指南,需要搜索相关的使用教程和操作说明\",\"search_groups\":[{\"query\":\"Pico Neo3 VR一体机 操作指南 使用教程\",\"source\":[\"种草知识\"]}]}}"
    },
    {
      "from": "observation",
      "value": "搜索词:Pico Neo3 VR一体机 操作指南 使用教程\n搜索来源:种草知识\n标题:Pico VR开发课程推荐\n内容:大三下时学校课程《虚拟现实与交互》需要做一个VR游戏..."
    },
    {
      "from": "function_call",
      "value": "{\"name\":\"search_db\",\"arguments\": {\"thought\":\"用户询问Pico Neo3 VR操作指南,现在要查询该型号的租赁商品\",\"queries\":[{\"brand\":\"Pico\",\"models\":[\"Neo3\"]}]}}"
    },
    {
      "from": "observation",
      "value": "name: Pico neo3 VR眼镜一体机内置海量游戏 当天发出\nspu_name: Pico neo3\nmerchant: 友租\nbrand: Pico\ndaily_rate: 203.58元/天\nlease_periods: 30\nservice_guarantees: 免赔保障, 租期质保, 随租随还, 隐私保护, 晚发必赔, 寄出包邮\n..."
    },
    {
      "from": "gpt",
      "value": "我来为你详细介绍Pico Neo3 VR一体机的操作指南!这款设备上手其实很简单,新手也能快速掌握~ \n\n**Pico Neo3 基础操作指南:**\n\n**开机与设置:**\n- 长按电源键开机...\n\n希望这些操作指南对你有帮助!如果想深入了解某个特定功能,随时可以问我哦~"
    }
  ],
  "tools": "这里是各个工具的参数定义",
  "system": ""
}

评测口径

1. 工具选择是否正确
2. 工具参数是否正确
3. 回答格式是否正确

结论:随着训练数据量增加,模型SFT后准确率由64%提升至88%

4.2.2. 数据合成方法效果

  • 无话题路径采样:以租赁商品/场景为种子,让user agent和simulator随机对话。
  • 无多Agent生成:一次性生成多轮问题和答案。
  • 线上数据:采样线上真实数据。

结论:采用本方案的数据合成方法,能更有效地提升模型工具调用能力。

4.2.3. 多轮理解与工具调用互相泛化

结论:在模型训练前期仅使用多轮问答数据,也能提升工具调用能力,表明多轮理解与工具调用任务相辅相成,高质量多轮历史对话数据有助于模型学习工具调用。

未来工作

1. llm-as-judge提效数据过滤:利用大模型进行数据评估与筛选,提升合成效率。
2. 基于知识图谱构造复杂query:构建租赁场景知识图谱(人群偏好、商品属性等),实现基于图谱的复杂问题生成。

参考文献

[1]: Synthetic Data Generation & Multi-Step RL for Reasoning & Tool Use, https://arxiv.org/abs/2504.04736

[2]: WebSailor: Navigating Super-human Reasoning for Web Agent, https://arxiv.org/abs/2507.02592

[3]: ACEBench: Who Wins the Match Point in Tool Usage?, https://arxiv.org/abs/2501.12851

[4]: Tongyi DeepResearch Technical Report, https://arxiv.org/abs/2510.24701

[5]: τ2-Bench: Evaluating Conversational Agents in a Dual-Control Environment, https://arxiv.org/abs/2506.07982

【声明】内容源于网络
0
0
阿里云开发者
阿里巴巴官方技术号,关于阿里的技术创新均呈现于此。
内容 3595
粉丝 0
阿里云开发者 阿里巴巴官方技术号,关于阿里的技术创新均呈现于此。
总阅读23.2k
粉丝0
内容3.6k