大数跨境
0
0

模速新产品 | 破解通用智能体“实习生困境”,“衔远大观”亮相“人工智能+”产业生态大会

模速新产品 | 破解通用智能体“实习生困境”,“衔远大观”亮相“人工智能+”产业生态大会 上海模速空间大模型创新生态社区
2025-12-09
0
导读:专家级智能体进化平台

中国互联网协会主办的2025“人工智能+”产业生态大会上,模速空间入驻企业衔远科技 CTO 张开颜以《衔远大观:基于强化学习的专家级智能体进化平台》为题,分享了他对于智能体技术创新与行业趋势的洞察,并介绍了基于强化学习的专家级智能体进化平台——衔远大观的核心技术、产品创新及应用落地。


张开颜表示,我们希望“衔远大观”成为各行各业专家级智能体的“数字风洞”,帮助企业跨越通用智能体的“实习生困境”,打造从“演示可期”迈向“实战可靠”的专家级 Agent。















通用智能体的“实习生困境”




从 ChatGPT 发布,到今年各类大模型层出不穷,搭建一个 Agent Demo 变得前所未有的简单。10分钟,就能做出一个惊艳的 Demo,但落地却数以月计,且困难重重。 


衔远发现,解决行业长尾问题的边际成本,正在呈指数级上升。目前的通用 Agent,就像是一个名校毕业的“高智商实习生”

“高智商”

基础模型预训练赋予其博学的知识,数学和代码的强化学习带来极强的逻辑推理

“实习生”

但在垂直领域的落地应用中,依然“眼高手低”,难以有效满足用户的实际需求

⬇   ⬇   ⬇

根本原因在于:基础模型被“困”在了数学、代码和通用的文本环境中。它们从海量预训练语料中学会了专家的“台词”,却不懂业务背后的“逻辑与因果”。它们缺乏在真实业务环境中的经验学习,这也是目前通用基础模型面临的最大天花板。


“通专融合”的技术路径



通过多个阶段的 Scaling Law,大模型的通用泛化能力确实在显著提升,但专业性依然不足。反观历史上达到专家级别的专业 AI,无一不是在特定的专业场景中进行了海量的自我博弈与强化学习。当然,过去这种成本是极高的。


上海人工智能实验室主任、衔远科技创始人周伯文教授,早在三年前就预判了这一瓶颈,并提出了“通专融合”的技术路径:

1.基础模型层:

需要全新的模型架构设计,实现“知识”与“推理”的解耦。对于应用层创业公司来说,我们更关注接下来的第2和第3层。

2.融合协同层:

我们需要实现通用模型与专业知识、专业工具的深度协同推理。

3.探索进化层:

这是最关键的一层。大模型必须在环境中进行交互,通过探索和反馈不断提升专业能力。通过在大量专业环境中的经验学习,最终反哺通用能力的提升。

AI的下半场:“经验学习”





事实上,今年以来“通专融合”已不再只是衔远的预测,而是正在成为国际行业的共识。

诺奖得主 DeepMind 创始人 Demis Hassabis 在5月份明确表示,DeepMind 目前的重心全在“通用+专业”的结合上。


而强化学习之父 Rich Sutton 在4月份说得更直接:AI 发展的“上半场”是从人类标注数据中学习知识,而“下半场”则是“经验学习”。


对于智能体应用而言,现在的关键点已经从模型架构和训练算法,转移到现实世界的任务定义与评估体系重构。只有这样,才能支持专家智能体的能力进化。



衔远大观:

专家级智能体进化平台



对于上述问题,衔远科技给出的解法便是“衔远大观”。它不是一个简单的 Agent 编排工具,而是一个进化引擎




进化公式





在这里,通用模型只提供“底座智力”。真正的壁垒,在于中间这一项——“环境”。没有环境,强化学习就没有 Reward(奖励信号),模型就无法进化。 我们不只是在写 Prompt,而是在构建一个能让 Agent “摔跟头”的虚拟世界。



重要意义




更进一步,衔远发现了一个有趣的现象:当不同智能体的训练环境叠加时,跨领域任务的强化学习不仅不会降低效率,反而能通过迁移学习,极大地促进专业能力的提升。


这正是通专融合的根本价值所在衔远大观不仅实现了广度的平台化,更实现了深度的专业价值挖掘。




三大内核




自研“衔远大观”包含三大核心技术内核:

01

智能体的“模拟训练场”

衔远不仅提供一个静态的考场,还可以赋予其动态的宇宙。如果完全依赖真实历史数据,我们永远无法覆盖那些罕见但致命的“黑天鹅”场景。

因此,利用程序化规则,合成出海量的、现实中极少发生的边缘案例。为了解决外部工具调用不稳定的问题,我们引入了生成式世界模型(World Model)来模拟环境反馈。

更重要的是,这个环境具备“Curriculum Learning(课程学习)”能力。就像游戏设计一样,它会根据 AI 当前的水平,自适应地调整难度。AI 只有通关了简单模式,才能进入困难模式。

02


“接近专家水准的反馈机制”

传统的强化学习往往只提供最终结果,这对于长链条的复杂任务来说,信号过于稀疏。就像学高数,老师只告诉你期末挂科了,却不说错哪一步,学生永远学不会。

“大观”引入了“过程奖励”,对于数学、物理等精确的专业领域,采用类似 DeepSeek R1 的思路,将指标映射为可验证的规则奖励;对于复杂的物理世界,用动力学公式进行程序化验证。

甚至,衔远赋予了 AI “好奇心”。团队今年和清华大学首次提出了 TTRL(测试时强化学习算法),引入基于自我一致性的“内在奖励”机制。这项工作刚刚被 AI 顶会 NeurIPS 收录。


03

“高效强化学习引擎”

训练专家级 AI 非常消耗资源,不能只靠蛮力计算。衔远利用强化学习稀疏奖励的特性,通过 LoRA 只更新极少量参数,在保证性能同时能够实现高效训练。

面对复杂的多阶段任务,采用多智能体强化学习(MARL),平衡不同模型的专业能力和推理成本。

即使面对无法改动参数的闭源模型,也能通过上下文强化学习(In-Context RL),优化记忆经验库,让它在对话流中变得越来越聪明。


高保真的环境、专家级的密集反馈、高效的进化引擎。 这就是衔远大观这台“数字风洞”的内部运作机制。


从智能体进化平台

到企业智能涌现平台



01


平台架构

基于衔远大观的进化能力,衔远进一步系统构建了三层平台:底层的数据管理、中间的进化引擎、上层的专家 Agent 管理。在应用层,我们将 Agent 分为两类:


  • 一类是 CIP,是在作战指挥室进行决策的“诸葛亮”;

  • 一类是 Syngents,是在战场上执行任务的“赵子龙”。


以前企业买 AI 是买软件,现在是买“数字员工”。衔远的平台,实际上就是这些数字员工的“入职培训中心”和“终身学习中心”。

02

行业落地

建筑行业

衔远与头部央企合作构建了“计划编制 Agent”。它既能从“经验驱动”到“模型驱动”,实现智能计划编制;又能从“事后补救”到“事前预见”,实现智能风险预警。相比人工,计划编制时间节省70%,工期延误全面受控,并为某中型企业降本3300万

生信行业

衔远与国家蛋白质科学中心合作。研发的 Agent 能提出新的科学假设,并自动进行蛋白质组学数据分析。实测显示,其分析速度比人工快10倍,且约有25–30%的自动生成假设,达到了研究生水平的原创性与合理性

供应链领域

衔远为行业头部企业构建了“国际物流多式联运路径规划 Agent”。它结合大模型对多源路况的实时感知,以及运筹学求解器(Solver)的最佳路径计算,将应急物流规划的时间从几小时缩短到了几分钟


针对价格预测任务,构建了“自动机器学习 Agent”。它能对预测模型进行多轮自动优化。相比人类算法工程师,其模型预测准确率提升了10%

在演讲的结尾,张开颜表示,数据终将耗尽,但环境可以无限生成数据


但衔远坚信,高质量的智能体环境,将是2026年最稀缺的资产


来源:衔远科技

【声明】内容源于网络
0
0
上海模速空间大模型创新生态社区
“模速空间”是全国首个大模型专业孵化和加速载体,立足徐汇滨江,基于“十百千万”目标,打造数据、算力、评测、金融、综合等功能平台,赋能各通用大模型、垂类大模型、大模型应用创新初创企业汇聚上海、引领全国、扬帆世界。
内容 597
粉丝 0
上海模速空间大模型创新生态社区 “模速空间”是全国首个大模型专业孵化和加速载体,立足徐汇滨江,基于“十百千万”目标,打造数据、算力、评测、金融、综合等功能平台,赋能各通用大模型、垂类大模型、大模型应用创新初创企业汇聚上海、引领全国、扬帆世界。
总阅读14
粉丝0
内容597