由中国互联网协会主办的2025“人工智能+”产业生态大会上,模速空间入驻企业衔远科技 CTO 张开颜以《衔远大观:基于强化学习的专家级智能体进化平台》为题,分享了他对于智能体技术创新与行业趋势的洞察,并介绍了基于强化学习的专家级智能体进化平台——衔远大观的核心技术、产品创新及应用落地。
张开颜表示,我们希望“衔远大观”成为各行各业专家级智能体的“数字风洞”,帮助企业跨越通用智能体的“实习生困境”,打造从“演示可期”迈向“实战可靠”的专家级 Agent。
通用智能体的“实习生困境”
衔远发现,解决行业长尾问题的边际成本,正在呈指数级上升。目前的通用 Agent,就像是一个名校毕业的“高智商实习生”。
⬇ ⬇ ⬇
根本原因在于:基础模型被“困”在了数学、代码和通用的文本环境中。它们从海量预训练语料中学会了专家的“台词”,却不懂业务背后的“逻辑与因果”。它们缺乏在真实业务环境中的经验学习,这也是目前通用基础模型面临的最大天花板。
“通专融合”的技术路径
通过多个阶段的 Scaling Law,大模型的通用泛化能力确实在显著提升,但专业性依然不足。反观历史上达到专家级别的专业 AI,无一不是在特定的专业场景中进行了海量的自我博弈与强化学习。当然,过去这种成本是极高的。
上海人工智能实验室主任、衔远科技创始人周伯文教授,早在三年前就预判了这一瓶颈,并提出了“通专融合”的技术路径:
1.基础模型层:
需要全新的模型架构设计,实现“知识”与“推理”的解耦。对于应用层创业公司来说,我们更关注接下来的第2和第3层。
2.融合协同层:
我们需要实现通用模型与专业知识、专业工具的深度协同推理。
3.探索进化层:
这是最关键的一层。大模型必须在环境中进行交互,通过探索和反馈不断提升专业能力。通过在大量专业环境中的经验学习,最终反哺通用能力的提升。
AI的下半场:“经验学习”
事实上,今年以来“通专融合”已不再只是衔远的预测,而是正在成为国际行业的共识。
诺奖得主 DeepMind 创始人 Demis Hassabis 在5月份明确表示,DeepMind 目前的重心全在“通用+专业”的结合上。
而强化学习之父 Rich Sutton 在4月份说得更直接:AI 发展的“上半场”是从人类标注数据中学习知识,而“下半场”则是“经验学习”。
对于智能体应用而言,现在的关键点已经从模型架构和训练算法,转移到现实世界的任务定义与评估体系重构。只有这样,才能支持专家智能体的能力进化。
衔远大观:
专家级智能体进化平台
对于上述问题,衔远科技给出的解法便是“衔远大观”。它不是一个简单的 Agent 编排工具,而是一个进化引擎。
进化公式
在这里,通用模型只提供“底座智力”。真正的壁垒,在于中间这一项——“环境”。没有环境,强化学习就没有 Reward(奖励信号),模型就无法进化。 我们不只是在写 Prompt,而是在构建一个能让 Agent “摔跟头”的虚拟世界。
重要意义
更进一步,衔远发现了一个有趣的现象:当不同智能体的训练环境叠加时,跨领域任务的强化学习不仅不会降低效率,反而能通过迁移学习,极大地促进专业能力的提升。
这正是通专融合的根本价值所在:衔远大观不仅实现了广度的平台化,更实现了深度的专业价值挖掘。
三大内核
自研“衔远大观”包含三大核心技术内核:
智能体的“模拟训练场”
衔远不仅提供一个静态的考场,还可以赋予其动态的宇宙。如果完全依赖真实历史数据,我们永远无法覆盖那些罕见但致命的“黑天鹅”场景。
✦
因此,利用程序化规则,合成出海量的、现实中极少发生的边缘案例。为了解决外部工具调用不稳定的问题,我们引入了生成式世界模型(World Model)来模拟环境反馈。
✦
更重要的是,这个环境具备“Curriculum Learning(课程学习)”能力。就像游戏设计一样,它会根据 AI 当前的水平,自适应地调整难度。AI 只有通关了简单模式,才能进入困难模式。
“接近专家水准的反馈机制”
传统的强化学习往往只提供最终结果,这对于长链条的复杂任务来说,信号过于稀疏。就像学高数,老师只告诉你期末挂科了,却不说错哪一步,学生永远学不会。
✦
“大观”引入了“过程奖励”,对于数学、物理等精确的专业领域,采用类似 DeepSeek R1 的思路,将指标映射为可验证的规则奖励;对于复杂的物理世界,用动力学公式进行程序化验证。
✦
甚至,衔远赋予了 AI “好奇心”。团队今年和清华大学首次提出了 TTRL(测试时强化学习算法),引入基于自我一致性的“内在奖励”机制。这项工作刚刚被 AI 顶会 NeurIPS 收录。
“高效强化学习引擎”
训练专家级 AI 非常消耗资源,不能只靠蛮力计算。衔远利用强化学习稀疏奖励的特性,通过 LoRA 只更新极少量参数,在保证性能同时能够实现高效训练。
✦
面对复杂的多阶段任务,采用多智能体强化学习(MARL),平衡不同模型的专业能力和推理成本。
✦
即使面对无法改动参数的闭源模型,也能通过上下文强化学习(In-Context RL),优化记忆经验库,让它在对话流中变得越来越聪明。
从智能体进化平台
到企业智能涌现平台
平台架构
行业落地
在演讲的结尾,张开颜表示,数据终将耗尽,但环境可以无限生成数据。
但衔远坚信,高质量的智能体环境,将是2026年最稀缺的资产。
来源:衔远科技

