智能体元年的破局与前瞻：联汇赵天成博士解码 AI Agent 的落地、瓶颈与未来

OmAI 联汇科技

2025-12-11

导读：在这场深度对话中，赵天成博士勾勒出了一幅AI Agent演进的双线图景

当 “AI Agent” 成为 2025 年科技圈的年度热词，当 “智能体元年” 的标签被行业共识，这场从技术概念到产业落地的浪潮，究竟如何破解 “演示惊艳、落地艰难” 的困局？又将在何时真正改写千行百业的工作流？

在量子位 MEET 2026 智能未来大会的圆桌论坛上，联汇科技 CEO 兼首席科学家赵天成博士，以一线视角拆解了 AI Agent 的落地价值、核心标准、技术卡点与演进方向。

以下是二人对话的完整内容，呈现行业前沿的实践与前瞻判断。

一、联汇的智能体布局：让 AI 从虚拟走向物理世界

主持人：请赵天成博士介绍一下您和联汇目前在做的 Agent 相关工作。

赵天成：大家好，我是来自联汇科技的赵天成，我们团队过去五年时间一直在做一件事情，第一，我们做信号终端侧多模态模型，第二，怎么样让我们智能体从在虚拟世界里面做 PPT、写写画画，变成走向物理世界、掌控终端设备，即所谓的物理智能体。我们现在在两个方向做了很多工作，一是怎么让多模态智能体走到本地，不一定依赖大的云端能力，可以在端侧 AIPC 上面，即使飞机上面没有网络也可以在终端很高效地处理大量多模态的数据，变成好用的智能体，可以帮你做很多事情。再往前走一步，我们做的是怎么样让可以真正执行的智能终端，比如无人机、机器人、摄像头，把他们串联起来变成智能体，这是非常有意思的问题。现在大家比较熟悉的智能体，可能是工作流，可能是查询的场景，比如我的摄像头可以发现这边起火了，可以自动通知另外一个终端，通知一个带灭火器的机器狗，它可以过来拿着灭火器把火灭了，回到家之后写一个报告给管理员，说这边发生火灾，火灾已经被扑灭了，这个问题解决了。这套流程能不能通过智能体很好地串联起来，把智能体走向物理世界？我们过去两年时间一直在这个领域里面深耕。

二、落地案例：多模态 + 执行端，让 AI 价值提升 100 倍

主持人：赵总提到终端和多模态 Agent 和杜总提到基础设施和搜索引擎，我们先从比较直接的地方切入，请您结合具体数据和观众朋友分享一下，让大家对 Agent 落地价值有更直观的感受。

赵天成：今年有两个点带来的 ROI 还是非常明显的。

第一个点是多模态，今年的确是 VLM 大幅度成熟的一年，之前大家用 ChatGPT，GPT-4 比较多，从今年到 GPT-4o 到 Gemini 3，到一些新的多模态模型出来之后，对于图像和视频的理解能力其实是质的飞跃。有了这个之后，我们智能体可以算是打开了新的窗户，之前 Agent 是一个文本的，做图片还要一个描述，再给到模型做理解，现在有了端到端模型之后直接给视频、给扫描件、给一张图片甚至混合在一起都可以直接做。有了这个之后，很多以前不敢想的场景瞬间打开。我们在多模态领域扎根很久，之前就在做很多探索，今年的确感受到建模本身的提升，多模态能力可以让我们的智能体即使在数字空间场景也可以做很多以前不可能做到的事情。

第二在执行端，以前所有 AI 可以理解视频、理解图像，最多只给你一个提醒这边发生事故赶快修复，这边有问题赶快派人去吧，现在有了执行端，不管机械臂还是什么事情到现场直接解决问题，这对于用户来说投资回报率和价值完全不在一个概念，比如以前一个终端最多付一千块钱，有了智能执行端之后愿意付十万块钱，这是一百倍的本身价值的提升，智能体核心逻辑在于结果即服务，提供的是一个结果，这个结果的价值定义了产品有多大的能力边界，一个是帮你看着提醒你赶快灭火吧，第二个是直接告诉你把火已经给你扑灭了，比人扑的更快一些，这个对客户来说价值是 100 倍的提升，这也是为什么我们非常笃定地相信 “多模态 + 执行” 是智能体在后续发展非常重要的板块和体现。

三、“好用的智能体” 标准：可进化、能替代流程

主持人：从产品视角，“好用的智能体” 关键衡量指标有哪些？

赵天成：我们从时间上来看，有两个方面是整个业界要慢慢接受和改变的，因为智能体跟以前信息化系统和纯粹软件还是不太一样的。

第一个是之前很多人说做 AI 原生的 Agent，我们发现以前软件系统有很多 UI 式、表单式结构，很多时候快速上 AI 就是把表单某些环节换成模型，这是比较方便的方式，但很多时候换汤不换药，还是原来的工作流做的事情，其实很多时候可以把一个环节彻底用 Agent 代替，这时候可能会有一些更加创新型的产品并落地应用，这样才真正能把智能体优势发挥出来，而不是受限于很条条框框的地方，只能做以前一些环节的替代。大家会接受智能体可以真正替代一个流程一个环节，真正用 AI 的方式做这个事情。

第二个 Agent 本身是可以进化的，上一代 AI 中有很多人，包括我们很多甲方客户会陷入一个算法，买 AI 就是买一个算法，需要有一个准确率、召回率，如果一开始做不到那个指标就不会验收这个事情。Agent 本身是在用的过程中，你的 Context 越来越丰富，它有记忆，你给反馈，它慢慢熟悉你流程，就会真正帮你干事情。但是现在很多场景下面用户不接受，说我就是希望一步到位，一开始就要 95% 的准确率，这就是鸡和蛋的问题，你不去用它不给它反馈，不给它 Context，不给它机会，也不可能让你上岗，这就变成了一个矛盾的事情。现在这个也在变化，慢慢越来越多人也能接受，说明大家也都用豆包、用 GPT，大家习惯了我跟它越聊越聪明，慢慢变成自己想要的数字员工，这个可进化性也是我们内部衡量智能体的非常重要的指标。假如我这个智能体做出来就是这样了，你再跟它聊它都不会有变化，那就不是好的智能体，如果通过一天、一周、一个月使用变得更加个性化了，就是好的智能体。

主持人：我想再追问一下赵总，您刚刚提到用 Agent 彻底替代某一部分工作流，或者某一部分工作场景，让你畅想一下在未来 6 个月或者一年之内，您觉得会有哪些行业或者场景率先有可能被彻底改变工作流的呢？

赵天成：假如 6 个月的时间，可能在一些失败结果没有那么灾难性的地方，是可以彻底解决的。大不了再摁一次，但是摁三次的成本，比我自己干整个过程成本可以低很多的地方，那就可以被替换掉。

四、技术卡点：物理智能体需要 “双脑架构”

主持人：除了大模型，智能体发展还有哪些关键卡点？

赵天成：我最近比较关心的是在一直看针对智能体的双脑的架构，刚才提的代码这些创新都是用大语言模型在那边做快速的处理，但是到我们这种物理场景之后，有时候你逃不掉，必须做双脑架构。什么叫双脑，比如大的语言模型给出一个指令，说无人机几点几分到这个地方去，但是在飞行过程中怎么飞，假如还是依赖云端语言模型思考的话，这个飞机可能不要飞了，每飞 5 米就要想一想再飞一下，所以必须在端侧有快速的、类似于小脑的模型做真正飞行这一块的执行，这个就跟常规的 MCP 可能还不太一样，工具调用、云端模型调了一个工具，要把飞机飞过去，其实这个工具调用不是简单做一个搜索或者做一个查询，而是驱动飞机上的小脑模型真正把飞机飞过去。这其实和目前主流智能体架构不一样，包括跟学术界研究的问题也不太一样。这里面也得有一个框架，比较方便把各种小脑和大脑集成在一起，真正形成一个指挥官和类似于行动单元的组合的形态。这个是我们近期一直在看的点，因为现在的确碰到了这样的现实问题，而且需要解决这些问题。

五、未来演进：从 “数字辅助” 到 “物理劳作”，可靠性是核心

主持人：2025 年是几乎已经被公认为 AI Agent 的元年了，但是元年之后还会有下一步新的关键的演进方向，您觉得下一步关键演进方向是什么？

赵天成：虽然 2025 年被称为智能体的元年，可能大家生活中智能体还没有那么多。今年只能算是 iPhone1 的时候，离 iPhone4 还有很多要做的事情。像我本人 C 端常用的可能平时用一个类似于豆包这样的智能体，代替我一些搜索这些工作，我觉得好像已经达到可用的级别了。但比如说下一轮融资的 PPT，让智能体去做，再好的智能体现在都做不出来，这还是需要我自己去做很多的策略工作才可以有比较好的效果。我觉得现在、眼前，即使定义非常成熟的智能体，在它的可靠性和效果上，我觉得还是有很多东西要做，这可能是基模的提升，可能是工程化的提升，可能是两位专家提的点，都需要提升，才能够真正做到、即使做 PPT 这么简单的功能达到一个全民都用的水平，这是第一个方面。

第二个方面我们自己在做的事情，我们一直相信，AI 的终极价值不止于替代数字工作，更要走向物理世界、承担部分蓝领工作。这需要攻克诸多难题，VLA、世界模型等技术都是实现这一目标的必要支撑。关于技术路径，短期内 AI 大概率会延续 “大语言模型 + 其他模型” 的组合模式，但长期来看，不排除被全新架构颠覆的可能 —— 毕竟两年前大语言模型也曾被认为 “不可能”，如今已成主流。此外，物理世界对 AI 的可靠性要求远高于数字场景：数字世界的失误最多是删文件，而物理世界的失误，如砸坏桌椅可能引发灾难性后果。因此，可靠性是智能体能否普及的核心关键。

主持人：哪个节点意味着智能体进入新发展阶段

赵天成：我觉得就是当你每天用最高频的三个 APP 里面有两个是 Agent，到那天可能就差不多了。