ChatBot 的 Agent 化, 现在看来,已经是明牌了。
打开 Kimi,我收到了 OK Computer 的内测邀请,这是他们刚刚推出的 Agent 模式。
据说之前给 Kimi 打赏过的用户都会收到邀请。入口就在 Kimi 中,有三次免费的使用额度,如果想进一步使用,则需要付费订阅。
是的,Kimi 也正式开启了付费体系,这是一个挺良性的循环。
我截张图,官方的介绍中是这么定义 OK Computer 的:OK Computer 的目标是通过更多轮次推理、更多工具调用、更多 Token 消耗,带来更多智能。
从中能够看到他们的思路。
这让我想起前段时间杨植麟在访谈中说的观点:
过去一年,大模型有两个关键范式:
一是 Reasoning,可以提出并验证猜想,也就是反思能力;
二是 Agent,模型通过多轮调用工具与环境,边思考边操作。
这两条路径看似不同,本质上都是让模型在推理时用更多 Token、更长推理链条或更多交互轮次,从而完成更复杂的端到端任务。
所以,K2 这款被月之暗面称为里程碑式的模型有两个核心的提升:Token 效率的优化,以及更好的 Agentic 能力。
现在,OK Computer 应该是 Kimi 团队这些理念和实践最好的物理投射。
先说下我使用 OK Computer 之后的真实感受:
1)成品率很高。我发起了十多个任务,包括网站制作、PPT 生成、数据分析,交付物整体完成度都不错,而且符合我的预期。
符合预期这点蛮重要,证明它能够充分理解最我的指令,而不至于走偏。
2)思考链路很长。能感觉到它像一个资深从业者,接到任务后会把来龙去脉都捋一遍,把该考虑的都考虑进去。
然后经过多轮推理和工具调用之后,再一步步完成任务。从上帝视角看,真的很像人执行任务的过程。
3)工具调用能力。Kimi K2 的设计逻辑本身就是模型即 Agent,它从模型层面就已经原生掌握了很多工具的使用能力,不需要再靠产品外层脚手架去拼接补丁。
这一点应该也决定了最终任务的完成质量,我认为这未来会是一个壁垒。
4)审美很好。很多 Agent 做出来的作品有一股浓浓的国企风,Kimi 的交付来还是非常赏心悦目,而且网页还适配了移动端。
好像月之暗面这家公司的一个特质就是审美很在线。记得之前 Kimi 刚发布时,设计能力也是被人津津乐道。
当然,也有一些缺点:
1)PPT 生成之后,支持在线可视化的编辑和修改。但网站生成之后,却没有对应的入口,想修改只能通过自然语言。
这一点非常不方便。对于通用 Agent 类的产品,我不知道未来 Kimi 会怎么解决类似的交互问题,毕竟,修改可能占整个创作过程的 70%。
2)没有记忆。我觉得 Agent 能变得很酷的原因就是它可以和 ChatBot 中的记忆打通。
这样就能够获取到更准确的生成结果,比如 ChatBot 知道我关心什么,在 Agent 生成网站的过程中,可以兼顾到。
不过,这部分 ChatGPT 也没做,不清楚为什么。
下面是我做出来的 AI Maker Summit 大会网站,我录了个 Gif,大家可以看下。
这个网站说实话制作难度不大,但我觉得 Kimi 做出来的审美还是更好。同样的提示词,下面是 Manus 的成品。
大家可以对照看看。我个人还是更喜欢 Kimi 的交付物。
不过,有意思的是,不清楚为什么 Kimi 和 Manus 都把大会默认时间设置为了 2024 年,而不是 2025 年。
难道和模型的语料有关系?知道的同学麻烦告诉我哈。
当我告诉 Kimi 修改年份时,它开始调用 Terminal 工具,然后运行 Linux 命令......哈哈哈哈,这不就是典型的工程师的干法嘛。
我让前端的同事看了下 OK Computer 生成的代码质量,他反馈说相当不错。
下面我再执行一个完整的命令,看看 OK Computer 完成任务的过程。我输入:
给我分析下山西太原近十年的人口走向,包括流入、流出、城镇化人口的情况。
下面是步骤还原。可以看出来,Kimi OK Computer 先是做了全局的任务规划,紧接着,基于不同的关键词开始检索相关内容。
这其实就是我之前写过的,Deep Research 和 Coding 是 Agent 的基本条件。能把这两件事做好,再谈通用 Agent 才有意义。
从整体执行的过程看,速度还是蛮快的。特别是付费之后,Token 的吞吐唰唰的。
最让我意外的还是执行任务的逻辑,确实很像一个专业的人做类似事情的流程。
看了下 Todo 的拆解,我认为如果是我干这事,也不会超出这个范畴。
最后,Kimi 给我交付了一个网页:
我让它做了一个 PPT,分析 Google 在 AI 上的布局。它的流程同样是先搜集信息,然后再逐页生成 PPT。下面是最终生成的结果。
我挺震惊的,一是分析的结构对了,从搜索到智能体时代,紧接着说 Gemini 模型矩阵,最后再是市场表现。
二是大家可以看看 PPT 的设计,简约的高级美。反正我是非常喜欢。过去见过这么多的 Agent 了,没见过哪家的产品能够做出来这么精美的 PPT。
Agent 这个话题现在大家都在聊,说实话已经不新鲜了。
Kimi 推出的 OK Computer,从时间点上也不算早,前面有 Manus、Genspark 这些玩家都已经跑了一圈。
通用 Agent 的市场,也已经很拥挤。
但为什么我觉得 Kimi 这家公司的产品还是值得重视?
一个原因是它确实奔着生产力去的。网站生成、PPT、数据分析、Deep Research,这些日常高频的场景,它都能覆盖,而且完成度不低,不是半成品糊弄过去。
更重要的是,OK Computer 能够拉长思考链路,投入更大的 token 预算,端到端完成复杂的任务。
这个能力是我最近见过的 Agent 产品中最出众的,应该和 Kimi K2 模型的优化有直接关系。
而且产出物也满足我们常见的预期:网站有完整的代码和文件结构,PPT 是可编辑的 PPTX,数据分析有对应的交互图表。
另一个原因是审美。很多 Agent 做出来的东西看着就廉价,自己都不好意思拿去交差。
Kimi 的产出至少保持了体面,你敢发给别人。审美听上去虚,但在交付环节,它往往决定了能不能直接用。
大模型行业竞争还是蛮激烈的。Kimi K2 这段时间其实已经小规模出圈,我身边很多人都在用 K2 平替 Claude 的模型。
说实话,他们在代码能力的优化方面,做得还不错。追上 Claude 肯定不至于,但也已经不差,这是我的感受。
K2 肯定是月之暗面的一个重要里程碑。OK Computer 的推出,应该是把 K2 的构想补齐了,接下来就是往更深处迭代了。
毕竟现在,所有的模型公司都已经下沉在做应用。模型即应用的判断也早已经成为共识。
听小道消息说,Kimi 这段时间付费增长还不错。很多用户还是蛮认他们的模型和产品能力的。
到现在,我对通用 Agent 的理解是,它真正服务的是专业人群。因为只有这部分人,才会在日常工作里遇到复杂任务,并且有诉诸工具的需求。
更重要的是,他们也愿意为此付费,花钱买时间。
从这个角度看,我觉得 Kimi 做这事,相比其他 Agent 产品而言,还是有很大赢面的。
一是他们能够端到端的从模型到产品进行针对性优化,K2 已经锚定 Agentic 了,想必 K3 会更进一步。
二是这个团队的审美很不错,审美这事说不清楚,但我觉得是植根在团队基因里的。生产力场景,对审美的要求也很高。
刚买了一个月会员,支持下心中的白月光。

