【灵思导读】 开源AI的领先地位一夜之间发生变化。Kimi K2.6一登场便达到巅峰,展现出强大的“全栈交付”实力。它不仅能复刻高盛研报、亲手打造奢华官网,还能在群聊中与人类一起并肩工作。
开源模型已经能够追平甚至超越闭源领域的三家巨头,这件事已成为现实。
4月20日深夜,Kimi K2.6正式发布并开源。
• HLE「人类最后的考试」得分54.0,超过了GPT-5.4与Claude Opus 4.6
• SWE-Bench Pro软件工程实战拿下58.6分,高于GPT-5.4的57.7分
• Terminal-Bench终端编码成绩为66.5分,而GPT-5.4仅为60.4分
• 在Artificial Analysis评测中,直接登顶全球开源模型第一名
不过今天我们暂时不看跑分,只聚焦一个问题:K2.6究竟能完成哪些实际工作。
代码写完,设计也一同交付
首先,让K2.6 Agent为一个名为ORBITAL的近地轨道旅行公司制作官网,并加入太空舱座位选择及航班预订功能。
页面打开的瞬间,商业航天的高端质感扑面而来。
全屏视频背景呈现的是太空舱窗口视角,地球弧形边缘缓缓转动,大气层边界泛出蓝光。
右下角的飞行数据面板用等宽字体列出了关键参数,左上角的荧光青色小圆点缓慢地明灭闪烁,模拟出系统在线的状态。
向下滑动,是一段由垂直时间线驱动的飞行过程叙述。
从T-60:00在樟宜航天港换上定制加压服,到T+03:00推进阶段承受过载,再到T+08:00进入零重力状态,直至T+92:00 Touchdown太空舱溅落海面,回收潜水员围拢过来。每个阶段都配有一个橙色关键数据和AI生成的场景示意图。
仅需一段提示词、一次生成,从品牌视觉系统到可交互的舱位SVG图,全部一次完成。
K2.6 Agent产出的不只是美观的前端页面,而是能够全栈交付。
后台的航班预订系统是真实可运行的。选择日期、挑选座位、填写乘客信息,预订数据会进行持久化存储,每趟航班限6个座位,满员后自动锁定。
这个网站并非一个“仅供观赏”的空壳,而是带有完整后端逻辑的实体。
换个主题试试。
使用相同的提示词结构,K2.6 Agent又生成了深海探索研究机构「THALASSA」的官网。
首页画面从北大西洋海面垂直下沉进入水中,穿过水面的瞬间画面一分为二,蓝色由浅入深渐变,远处墨蓝色中闪烁着两点暖黄色的潜水器灯光。
三台潜水器的参数卡片精确到了推进方式与观察窗尺寸,6种深海生物各占一屏。田野笔记区有三篇文章,分别署名首席科学家、海洋生物学家和纪录片导演。
而在奢侈香水品牌ÆTHER的官网上,K2.6 Agent将“极致美学”的掌控力展现得最为彻底。
只见一支琥珀色香水瓶置于大理石台面上,瓶内液体缓慢旋转,光线穿过玻璃投射出焦散纹理。
「ÆTHER」五个字母采用Cormorant Garamond衬线体,叠印在瓶身上。La Collection区域展示5款香水,可拖拽切换。
5款香水、5套完整的香调金字塔、5句手写风格文案、5张各不相同的瓶身图。
这些网站能达到如此水准,背后依靠的是K2.6模型加上Kimi Agent模式harness的实力,表现超过了Google AI Studio中的Gemini 3.1 Pro。
最终产出的是可以直接用于项目的React组件及HTML/CSS代码,包含了动画关键帧、悬停状态、滚动触发动效,甚至拖拽界面和多步表单,与静态Mockup完全不同。
前端编码的审美能力是Kimi从K2.5版本就开始发力的方向,到了K2.6又达到了新高度。如果没猜错,这大概就是杨植麟在2025年底内部信中提到的agent产品taste之一吧?
300个Agent,4000步操作,一次性交付
拥有1T级别的庞大参数,每个token只激活32B的开源MoE架构,从384个专家中选取8个进行激活。
连续编码13小时不间断,单次修改代码超过4000行。
在内部实测中,它自主重构了一个拥有8年历史的金融撮合引擎,峰值吞吐量提升了133%。
有了这样的基础,Agent集群才有了真正的用武之地。
长程编码解决的是“一个人能持续工作多久”的问题,而Agent集群则要回答“一支团队能做多大的事”。
K2.5时代是100个子Agent、1500步操作。K2.6直接提升到了300个子Agent、4000步操作。
不同技能特长的Agent互相协作,一次运行就能交付从文档到网页、从PPT到表格的全套成果。
过去交给Kimi一个复杂任务,它只能自己从头做到尾,遇到不擅长的环节就容易卡住。现在它会自己拆解任务、组建团队、分头行动,每个子Agent专注于自己擅长的部分,最后汇总交付。
Claw Bench的内部测试结果显示,K2.6在无需人工干预的长时间自主运行场景中,提升尤为显著。
在自主Agent场景里,K2.6与OpenClaw、Hermes Agent配合,可以持续自主运行长达5天。
这个“集群”到底能做什么?我们进行了三轮测试。
30个Agent书写30座城市的凌晨四点
首先,让Agent们变身为30座城市里,在凌晨四点依然醒着的一个人。
拉各斯的发电机维修工、孟买的送报员、里约的沙滩清洁工、新加坡的港口调度员、旧金山的程序员、马尼拉呼叫中心的夜班接线员……
每人写一段200字以内的第一人称片段,只描写动作和感官,禁止出现“孤独”、“寂寞”这类直白的情感词汇。
这类任务的难点不在于单篇文字本身,而在于30篇之间不能出现雷同。
拉各斯维修工写的是「柴油滴在指关节上,油膜裹住皮肤的纹理,滑腻的触感像涂了一层冷蜡。我握紧扳手,将十六毫米套筒扣住螺栓,顺时针拧动,金属与金属碰撞出咔哒咔哒的咬合声」。
旧金山程序员写的是「Cherry青轴的咔哒声在黑暗里格外脆。食指敲下回车,蓝光从屏幕扑到脸上,眼皮被刺得一紧」。
马尼拉接线员写的是「隔断板上女儿的相片边角翘起来了,我用小拇指把它按平,胶纸的粘性不够了」。
感官锚点没有一处重复,每页的背景图也是匹配生成的。30张图有30种不同氛围,视觉风格统一在深夜的暗色调里。
Skill × Agent集群,复刻高盛研报
Agent集群负责执行任务,但“按什么标准执行”还需要一个东西来定义。
Kimi Agent的技能(Skill)就是为此而设的。
系统内置了上百个官方推荐的技能包,用户也可以自行创建,输入斜杠「/」即可调用。
把两者叠加起来会怎样?
我们上传一份高盛的研究报告,让Kimi K2.6分析其架构和语言风格,并据此总结生成一个Skill。
做好之后,就可以直接调用这个名为goldman-research-report的最新技能,让Kimi K2.6制作一份类似的调研报告:
主题为2026年硅谷AI竞争格局,需要提及Anthropic、OpenAI、谷歌、xAI、Meta。
命令一发出,大批Agent全部上线,每个人分工明确。
例如,纳什负责OpenAI,唐墨负责Anthropic,逸飞负责谷歌,莉香负责xAI,胡博士负责Meta……
随后,这些Agent团队分别推进各自子任务的报告,每完成一份,都会主动汇报进度。
调研完成后,进入交叉验证阶段,确认素材的事实准确性后,交由「高盛报告撰写员Agent」再次分配任务。
最终,得到了一份内容非常详实,且1:1复刻「高盛风格」的硅谷局势分析Word版报告。
一次产出三件套,跨文档数据零误差
再提高难度。
这次要求Agent集群一次性交付PDF深度报告、Excel数据底表和英文PPT这三件套,主题是全球AI基础设施竞争情报,覆盖芯片、云计算、数据中心、网络设备这四个层级的60家企业。
Agent集群运行完毕后,交付了一份76页的PDF、一份Excel底表和一套PPT。
PDF采用了摩根士丹利蓝皮书风格,内容细致到芯片架构的算力密度公式以及NVIDIA B200对比AMD MI350X的参数表格。
同样,系统也自动进行了跨文档一致性验证,五项检查全部显示绿灯通过。
60家企业的名称和数据,在PDF、Excel、PPT里每个数字都能对应得上。
这种“交付即可用于审计”的完成度,即使放在真人团队中也不一定能做到。
One More Thing
Agent集群让AI学会了自动化分工。
但下一步的问题更大:能否把人类和各种不同来源的Agent放在一个群组里,像一个真正的团队那样协作?
人类统治地球依靠的是大规模协作,单个人是打不过老虎的。
AI Agent走向实用化也在走同样的路:从个体智能到群体智能,再到人机混合智能。
Kimi团队的答案叫做「Claw群组」,目前已开启小范围内测。
用户可以接入来自任何设备、任何供应商、运行任何模型的龙虾(Agent),每个龙虾都携带各自的工具包、技能和持久化记忆。首批兼容OpenClaw,后续会加入Hermes Agent等框架。
无论部署在本地笔记本、手机还是云端,都能进入同一个协同办公群组。
K2.6在群组中担任协调者(即包工头),根据Agent的技能画像动态匹配任务。人类则扮演下达任务的甲方角色。
当某个Agent出现故障或停滞时,协调者会自动重新分配任务或生成子任务,对交付物的全生命周期进行主动管理。
Kimi自己的营销团队已经在用Claw群组运行内容生产流水线。有人教自己的虾学会了剪辑视频,有人教自己的虾调研社交媒体热门帖子,有人的虾是制作Benchmark图的高手……那为什么不把他们拉到一个群里一起干活呢?
Demo Maker、Benchmark Maker、Social Media Agent、Video Maker各司其职,K2.6做全局协调,从创意到成品实现全流程贯通。
从一个Agent做一件事,到300个Agent协作完成一套事,再到人类和Agent坐进同一个群里共同工作……进化的从来不是技术,而是“我们”的边界。
———— END ————
灵思极智旗下“极智系列”三款AI智能应用
关注后,两步置顶服务号,可第一时间收到灵思极智推文!

