【灵思分享】13小时连轴转，300个“数字员工”合力写代码！开源榜首正式换人- 大数跨境

首页

【灵思分享】13小时连轴转，300个“数字员工”合力写代码！开源榜首正式换人

灵思极智

2026-05-05

【灵思导读】开源AI的领先地位一夜之间发生变化。Kimi K2.6一登场便达到巅峰，展现出强大的“全栈交付”实力。它不仅能复刻高盛研报、亲手打造奢华官网，还能在群聊中与人类一起并肩工作。

开源模型已经能够追平甚至超越闭源领域的三家巨头，这件事已成为现实。

4月20日深夜，Kimi K2.6正式发布并开源。

• HLE「人类最后的考试」得分54.0，超过了GPT-5.4与Claude Opus 4.6

• SWE-Bench Pro软件工程实战拿下58.6分，高于GPT-5.4的57.7分

• Terminal-Bench终端编码成绩为66.5分，而GPT-5.4仅为60.4分

• 在Artificial Analysis评测中，直接登顶全球开源模型第一名

不过今天我们暂时不看跑分，只聚焦一个问题：K2.6究竟能完成哪些实际工作。

代码写完，设计也一同交付

首先，让K2.6 Agent为一个名为ORBITAL的近地轨道旅行公司制作官网，并加入太空舱座位选择及航班预订功能。

页面打开的瞬间，商业航天的高端质感扑面而来。

全屏视频背景呈现的是太空舱窗口视角，地球弧形边缘缓缓转动，大气层边界泛出蓝光。

右下角的飞行数据面板用等宽字体列出了关键参数，左上角的荧光青色小圆点缓慢地明灭闪烁，模拟出系统在线的状态。

向下滑动，是一段由垂直时间线驱动的飞行过程叙述。

从T-60:00在樟宜航天港换上定制加压服，到T+03:00推进阶段承受过载，再到T+08:00进入零重力状态，直至T+92:00 Touchdown太空舱溅落海面，回收潜水员围拢过来。每个阶段都配有一个橙色关键数据和AI生成的场景示意图。

仅需一段提示词、一次生成，从品牌视觉系统到可交互的舱位SVG图，全部一次完成。

K2.6 Agent产出的不只是美观的前端页面，而是能够全栈交付。

后台的航班预订系统是真实可运行的。选择日期、挑选座位、填写乘客信息，预订数据会进行持久化存储，每趟航班限6个座位，满员后自动锁定。

这个网站并非一个“仅供观赏”的空壳，而是带有完整后端逻辑的实体。

换个主题试试。

使用相同的提示词结构，K2.6 Agent又生成了深海探索研究机构「THALASSA」的官网。

首页画面从北大西洋海面垂直下沉进入水中，穿过水面的瞬间画面一分为二，蓝色由浅入深渐变，远处墨蓝色中闪烁着两点暖黄色的潜水器灯光。

三台潜水器的参数卡片精确到了推进方式与观察窗尺寸，6种深海生物各占一屏。田野笔记区有三篇文章，分别署名首席科学家、海洋生物学家和纪录片导演。

而在奢侈香水品牌ÆTHER的官网上，K2.6 Agent将“极致美学”的掌控力展现得最为彻底。

只见一支琥珀色香水瓶置于大理石台面上，瓶内液体缓慢旋转，光线穿过玻璃投射出焦散纹理。

「ÆTHER」五个字母采用Cormorant Garamond衬线体，叠印在瓶身上。La Collection区域展示5款香水，可拖拽切换。

5款香水、5套完整的香调金字塔、5句手写风格文案、5张各不相同的瓶身图。

这些网站能达到如此水准，背后依靠的是K2.6模型加上Kimi Agent模式harness的实力，表现超过了Google AI Studio中的Gemini 3.1 Pro。

最终产出的是可以直接用于项目的React组件及HTML/CSS代码，包含了动画关键帧、悬停状态、滚动触发动效，甚至拖拽界面和多步表单，与静态Mockup完全不同。

前端编码的审美能力是Kimi从K2.5版本就开始发力的方向，到了K2.6又达到了新高度。如果没猜错，这大概就是杨植麟在2025年底内部信中提到的agent产品taste之一吧？

300个Agent，4000步操作，一次性交付

拥有1T级别的庞大参数，每个token只激活32B的开源MoE架构，从384个专家中选取8个进行激活。

连续编码13小时不间断，单次修改代码超过4000行。

在内部实测中，它自主重构了一个拥有8年历史的金融撮合引擎，峰值吞吐量提升了133%。

有了这样的基础，Agent集群才有了真正的用武之地。

长程编码解决的是“一个人能持续工作多久”的问题，而Agent集群则要回答“一支团队能做多大的事”。

K2.5时代是100个子Agent、1500步操作。K2.6直接提升到了300个子Agent、4000步操作。

不同技能特长的Agent互相协作，一次运行就能交付从文档到网页、从PPT到表格的全套成果。

过去交给Kimi一个复杂任务，它只能自己从头做到尾，遇到不擅长的环节就容易卡住。现在它会自己拆解任务、组建团队、分头行动，每个子Agent专注于自己擅长的部分，最后汇总交付。

Claw Bench的内部测试结果显示，K2.6在无需人工干预的长时间自主运行场景中，提升尤为显著。

在自主Agent场景里，K2.6与OpenClaw、Hermes Agent配合，可以持续自主运行长达5天。

这个“集群”到底能做什么？我们进行了三轮测试。

30个Agent书写30座城市的凌晨四点

首先，让Agent们变身为30座城市里，在凌晨四点依然醒着的一个人。

拉各斯的发电机维修工、孟买的送报员、里约的沙滩清洁工、新加坡的港口调度员、旧金山的程序员、马尼拉呼叫中心的夜班接线员……

每人写一段200字以内的第一人称片段，只描写动作和感官，禁止出现“孤独”、“寂寞”这类直白的情感词汇。

这类任务的难点不在于单篇文字本身，而在于30篇之间不能出现雷同。

拉各斯维修工写的是「柴油滴在指关节上，油膜裹住皮肤的纹理，滑腻的触感像涂了一层冷蜡。我握紧扳手，将十六毫米套筒扣住螺栓，顺时针拧动，金属与金属碰撞出咔哒咔哒的咬合声」。

旧金山程序员写的是「Cherry青轴的咔哒声在黑暗里格外脆。食指敲下回车，蓝光从屏幕扑到脸上，眼皮被刺得一紧」。

马尼拉接线员写的是「隔断板上女儿的相片边角翘起来了，我用小拇指把它按平，胶纸的粘性不够了」。

感官锚点没有一处重复，每页的背景图也是匹配生成的。30张图有30种不同氛围，视觉风格统一在深夜的暗色调里。

Skill × Agent集群，复刻高盛研报

Agent集群负责执行任务，但“按什么标准执行”还需要一个东西来定义。

Kimi Agent的技能（Skill）就是为此而设的。

系统内置了上百个官方推荐的技能包，用户也可以自行创建，输入斜杠「/」即可调用。

把两者叠加起来会怎样？

我们上传一份高盛的研究报告，让Kimi K2.6分析其架构和语言风格，并据此总结生成一个Skill。

做好之后，就可以直接调用这个名为goldman-research-report的最新技能，让Kimi K2.6制作一份类似的调研报告：

主题为2026年硅谷AI竞争格局，需要提及Anthropic、OpenAI、谷歌、xAI、Meta。

命令一发出，大批Agent全部上线，每个人分工明确。

例如，纳什负责OpenAI，唐墨负责Anthropic，逸飞负责谷歌，莉香负责xAI，胡博士负责Meta……

随后，这些Agent团队分别推进各自子任务的报告，每完成一份，都会主动汇报进度。

调研完成后，进入交叉验证阶段，确认素材的事实准确性后，交由「高盛报告撰写员Agent」再次分配任务。

最终，得到了一份内容非常详实，且1:1复刻「高盛风格」的硅谷局势分析Word版报告。

一次产出三件套，跨文档数据零误差

再提高难度。

这次要求Agent集群一次性交付PDF深度报告、Excel数据底表和英文PPT这三件套，主题是全球AI基础设施竞争情报，覆盖芯片、云计算、数据中心、网络设备这四个层级的60家企业。

Agent集群运行完毕后，交付了一份76页的PDF、一份Excel底表和一套PPT。

PDF采用了摩根士丹利蓝皮书风格，内容细致到芯片架构的算力密度公式以及NVIDIA B200对比AMD MI350X的参数表格。

同样，系统也自动进行了跨文档一致性验证，五项检查全部显示绿灯通过。

60家企业的名称和数据，在PDF、Excel、PPT里每个数字都能对应得上。

这种“交付即可用于审计”的完成度，即使放在真人团队中也不一定能做到。

One More Thing

Agent集群让AI学会了自动化分工。

但下一步的问题更大：能否把人类和各种不同来源的Agent放在一个群组里，像一个真正的团队那样协作？

人类统治地球依靠的是大规模协作，单个人是打不过老虎的。

AI Agent走向实用化也在走同样的路：从个体智能到群体智能，再到人机混合智能。

Kimi团队的答案叫做「Claw群组」，目前已开启小范围内测。

用户可以接入来自任何设备、任何供应商、运行任何模型的龙虾（Agent），每个龙虾都携带各自的工具包、技能和持久化记忆。首批兼容OpenClaw，后续会加入Hermes Agent等框架。

无论部署在本地笔记本、手机还是云端，都能进入同一个协同办公群组。

K2.6在群组中担任协调者（即包工头），根据Agent的技能画像动态匹配任务。人类则扮演下达任务的甲方角色。

当某个Agent出现故障或停滞时，协调者会自动重新分配任务或生成子任务，对交付物的全生命周期进行主动管理。

Kimi自己的营销团队已经在用Claw群组运行内容生产流水线。有人教自己的虾学会了剪辑视频，有人教自己的虾调研社交媒体热门帖子，有人的虾是制作Benchmark图的高手……那为什么不把他们拉到一个群里一起干活呢？

Demo Maker、Benchmark Maker、Social Media Agent、Video Maker各司其职，K2.6做全局协调，从创意到成品实现全流程贯通。

从一个Agent做一件事，到300个Agent协作完成一套事，再到人类和Agent坐进同一个群里共同工作……进化的从来不是技术，而是“我们”的边界。

———— END ————

灵思极智旗下“极智系列”三款AI智能应用

灵思极智让AI为各行业赋能

打造[超级企业]+[超级个体]

“让人回归人的价值”！

用灵思，创极智！点击关注“灵思极智”

关注后，两步置顶服务号，可第一时间收到灵思极智推文！

【声明】内容源于网络

灵思极智

AI领域超级创造工厂，用灵思，创极智！

内容 176

粉丝 0

灵思极智 AI领域超级创造工厂，用灵思，创极智！

总阅读135

粉丝0

内容176