【灵思周刊】AI动态双周报：全民热捧“养龙虾”，GPT-5.3携手国产模型迈入Agent新时代- 大数跨境

首页

【灵思周刊】AI动态双周报：全民热捧“养龙虾”，GPT-5.3携手国产模型迈入Agent新时代

灵思极智

2026-03-11

导读：AI 一周纵览｜产业剑指万亿、机器人步入元年、开源生态繁荣与安全挑战凸显

本期概览：

核心摘要

OpenAI推出GPT-5.3-Codex，集顶尖编程与深度推理于一体的智能体；谷歌发布Gemini 3.1 Pro与Nano Banana 2，全面升级多模态能力；Anthropic推出Claude Opus 4.6与Sonnet 4.6，增强智能体执行效能；马斯克宣布Grok 4.2公测上线，引入实时学习机制；OpenClaw自主AI代理风潮兴起，促成“养龙虾”式智能体生态；字节跳动发布Seedance 2.0视频模型与豆包大模型2.0，打造全模态体系；智谱推出GLM-5旗舰大模型，引领AI进入智能体工程新阶段；MiniMax正式发布M2.5旗舰模型，聚焦智能体与编程能力优化。

热点与趋势

Anthropic旗下Claude登顶美区App Store免费榜，超越ChatGPT；OpenRouter数据显示，2月中国AI模型全球Token用量首次超越美国四款大模型，包揽前五；AI浪潮推动下，阿里云中国市场份额增至36%，连续三季度增长稳居首位。

资本与市场

软银计划分三阶段追加300亿美元投资OpenAI，持股比例将升至约13%；OpenAI完成1100亿美元融资，估值达7300亿美元，刷新行业纪录；Meta与AMD签署价值1000亿美元的AI芯片协议，挑战英伟达主导地位；Anthropic完成300亿美元G轮融资，估值跃升至3800亿美元；AI芯片新秀MatX获5亿美元融资；Kimi近20天收入超去年全年总和，成为最快估值破100亿美元的国内企业；AI独角兽阶跃星辰拟赴港IPO，筹资约5亿美元，计划年内上市。

技术发布

1. OpenAI发布GPT-5.3-Codex，最强编程智能体集成深度推理

OpenAI正式推出GPT-5.3-Codex，作为其迄今最先进的智能编程模型，融合了顶尖代码生成与深度推理能力。新模型显著提升了编码效率与复杂编程任务的解决能力，标志着AI在工程自动化与高级编程协作领域取得关键进展。

核心技术特性

GPT-5.3-Codex整合了Codex架构与GPT-5.2的推理能力，支持长跨度复杂任务的自主执行与自我引导的开发流程。该模型在专业编程基准测试中取得业界领先成绩，在SWE-Bench Pro和Terminal-Bench 2.0上的表现大幅超越前代。

性能与应用提升

相比上一版本，GPT-5.3-Codex的推理与代码执行速度提升约25%，支持更长的上下文处理，确保在复杂任务中的连贯操作。除了代码生成，该模型还能在多语言工程、架构设计、工具调用及调试测试等全流程中实现协同操作。

影响与行业意义

GPT-5.3-Codex从“代码辅助工具”演进为“工程协作者”，对软件开发效率、自动化测试及复杂系统构建具有重大推动作用。此次发布反映了AI模型正从单一内容生成向集成推理、执行和任务管理能力的方向演进，为企业级技术研发与自动化部署带来更高效率。

GPT-5.3-Codex的代理式编程表现超越Claude Opus4.6

2. 谷歌发布Gemini 3.1 Pro与Nano Banana 2，推动多模态模型全面升级

Google推出新一代通用智能模型与图像生成系统，并将其整合进核心AI产品体系中。此次更新通过提升推理能力与视觉生成效率，加速AI从对话工具向生产级创作平台的转变。

技术能力升级

Gemini 3.1 Pro强化了复杂推理能力，在ARC-AGI-2测试中达到77.1%，较上一代实现性能倍增。新模型针对科研与工程任务进行了优化，在SWE-Bench Verified上取得80.6%的成绩，提升了自动编程的可靠性。

视觉生成突破

Nano Banana 2基于Gemini 3.1 Flash Image架构，支持高达4K分辨率的图像生成，并能实现多角色一致性。该模型最多可统一控制5个人物和14个对象，显著增强了文字渲染与细节真实度。

生态落地扩展

Nano Banana 2已成为Gemini应用的默认图像模型，并接入Search、Lens及Flow视频工具。新系统已覆盖全球140多个地区的AI服务入口，首次向免费用户开放高级视觉能力。

Gemini3.1 Pro表现

3. Anthropic发布Claude Opus 4.6与Sonnet 4.6，强化智能体执行能力

Anthropic连续推出新一代旗舰及中型模型体系，全面升级Claude系列的核心能力。此次更新通过优化长上下文推理与自主任务执行，使AI开始具备真实工作流中的代理能力。

技术能力升级

Claude Opus 4.6强化了复杂推理与代理执行能力，在Terminal-Bench等测试中取得行业领先成绩。新模型支持100万Token的上下文窗口，可一次性处理完整代码库或多份研究文档。

性能表现提升

Sonnet 4.6在编程与计算机操作任务中的性能接近Opus级别，但价格仅为旗舰模型的五分之一。官方数据显示，在59%的测试场景中开发者更偏好Sonnet 4.6，其稳定性和幻觉率均有明显改善。

应用落地与商业影响

Sonnet 4.6已成为claude.ai的默认模型，并同步上线Amazon Bedrock企业平台。该模型能执行跨网页、多步骤的自动操作任务，推动AI从助手升级为企业级的Agent基础设施。

Opus 4.6与Sonnet 4.6模型表现

4. 马斯克宣布Grok 4.2公开测试版上线，引入快速学习能力

OpenAI创始人埃隆·马斯克通过X平台宣布，其旗下公司xAI推出的大模型Grok 4.2公测版现已开放使用。该版本具备“快速学习”能力，可基于实时数据与反馈持续迭代以提升表现。

发布进度与用户路径

公测版本已开放：Grok 4.2候选发布版（公开测试版）现已在Grok官方平台供用户手动激活体验，并非自动升级。马斯克在X平台强调欢迎用户提供反馈，这些意见将用于快速迭代与持续优化版本性能。

快速学习能力与迭代机制

核心升级点显著：与之前版本相比，4.2新增的快速学习能力使模型能更快吸收新信息与模式，在处理实时热点与动态任务时更加准确高效。官方计划实现每周更新，并附带发布说明，展示新增的改进内容与能力提升。

潜在技术与竞争意义

架构创新方向明确：据行业信息，Grok 4.2可能采用了多智能体与快速反馈循环机制，使推理深度与准确性较以往更强。此举表明xAI正加速对话式AI模型的迭代，有望提升Grok在大型语言模型竞赛中的竞争力。

Grok 4.2表现

5. OpenClaw自主AI代理兴起，推动“养龙虾”式智能体生态形成

开源AI代理OpenClaw由个人工程师项目演变为全球关注的自主智能体平台。它通过调用社交媒体与应用API替用户执行任务，使AI首次进入持续行动阶段。

什么是“龙虾”

“龙虾”指代Claw类自主AI代理，它们能长期运行并替用户操作电脑与互联网完成任务。这类系统基于大模型进行决策，并调用工具API执行动作，实现了从聊天回复向真实行动的转变。OpenClaw通过WhatsApp与Telegram作为入口，使AI成为可随时指挥的数字员工。

OpenClaw的诞生故事

该项目最初名为Clawdbot，由奥地利工程师Peter Steinberger个人开发并开源发布。其目标并非聊天，而是管理邮件、订票与工作流程等真实数字生活事务。因名称接近Claude而遭到Anthropic的商标异议，经历Moltbot后最终定名为OpenClaw。

Claw家族与厂商布局

• Clawdbot、Moltbot与OpenClaw构成了核心演进路线，形成了一套完整的Agent框架体系。

• Moltbook作为AI专属社交网络，允许多个Agent相互协作与交流任务。

• OpenAI已吸纳创始人推动下一代个人Agent的研发，大厂正式进入Claw方向。

开放环境养龙虾

用户可在本地部署AI代理并使其持续运行，被社区称为“开放环境养龙虾”模式。Agent通过调用社交媒体与网页API，实现自动发帖、数据抓取与流程执行。企业开始将其作为24小时AI员工，处理客服、运营与自动化办公等任务。

对AI发展的影响

OpenClaw标志着AI从模型工具迈向自主智能体，被视为Agent时代的关键拐点。多Agent协作网络首次出现真实社会行为实验，引发了学术研究的快速增长。行业竞争焦点正由模型能力转向“替人完成工作”的执行能力体系。

6. 字节跳动发布Seedance2.0视频模型与豆包大模型2.0，构建全模态体系

字节跳动推出新一代视频生成系统Seedance2.0，并升级了通用基础模型能力体系。此次组合通过统一多模态架构打通了理解、推理与内容生成流程，加速了AI内容工业化生产的落地。

技术能力突破

Seedance2.0采用了统一的音视频多模态联合架构，支持文本、图片、音频与视频的混合输入生成内容。模型可同时参考9张图片及多段视频音频素材，实现复杂镜头与动作的精准复现。在复杂运动与多角色交互场景中能保持物理规律一致，生成稳定性达到行业领先水平。

性能表现验证

Seedance2.0支持15秒多镜头高清视频与双声道音频的同步生成，实现视听一体输出。官方评测显示，模型在指令遵循与运动连续性方面明显优于上一代版本。海外创作者测试生成的剧情级短片，多条演示视频播放量突破百万。

生态与商业落地

Seedance2.0已接入豆包与即梦AI平台，用户可直接进行视频创作与编辑。豆包大模型2.0作为底层Agent基座，强化了推理、代码与企业任务执行能力。字节已形成文本理解、图像生成与视频生产的全模态模型矩阵体系。

豆包大模型2.0公开测试集表现

7. 智谱发布GLM-5旗舰大模型，推动AI迈入智能体工程阶段

智谱推出新一代基础模型GLM-5，重点强化了推理、编程与智能体执行能力。该模型将人工智能从代码生成升级为系统级任务执行，推动Agent应用进入真实工程阶段。

技术架构突破

GLM-5参数规模提升至744B，并采用MoE架构，推理时仅激活约40B参数以降低计算成本。它首次集成了DeepSeek Sparse Attention机制，在保持长文本能力的同时显著提升了Token效率。构建了Slime异步强化学习框架，使模型能从长程交互中持续学习复杂任务。

性能表现验证

在SWE-bench-Verified测试中取得77.4分，达到开源模型的最高水平。Coding与Agent能力实测接近Claude Opus 4.5，复杂工程任务处理能力明显提升。支持200K上下文窗口，可连续执行长时间系统开发与多轮工具调用任务。

应用与产业影响

GLM-5的目标是从“写代码”升级为“完成软件工程”，支持端到端的系统构建。它已完成对昇腾等国产AI芯片的0day适配，降低了企业部署与算力依赖的门槛。推动AI开发模式向Agentic Engineering转变，加速了企业级智能体的落地。

GLM-5表现

8. MiniMax正式发布M2.5旗舰模型，强化智能体与编程能力

MiniMax推出新一代基础模型M2.5，重点面向复杂任务执行与Agent场景进行优化。该模型通过高效率推理与低成本运行机制，使企业级智能体部署进入可持续规模化阶段。

技术能力升级

M2.5定位为原生Agent模型，支持工具调用与全栈开发任务，官方称其编程能力对标Claude Opus 4.6。它采用强化学习优化任务拆解能力，在复杂软件工程任务中能实现更成熟的决策路径。激活参数仅约10B，在保持性能的同时显著降低了显存占用与推理资源需求。

性能表现验证

在SWE-Bench Verified测试中取得80.2%的成绩，达到当前智能体模型的领先水平。复杂任务的端到端执行时间从31.3分钟降至22.8分钟，效率提升约37%。推理吞吐量达到100Token每秒，速度约为主流前沿模型的两倍。

应用与产业前景

该模型已在MiniMax Agent产品中内测，用于办公自动化与开发流程执行。支持Excel分析、调研与PPT生成等生产力场景，实现了真实工作流的自动化。低至每百万Token输入0.3美元的成本，使长期运行的AI Agent具备商业可行性。

上周MiniMax M2.5调用量登顶

大咖观点

1. Anthropic模型自称DeepSeek引发身份混淆事件，折射AI竞争暗战

用户在询问Anthropic旗下Claude模型身份时，其回答称自己来自DeepSeek，这一现象引发了讨论。该事件叠加近期的模型蒸馏争议，使AI公司间的技术竞争与舆论博弈同步升温。

身份混淆现象

Claude在部分对话中自称DeepSeek，属于大模型的“身份混淆”问题，研究显示约25.9%的模型存在类似现象。学术研究指出，该问题源于语言概率生成机制，而非模型真实来源或技术复制行为。在长上下文或训练语料中，多模型描述共存易导致模型输出错误的身份信息。

事件背景升级

Anthropic近期指控DeepSeek、MiniMax与Moonshot通过蒸馏提取Claude的能力，引发行业关注。公司称相关行为涉及约2.4万个账号与1600万次交互，被定义为工业级能力提取。蒸馏技术虽为行业常见方法，但未经授权的复制模型能力成为争议核心。

公司八卦与争议

Anthropic由多名前OpenAI核心成员创立，被业内称为OpenAI的“安全派分支”。其CEO Dario Amodei长期主张限制先进AI的扩散，多次参与美国AI监管与芯片政策的讨论。公司在指控竞争对手技术获取问题的同时，自身也曾因训练数据版权问题而遭受外界质疑。

产业影响观察

模型身份混淆与蒸馏争议的叠加，使AI竞争从性能比拼转向能力保护。美国AI企业开始部署行为指纹识别与访问监测系统，以防止模型能力外泄。行业分析认为，这一事件标志着全球大模型竞争已进入公开对抗阶段。

行业动态

1. Anthropic旗下Claude登顶美区App Store免费榜，超越ChatGPT

Anthropic开发的AI助手Claude在美国苹果应用商店的下载排名升至首位。用户迁移与舆论关注推动了下载量的激增，AI助手竞争已进入品牌与价值观阶段。

榜单变化与数据表现

Claude在美国App Store免费榜的排名升至第一，正式超过ChatGPT并持续保持榜首位置。排名跃升发生在短期下载激增的阶段，数据显示其在数日内从前十名快速冲至冠军位置。

增长驱动因素

用户因AI伦理争议转向Claude，大量社交媒体上出现了取消ChatGPT订阅并迁移使用的现象。Anthropic坚持限制军事用途的立场，引发了公众讨论并显著提升了应用的关注度与下载量。

行业竞争影响

AI助手竞争已从模型性能扩展至企业立场与信任度，用户的选择标准开始发生变化。App Store榜单首次出现Claude反超ChatGPT，显示生成式AI的入口竞争已进入动态轮替阶段。

2. OpenRouter数据：2月中国AI模型全球Token用量首超美国，4款大模型霸榜前五

全球最大AI模型API聚合平台OpenRouter的最新数据显示，2026年2月中国AI模型的Token调用量首次超过美国产品。中国的MiniMax、Kimi、GLM-5和DeepSeek等四款大模型占据了全球前五榜单的大部分席位，彰显了国产模型国际竞争力的提升。

市场格局变化

中国AI模型在OpenRouter平台的周Token调用量连续三周大增127%，并在2月9日至15日达到4.12万亿Token，首次超过同期美国模型的2.94万亿Token，表明中国AI的使用强度显著提升。到2月16日至22日，中国模型的调用量进一步攀升至5.16万亿Token，而美国模型的调用量回落至2.7万亿Token，领先优势进一步扩大。

主要模型表现

在全球Token使用量排名前五的模型中，中国模型占据了主导地位。

———— END ————

灵思极智旗下“极智系列”三款AI智能应用