大数跨境

【灵思周刊】AI动态双周报:全民热捧“养龙虾”,GPT-5.3携手国产模型迈入Agent新时代

【灵思周刊】AI动态双周报:全民热捧“养龙虾”,GPT-5.3携手国产模型迈入Agent新时代 灵思极智
2026-03-11
0
导读:AI 一周纵览|产业剑指万亿、机器人步入元年、开源生态繁荣与安全挑战凸显

本期概览:

核心摘要

OpenAI推出GPT-5.3-Codex,集顶尖编程与深度推理于一体的智能体;谷歌发布Gemini 3.1 Pro与Nano Banana 2,全面升级多模态能力;Anthropic推出Claude Opus 4.6与Sonnet 4.6,增强智能体执行效能;马斯克宣布Grok 4.2公测上线,引入实时学习机制;OpenClaw自主AI代理风潮兴起,促成“养龙虾”式智能体生态;字节跳动发布Seedance 2.0视频模型与豆包大模型2.0,打造全模态体系;智谱推出GLM-5旗舰大模型,引领AI进入智能体工程新阶段;MiniMax正式发布M2.5旗舰模型,聚焦智能体与编程能力优化。

热点与趋势

Anthropic旗下Claude登顶美区App Store免费榜,超越ChatGPT;OpenRouter数据显示,2月中国AI模型全球Token用量首次超越美国四款大模型,包揽前五;AI浪潮推动下,阿里云中国市场份额增至36%,连续三季度增长稳居首位。

资本与市场

软银计划分三阶段追加300亿美元投资OpenAI,持股比例将升至约13%;OpenAI完成1100亿美元融资,估值达7300亿美元,刷新行业纪录;Meta与AMD签署价值1000亿美元的AI芯片协议,挑战英伟达主导地位;Anthropic完成300亿美元G轮融资,估值跃升至3800亿美元;AI芯片新秀MatX获5亿美元融资;Kimi近20天收入超去年全年总和,成为最快估值破100亿美元的国内企业;AI独角兽阶跃星辰拟赴港IPO,筹资约5亿美元,计划年内上市。

技术发布

1. OpenAI发布GPT-5.3-Codex,最强编程智能体集成深度推理

OpenAI正式推出GPT-5.3-Codex,作为其迄今最先进的智能编程模型,融合了顶尖代码生成与深度推理能力。新模型显著提升了编码效率与复杂编程任务的解决能力,标志着AI在工程自动化与高级编程协作领域取得关键进展。

核心技术特性

GPT-5.3-Codex整合了Codex架构与GPT-5.2的推理能力,支持长跨度复杂任务的自主执行与自我引导的开发流程。该模型在专业编程基准测试中取得业界领先成绩,在SWE-Bench Pro和Terminal-Bench 2.0上的表现大幅超越前代。

性能与应用提升

相比上一版本,GPT-5.3-Codex的推理与代码执行速度提升约25%,支持更长的上下文处理,确保在复杂任务中的连贯操作。除了代码生成,该模型还能在多语言工程、架构设计、工具调用及调试测试等全流程中实现协同操作。

影响与行业意义

GPT-5.3-Codex从“代码辅助工具”演进为“工程协作者”,对软件开发效率、自动化测试及复杂系统构建具有重大推动作用。 此次发布反映了AI模型正从单一内容生成向集成推理、执行和任务管理能力的方向演进,为企业级技术研发与自动化部署带来更高效率。

GPT-5.3-Codex的代理式编程表现超越Claude Opus4.6

2. 谷歌发布Gemini 3.1 Pro与Nano Banana 2,推动多模态模型全面升级

Google推出新一代通用智能模型与图像生成系统,并将其整合进核心AI产品体系中。此次更新通过提升推理能力与视觉生成效率,加速AI从对话工具向生产级创作平台的转变。

技术能力升级

Gemini 3.1 Pro强化了复杂推理能力,在ARC-AGI-2测试中达到77.1%,较上一代实现性能倍增。新模型针对科研与工程任务进行了优化,在SWE-Bench Verified上取得80.6%的成绩,提升了自动编程的可靠性。

视觉生成突破

Nano Banana 2基于Gemini 3.1 Flash Image架构,支持高达4K分辨率的图像生成,并能实现多角色一致性。该模型最多可统一控制5个人物和14个对象,显著增强了文字渲染与细节真实度。

生态落地扩展

Nano Banana 2已成为Gemini应用的默认图像模型,并接入Search、Lens及Flow视频工具。新系统已覆盖全球140多个地区的AI服务入口,首次向免费用户开放高级视觉能力。

Gemini3.1 Pro表现

3. Anthropic发布Claude Opus 4.6与Sonnet 4.6,强化智能体执行能力

Anthropic连续推出新一代旗舰及中型模型体系,全面升级Claude系列的核心能力。此次更新通过优化长上下文推理与自主任务执行,使AI开始具备真实工作流中的代理能力。

技术能力升级

Claude Opus 4.6强化了复杂推理与代理执行能力,在Terminal-Bench等测试中取得行业领先成绩。新模型支持100万Token的上下文窗口,可一次性处理完整代码库或多份研究文档。

性能表现提升

Sonnet 4.6在编程与计算机操作任务中的性能接近Opus级别,但价格仅为旗舰模型的五分之一。官方数据显示,在59%的测试场景中开发者更偏好Sonnet 4.6,其稳定性和幻觉率均有明显改善。

应用落地与商业影响

Sonnet 4.6已成为claude.ai的默认模型,并同步上线Amazon Bedrock企业平台。该模型能执行跨网页、多步骤的自动操作任务,推动AI从助手升级为企业级的Agent基础设施。

Opus 4.6与Sonnet 4.6模型表现

4. 马斯克宣布Grok 4.2公开测试版上线,引入快速学习能力

OpenAI创始人埃隆·马斯克通过X平台宣布,其旗下公司xAI推出的大模型Grok 4.2公测版现已开放使用。该版本具备“快速学习”能力,可基于实时数据与反馈持续迭代以提升表现。

发布进度与用户路径

公测版本已开放:Grok 4.2候选发布版(公开测试版)现已在Grok官方平台供用户手动激活体验,并非自动升级。马斯克在X平台强调欢迎用户提供反馈,这些意见将用于快速迭代与持续优化版本性能。

快速学习能力与迭代机制

核心升级点显著:与之前版本相比,4.2新增的快速学习能力使模型能更快吸收新信息与模式,在处理实时热点与动态任务时更加准确高效。官方计划实现每周更新,并附带发布说明,展示新增的改进内容与能力提升。

潜在技术与竞争意义

架构创新方向明确:据行业信息,Grok 4.2可能采用了多智能体与快速反馈循环机制,使推理深度与准确性较以往更强。此举表明xAI正加速对话式AI模型的迭代,有望提升Grok在大型语言模型竞赛中的竞争力。

Grok 4.2表现

5. OpenClaw自主AI代理兴起,推动“养龙虾”式智能体生态形成

开源AI代理OpenClaw由个人工程师项目演变为全球关注的自主智能体平台。它通过调用社交媒体与应用API替用户执行任务,使AI首次进入持续行动阶段。

什么是“龙虾”

“龙虾”指代Claw类自主AI代理,它们能长期运行并替用户操作电脑与互联网完成任务。这类系统基于大模型进行决策,并调用工具API执行动作,实现了从聊天回复向真实行动的转变。OpenClaw通过WhatsApp与Telegram作为入口,使AI成为可随时指挥的数字员工。

OpenClaw的诞生故事

该项目最初名为Clawdbot,由奥地利工程师Peter Steinberger个人开发并开源发布。其目标并非聊天,而是管理邮件、订票与工作流程等真实数字生活事务。因名称接近Claude而遭到Anthropic的商标异议,经历Moltbot后最终定名为OpenClaw。

Claw家族与厂商布局

• Clawdbot、Moltbot与OpenClaw构成了核心演进路线,形成了一套完整的Agent框架体系。

• Moltbook作为AI专属社交网络,允许多个Agent相互协作与交流任务。

• OpenAI已吸纳创始人推动下一代个人Agent的研发,大厂正式进入Claw方向。

开放环境养龙虾

用户可在本地部署AI代理并使其持续运行,被社区称为“开放环境养龙虾”模式。Agent通过调用社交媒体与网页API,实现自动发帖、数据抓取与流程执行。企业开始将其作为24小时AI员工,处理客服、运营与自动化办公等任务。

对AI发展的影响

OpenClaw标志着AI从模型工具迈向自主智能体,被视为Agent时代的关键拐点。 多Agent协作网络首次出现真实社会行为实验,引发了学术研究的快速增长。行业竞争焦点正由模型能力转向“替人完成工作”的执行能力体系。

6. 字节跳动发布Seedance2.0视频模型与豆包大模型2.0,构建全模态体系

字节跳动推出新一代视频生成系统Seedance2.0,并升级了通用基础模型能力体系。此次组合通过统一多模态架构打通了理解、推理与内容生成流程,加速了AI内容工业化生产的落地。

技术能力突破

Seedance2.0采用了统一的音视频多模态联合架构,支持文本、图片、音频与视频的混合输入生成内容。模型可同时参考9张图片及多段视频音频素材,实现复杂镜头与动作的精准复现。在复杂运动与多角色交互场景中能保持物理规律一致,生成稳定性达到行业领先水平。

性能表现验证

Seedance2.0支持15秒多镜头高清视频与双声道音频的同步生成,实现视听一体输出。官方评测显示,模型在指令遵循与运动连续性方面明显优于上一代版本。海外创作者测试生成的剧情级短片,多条演示视频播放量突破百万。

生态与商业落地

Seedance2.0已接入豆包与即梦AI平台,用户可直接进行视频创作与编辑。豆包大模型2.0作为底层Agent基座,强化了推理、代码与企业任务执行能力。字节已形成文本理解、图像生成与视频生产的全模态模型矩阵体系。

豆包大模型2.0公开测试集表现

7. 智谱发布GLM-5旗舰大模型,推动AI迈入智能体工程阶段

智谱推出新一代基础模型GLM-5,重点强化了推理、编程与智能体执行能力。该模型将人工智能从代码生成升级为系统级任务执行,推动Agent应用进入真实工程阶段。

技术架构突破

GLM-5参数规模提升至744B,并采用MoE架构,推理时仅激活约40B参数以降低计算成本。它首次集成了DeepSeek Sparse Attention机制,在保持长文本能力的同时显著提升了Token效率。构建了Slime异步强化学习框架,使模型能从长程交互中持续学习复杂任务。

性能表现验证

在SWE-bench-Verified测试中取得77.4分,达到开源模型的最高水平。Coding与Agent能力实测接近Claude Opus 4.5,复杂工程任务处理能力明显提升。支持200K上下文窗口,可连续执行长时间系统开发与多轮工具调用任务。

应用与产业影响

GLM-5的目标是从“写代码”升级为“完成软件工程”,支持端到端的系统构建。它已完成对昇腾等国产AI芯片的0day适配,降低了企业部署与算力依赖的门槛。推动AI开发模式向Agentic Engineering转变,加速了企业级智能体的落地。

GLM-5表现

8. MiniMax正式发布M2.5旗舰模型,强化智能体与编程能力

MiniMax推出新一代基础模型M2.5,重点面向复杂任务执行与Agent场景进行优化。该模型通过高效率推理与低成本运行机制,使企业级智能体部署进入可持续规模化阶段。

技术能力升级

M2.5定位为原生Agent模型,支持工具调用与全栈开发任务,官方称其编程能力对标Claude Opus 4.6。它采用强化学习优化任务拆解能力,在复杂软件工程任务中能实现更成熟的决策路径。激活参数仅约10B,在保持性能的同时显著降低了显存占用与推理资源需求。

性能表现验证

在SWE-Bench Verified测试中取得80.2%的成绩,达到当前智能体模型的领先水平。复杂任务的端到端执行时间从31.3分钟降至22.8分钟,效率提升约37%。推理吞吐量达到100Token每秒,速度约为主流前沿模型的两倍。

应用与产业前景

该模型已在MiniMax Agent产品中内测,用于办公自动化与开发流程执行。支持Excel分析、调研与PPT生成等生产力场景,实现了真实工作流的自动化。低至每百万Token输入0.3美元的成本,使长期运行的AI Agent具备商业可行性。

上周MiniMax M2.5调用量登顶

大咖观点

1. Anthropic模型自称DeepSeek引发身份混淆事件,折射AI竞争暗战

用户在询问Anthropic旗下Claude模型身份时,其回答称自己来自DeepSeek,这一现象引发了讨论。该事件叠加近期的模型蒸馏争议,使AI公司间的技术竞争与舆论博弈同步升温。

身份混淆现象

Claude在部分对话中自称DeepSeek,属于大模型的“身份混淆”问题,研究显示约25.9%的模型存在类似现象。学术研究指出,该问题源于语言概率生成机制,而非模型真实来源或技术复制行为。在长上下文或训练语料中,多模型描述共存易导致模型输出错误的身份信息。

事件背景升级

Anthropic近期指控DeepSeek、MiniMax与Moonshot通过蒸馏提取Claude的能力,引发行业关注。公司称相关行为涉及约2.4万个账号与1600万次交互,被定义为工业级能力提取。蒸馏技术虽为行业常见方法,但未经授权的复制模型能力成为争议核心。

公司八卦与争议

Anthropic由多名前OpenAI核心成员创立,被业内称为OpenAI的“安全派分支”。其CEO Dario Amodei长期主张限制先进AI的扩散,多次参与美国AI监管与芯片政策的讨论。公司在指控竞争对手技术获取问题的同时,自身也曾因训练数据版权问题而遭受外界质疑。

产业影响观察

模型身份混淆与蒸馏争议的叠加,使AI竞争从性能比拼转向能力保护。 美国AI企业开始部署行为指纹识别与访问监测系统,以防止模型能力外泄。行业分析认为,这一事件标志着全球大模型竞争已进入公开对抗阶段。

行业动态

1. Anthropic旗下Claude登顶美区App Store免费榜,超越ChatGPT

Anthropic开发的AI助手Claude在美国苹果应用商店的下载排名升至首位。用户迁移与舆论关注推动了下载量的激增,AI助手竞争已进入品牌与价值观阶段。

榜单变化与数据表现

Claude在美国App Store免费榜的排名升至第一,正式超过ChatGPT并持续保持榜首位置。排名跃升发生在短期下载激增的阶段,数据显示其在数日内从前十名快速冲至冠军位置。

增长驱动因素

用户因AI伦理争议转向Claude,大量社交媒体上出现了取消ChatGPT订阅并迁移使用的现象。Anthropic坚持限制军事用途的立场,引发了公众讨论并显著提升了应用的关注度与下载量。

行业竞争影响

AI助手竞争已从模型性能扩展至企业立场与信任度,用户的选择标准开始发生变化。App Store榜单首次出现Claude反超ChatGPT,显示生成式AI的入口竞争已进入动态轮替阶段。

2. OpenRouter数据:2月中国AI模型全球Token用量首超美国,4款大模型霸榜前五

全球最大AI模型API聚合平台OpenRouter的最新数据显示,2026年2月中国AI模型的Token调用量首次超过美国产品。中国的MiniMax、Kimi、GLM-5和DeepSeek等四款大模型占据了全球前五榜单的大部分席位,彰显了国产模型国际竞争力的提升。

市场格局变化

中国AI模型在OpenRouter平台的周Token调用量连续三周大增127%,并在2月9日至15日达到4.12万亿Token,首次超过同期美国模型的2.94万亿Token,表明中国AI的使用强度显著提升。到2月16日至22日,中国模型的调用量进一步攀升至5.16万亿Token,而美国模型的调用量回落至2.7万亿Token,领先优势进一步扩大。

主要模型表现

在全球Token使用量排名前五的模型中,中国模型占据了主导地位。


————  END  ————


灵思极智旗下“极智系列”三款AI智能应用




灵思极智让AI为各行业赋能
打造[超级企业]+[超级个体]
“让人回归人的价值”!
用灵思,创极智!点击关注“灵思极智”


关注后,两步置顶服务号,可第一时间收到灵思极智推文!


【声明】内容源于网络
0
0
灵思极智
AI领域超级创造工厂,用灵思,创极智!
内容 176
粉丝 0
灵思极智 AI领域超级创造工厂,用灵思,创极智!
总阅读135
粉丝0
内容176