

AI一周资讯速递（11.10-11.14）

上海蓝玥信息科技有限公司

2025-11-14

一、Grok 4深夜大升级：200万上下文、五倍GPT-5脑容量？

1. Grok 4 Fast上下文窗口提升至200万token，相当于Gemini 2.5 Pro的2倍、GPT-5的5倍，推理模式完成率从77.5%跃升至94.1%；

2. Grok Imagine升级后生成质量达到真假难辨程度，能精准生成西方古典文学场景，x.ai在OpenRouter上API调用份额达26.4%；

3. 200万token上下文能力意味着可一次性处理相当于150万英文单词或6000页文本，相当于两部《战争与和平》。

https://mp.weixin.qq.com/s/PkHA-2aXsCg03xpoQOMXLA

二、GPT-5-Codex mini 紧凑版发布，性能相当速率提高 4 倍

1. OpenAI发布GPT-5-Codex-Mini紧凑版，使用量是GPT-5-Codex的约4倍，ChatGPT Plus等用户速率限制提高50%；

2. 代码中发现GPT-5.1系列三个新模型痕迹，包括旗舰模型GPT-5.1、推理模型GPT-5.1 Reasoning和研究级GPT-5.1 Pro；

3. 新模型或于11月底发布，其中一个模型可能已以Polaris Alpha名字在OpenRouter等平台测试，在创意写作和基准测试中表现出色。

https://mp.weixin.qq.com/s/er3zhiYfsyGKqchQuRYl0Q

三、谷歌二代Nano Banana爆出！一键推演微积分终结PS

1. 谷歌Nano Banana 2预览版在第三方平台Media IO现身，支持原生2K可选4K超分，复杂场景生成仅需10秒；

2. 该模型可在黑板上一键推导微积分，基于纯文本直出Windows桌面+YouTube主页等复杂UI界面，文字渲染和世界知识表现出色；

3. 二次元生成、人物角色、监控录像等场景表现逼真，能保持高度角色一致性，预计11月中下旬正式发布。

https://mp.weixin.qq.com/s/9PSAenw5ne-tk7xZZ6MrEA

四、Utopai联手LG、中东主权基金加码韩娱，颠覆AI视频格局

1. AI原生影视工作室Utopai Studios与SFR成立资本规模达数十亿美元合资公司Utopai East，LG集团继承人和阿联酋主权基金推动者参与；

2. Utopai采用"规划与渲染解耦"架构，自回归模型负责规划、扩散模型负责渲染，通过统一状态空间耦合，解决传统模型长程一致性崩塌问题；

3. 该架构能实现跨数十个镜头稳定保持角色身份和场景一致性，将创意迭代周期从数周缩短至几天，推动AI从短片生成到长片制作的工业级跨越。

https://mp.weixin.qq.com/s/ACTi_DYghRP2rFKSungTeQ

五、Google Finance重磅升级，深度搜索打造AI金融分析师

1. 新版Google Finance整合Gemini多模态AI模型的"深度搜索"功能，可在几分钟内扫描数百份资料生成综合性分析报告；

2. 首次将预测市场数据（如Kalshi和Polymarket）整合进主流金融工具，为投资者提供前所未有的"市场情绪晴雨表"；

3. 新设计的"财报季体验"界面支持实时文字转录、AI生成新闻摘要和历史数据对比，目前已通过google.com/finance/beta开放体验。

https://mp.weixin.qq.com/s/0iTU5nVAqb_dRfkuQHe2Rg

六、GPT-5.1 的「马甲」Polaris Alpha泄露，现在免费就能用

1. OpenRouter平台上线隐名模型Polaris Alpha，网友认为这是披着马甲的GPT-5.1，知识库截止2024年10月，最大context容量256K，单次最大输出128K；

2. 实测显示Polaris在案头工作、编程任务上表现流畅，文风具有典型GPT特征，支持NSFW模式苗头初显；

3. Polaris目前通过API免费调用，在编程小游戏、网页设计等方面表现不错，网传GPT-5.1或将于11月中旬正式发布。

https://mp.weixin.qq.com/s/Q6CIljjkW78gyzobXAz9lw

七、谢赛宁、李飞飞、LeCun提出多模态智能「Cambrian-S」

1. 纽约大学谢赛宁联合李飞飞、Yann LeCun发布Cambrian-S多模态新范式，提出"空间超感知"概念，迈出探索视频空间超感知第一步；

2. 该研究定义多模态智能发展路径从语义感知、流式事件认知到3D空间认知和预测性世界建模四个层级，引入VSI-SUPER基准测试空间超感知能力；

3. Cambrian-S采用潜变量帧预测头预测感知，通过"惊讶度"信号进行记忆管理和事件分割，在空间认知任务上中小型模型超越Gemini。

https://mp.weixin.qq.com/s/UBWodeMYwC2T9XQ0SNWTnQ

八、美团出了一款AI IDE编程工具，代号叫Meituan CatPaw

1. 美团推出AI IDE编程工具CatPaw，提供Tab代码补全、Agent问答生成、Browser内置预览调试和Codebase项目级分析四大核心功能；

2. CatPaw背后核心引擎为美团自研LongCat大模型，支持macOS系统全面兼容Python、C++、Java等主流编程语言，当前阶段完全免费；

3. 该工具在美团内部研发人员周活占比超80%，每周新增代码中AI生成占比约50%，Windows版本预计本周五上线。

https://mp.weixin.qq.com/s/90bgwDH8hfSGn3WHnX8LQA

九、00后团队用国产模型推出Vinsoo，对标Claude Code

1. 芸思智能推出全球首个搭载云端安全Agent编程团队的AI IDE Vinsoo，仅用国产模型超越搭载Claude的Cursor、Codex等产品；

2. Vinsoo通过DYCODE和COTER实现超长上下文工程算法突破，极限有效上下文达千万量级，支持最多8个智能体同步运行开发；

3. 新版本Beta 3.0支持云端一键发布、移动端使用和团队协作功能，创始团队由00后主导汇聚中美顶尖学府硕博士和资深工程师。

https://mp.weixin.qq.com/s/PBSl39FwXGaSwMxeE-4s4A

十、阶跃星辰发布一个开源音频编辑大模型 Step-Audio-EditX

1. 阶跃星辰发布全球首个开源LLM级音频编辑大模型Step-Audio-EditX，能通过语言指令精准控制音频情感、说话风格和副语言特征；

2. 该模型采用统一LLM框架和"双码本"音频分词器结构，支持零样本文本转语音、迭代式编辑和中英双语及多方言；

3. 模型约3B参数，单卡32GB GPU可运行，采用大边际合成数据训练，情感与风格控制准确率优于MiniMax、Doubao等闭源模型。

https://mp.weixin.qq.com/s/vumeCAwJyij-95p4H4Jc2g

十一、OpenAI将英特尔CTO招入麾下，专攻算力基础设施建设

1. OpenAI成功招募英特尔CTO兼首席AI官Sachin Katti，负责为OpenAI打造面向AGI的算力基础设施，而英特尔CEO陈立武被迫亲自接管AI部门；

2. Katti拥有20多年无线通信和AI基础设施领域深耕经验，曾创办多家科技公司并在斯坦福任教，今年4月刚被英特尔提拔为CTO；

3. OpenAI计划未来8年斥资约1.4万亿美元打造AI基础设施，Katti的加入对其自主算力布局版图意义重大，但对英特尔而言是一次重大失血。

https://mp.weixin.qq.com/s/ln_0w1uq8Vlzf7R53EUYVQ

十二、Meta开源最强语音"基座模型"，可支持1600+种语言？

1. Meta AI FAIR团队发布Omnilingual ASR语音识别模型套件，能为超过1600种语言提供自动语音识别能力，78%语言字符错误率低于10%；

2. 该框架采用社区驱动设计，用户仅需提供少量样本即可将模型扩展到新语言，首次实现大规模ASR框架的上下文学习能力；

3. 同时开源Omnilingual ASR Corpus数据集(覆盖350种服务欠缺语言)和70亿参数的Omnilingual wav2vec 2.0语音表征模型。

https://mp.weixin.qq.com/s/Amj8MmiKcos6dmSqhn0aJg

十三、商汤开源SenseNova-SI系列空间智能大模型，2B&8B

1. 商汤发布并开源SenseNova-SI系列空间智能大模型(2B和8B版本)，其中8B模型在四个核心空间智能任务上平均成绩60.99，领先GPT-5和Gemini-2.5-Pro；

2. 该系列模型首次在空间智能领域验证了"尺度效应"，构建了六大核心维度的空间能力分类体系，包括空间测量、空间重构、视角转换等；

3. 模型已接入"悟能"具身智能平台，同步开源空间智能测评平台EASI，将补强具身智能在三维结构认知方面的基础能力。

https://mp.weixin.qq.com/s/lrx8rUjsRsKvzgycWTulvg

十四、字节推出编程优化的新代码模型Doubao-Seed-Code

1. 火山引擎推出Doubao-Seed-Code代码模型，调用价格降低，0-32k区间输入仅1.20元/百万Token；

2. 该模型是支持视觉理解能力的编程模型，可参照UI设计稿生成代码，原生256K长上下文，原生兼容Anthropic API实现零成本切换；

3. 同步推出Coding Plan套餐，基于10万容器镜像训练库和端到端强化学习。

https://mp.weixin.qq.com/s/LOOVsBHNla4bDb8AorxAsA

十五、65岁图灵巨头LeCun离职Meta，投身「世界模型」创业

1. Meta首席AI科学家LeCun将在未来几个月离职，与小扎因AI战略分歧正式决裂，其领导的FAIR实验室逐渐被边缘化；

2. LeCun坚信大模型无法通往AGI，AI终局是"世界模型"，离职后将成立新公司专注推进世界模型研究，目前正在进行早期融资洽谈；

3. Meta今年进行超4次架构调整，将战略重心从LeCun领军的FAIR转向更快推出模型和AI产品，28岁Alexandr Wang领导全新"超级智能"团队。

https://mp.weixin.qq.com/s/sgJAu8l-4P31Wzt5dTshrw

十六、AI秒破18世纪「天书」账本！谷歌新模型盲测刷屏全网

1. 谷歌AI Studio神秘模型成功识别200多年前商人"天书"账本，字符错误率仅1.7%，词错误率6.5%，达到人类专家级准确度；

2. 该模型不仅准确转写，还纠正了原账本书写格式错误，通过反推计算修正了模糊重量表述，展现出抽象推理能力；

3. 测试显示模型在18世纪非十进制货币系统、荷英混杂文本等极端场景下表现出色，历史学家认为这标志AI跨越真正"理解"界限。

https://mp.weixin.qq.com/s/JqHBlGKWbhKVDPglAuwGtw

十七、ElevenLabs发布Scribe v2 Realtime实时语音转文本模型

1. AI语音独角兽ElevenLabs发布Scribe v2 Realtime模型，实现150毫秒超低延迟、93.5%高准确率，覆盖90多种语言；

2. 该模型在FLEURS基准测试中针对前30种常用语言准确率达93.5%，能精准识别方言、专业术语，甚至辨别笑声类型；

3. ElevenLabs成立于2022年，目前拥有7000万用户，月均生成3000万份文档，去年融资1200万美元完成C轮后估值达33亿美元。

https://mp.weixin.qq.com/s/0Z44DWSPn0faugYjw44m1w

十八、OpenAI 将推出「Group chats」群聊功能，独立于个人记忆

1. ChatGPT网页版即将推出群聊功能预览版，用户可生成链接分享，所有成员能查看之前对话记录，支持文件上传、图像生成等功能；

2. 群聊的自定义指令与个人ChatGPT设置完全独立，个人记忆功能永远不会在群聊中使用，保护用户隐私；

3. OpenAI CEO暗示需要原生支持AI的生产力套件取代Slack等工具，此举被解读为OpenAI意图获取企业对话数据以改进模型。

https://mp.weixin.qq.com/s/99C0YfCxG6UtcEOIO7H_OA

十九、Lovart上线分层图像编辑！一键模版自由，设计师的福音

1. LiblibAI旗下Lovart推出"Edit Elements"分层图像编辑功能，可将像素位图一键拆分为文字、前景、背景多个图层；

2. 该功能实现从位图产物反推回图层模版，文字按段落格式返回可编辑，支持中英文识别，AI生成图片也能匹配相似字体；

3. 用户每日登陆可领取100积分，分层编辑功能目前活动期免费使用，可结合第三方AI编辑模型进行图像替换。

https://mp.weixin.qq.com/s/uQWmlVAM34ZpyEy606qXOw

二十、OpenAI上线 GPT-5.1 系列模型，不仅聪明还更有人情味

1. OpenAI发布GPT-5.1系列模型，OpenAI 表示出色的 AI 不仅要聪明，还要让人与之对话变得愉悦；

2. GPT-5.1 Instant：ChatGPT 最常用的模型，更温暖、更智能，也更善于遵循指令的模型；

3. GPT-5.1 Thinking：高级推理模型，在简单任务上更快，在复杂任务上更持久，也更容易理解。

https://mp.weixin.qq.com/s/XiSWqu9raj8OfEXTWVvCVQ

二十一、李飞飞 AI「造世神器」一句话打造 3D 世界｜附实测体验

1. 李飞飞团队World Labs正式向全体用户开放3D世界生成模型Marble，支持文本、图像、视频、3D布局等多模态输入方式；

2. Marble首创AI原生编辑工具可对生成世界进行局部替换和结构调整，Chisel功能实现结构与风格分离，同一框架可生成不同风格场景；

3. 提供免费版（7000点数/月）至旗舰版（120000点数/月）四档订阅，支持高斯溅射、三角网格、视频等多种导出格式可直接导入游戏引擎。

https://mp.weixin.qq.com/s/MutPeEl76Fw9o6EHPtKRiw

二十二、Anthropic掷500亿美元联手Fluidstack，拟自建AI infra

1. Anthropic宣布与英国云服务商Fluidstack达成500亿美元数据中心合作协议，将在得克萨斯州和纽约州建设专为Anthropic定制的设施；

2. 这是Anthropic首次大手笔投入建设定制化基础设施，符合其预计到2028年实现700亿美元收入和170亿美元正向现金流的内部预测；

3. Fluidstack这家2017年成立的公司已与Meta、Mistral等建立合作，是首批获得谷歌定制TPU的第三方供应商之一。

https://mp.weixin.qq.com/s/KeRg-xEi5fqjtZ_K1nPFWg

二十三、谷歌Gemini Live语音大升级：AI语音进入拟人化2.0时代

1. 谷歌Gemini Live语音功能全面升级，支持实时语速调节、情绪化语气响应、牛仔腔/伦敦腔等风格化语音等五大核心能力；

2. 基于Gemini2.5Flash模型深度优化语音引擎，显著提升对语调、重音、停顿与音高微变的建模能力，能感知用户情绪自动调整语气；

3. 无缝融入Google生态，在Maps中可直接查询无需唤醒，靠近Pixel Watch抬手腕即可无声启动对话，所有语音数据默认不存储。

https://mp.weixin.qq.com/s/tWxtqhmaIP2XVhhFkCDPcw

二十四、文心5.0正式发布，一手实测2.4万亿参数原生全模态模型

1. 百度文心5.0正式发布，主打原生全模态，最开始就把语言/图像/视频/音频放在同一套自回归统一架构里进行统一训练；

2. 支持全模态输入（文/图/音/视频）+多模态输出（文/图），在LMArena文本排行榜得分1432表现出色；

3. 模型总参数规模超2.4万亿，超稀疏激活参数设计激活比例低于3%，已上线文心一言网页版、文心App及百度千帆平台提供API服务。

https://mp.weixin.qq.com/s/wMeWKu2HAGuilZtlY7Q5KA

二十五、LiblibAI 上线混元图像3.0，工业级原生多模态，附实测

1. 腾讯推出的工业级原生多模态生图模型混元图像3.0现已支持在LiblibAI上使用，能利用世界知识进行推理准确理解千字级复杂提示词；

2. 该模型具备世界知识推理能力可生成带逻辑的连续性内容，支持中英文文字生成以及超长文本渲染，整体美学接近商业级模型；

3. 在真实光影质感、风格材质、推理生成和文本渲染等多方面表现突出，极致真实质感。

https://mp.weixin.qq.com/s/zWW5eC5MjWeIIr5mv8alKg

二十六、成本不到8千美元！新浪微博发布VibeThinker-1.5B模型

1. 新浪微博发布并开源VibeThinker-1.5B模型，仅15亿参数训练成本不足8000美元，在AIME25等顶级数学竞赛基准上击败近万亿参数的DeepSeek-R1；

2. 采用创新的频谱到信号原则（SSP），将SFT和RL目标解耦，SFT阶段追求多样性（Pass@K）、RL阶段追求准确性（Pass@1）；

3. 在NVIDIA H800 GPU上总计算成本不到8000美元，成本效益比达惊人的30到60倍，15亿参数可轻松运行在手机等边缘设备上。

https://mp.weixin.qq.com/s/bf3fy7o_3imszz4bQ6cKRg

【声明】内容源于网络

上海蓝玥信息科技有限公司

1234

内容 108

粉丝 0

上海蓝玥信息科技有限公司 1234

总阅读371

粉丝0

内容108