大数跨境
0
0

AI一周资讯速递(11.10-11.14)

AI一周资讯速递(11.10-11.14) 上海蓝玥信息科技有限公司
2025-11-14
3

一、Grok 4深夜大升级:200万上下文、五倍GPT-5脑容量?

1. Grok 4 Fast上下文窗口提升至200万token,相当于Gemini 2.5 Pro的2倍、GPT-5的5倍,推理模式完成率从77.5%跃升至94.1%;

2. Grok Imagine升级后生成质量达到真假难辨程度,能精准生成西方古典文学场景,x.ai在OpenRouter上API调用份额达26.4%;

3. 200万token上下文能力意味着可一次性处理相当于150万英文单词或6000页文本,相当于两部《战争与和平》。

https://mp.weixin.qq.com/s/PkHA-2aXsCg03xpoQOMXLA

二、GPT-5-Codex mini 紧凑版发布,性能相当速率提高 4 倍

1. OpenAI发布GPT-5-Codex-Mini紧凑版,使用量是GPT-5-Codex的约4倍,ChatGPT Plus等用户速率限制提高50%;

2. 代码中发现GPT-5.1系列三个新模型痕迹,包括旗舰模型GPT-5.1、推理模型GPT-5.1 Reasoning和研究级GPT-5.1 Pro;

3. 新模型11月发布,其中一个模型可能已以Polaris Alpha名字在OpenRouter等平台测试,在创意写作和基准测试中表现出色。

https://mp.weixin.qq.com/s/er3zhiYfsyGKqchQuRYl0Q

三、谷歌二代Nano Banana爆出!一键推演微积分终结PS

1. 谷歌Nano Banana 2预览版在第三方平台Media IO现身,支持原生2K可选4K超分,复杂场景生成仅需10秒;

2. 该模型可在黑板上一键推导微积分,基于纯文本直出Windows桌面+YouTube主页等复杂UI界面,文字渲染和世界知识表现出色;

3. 二次元生成、人物角色、监控录像等场景表现逼真,能保持高度角色一致性,预计11月中下旬正式发布。

https://mp.weixin.qq.com/s/9PSAenw5ne-tk7xZZ6MrEA

四、Utopai联手LG、中东主权基金加码韩娱,颠覆AI视频格局

1. AI原生影视工作室Utopai Studios与SFR成立资本规模达数十亿美元合资公司Utopai East,LG集团继承人和阿联酋主权基金推动者参与;

2. Utopai采用"规划与渲染解耦"架构,自回归模型负责规划、扩散模型负责渲染,通过统一状态空间耦合,解决传统模型长程一致性崩塌问题;

3. 该架构能实现跨数十个镜头稳定保持角色身份和场景一致性,将创意迭代周期从数周缩短至几天,推动AI从短片生成到长片制作的工业级跨越。

https://mp.weixin.qq.com/s/ACTi_DYghRP2rFKSungTeQ

五、Google Finance重磅升级,深度搜索打造AI金融分析师

1. 新版Google Finance整合Gemini多模态AI模型的"深度搜索"功能,可在几分钟内扫描数百份资料生成综合性分析报告;

2. 首次将预测市场数据(如Kalshi和Polymarket)整合进主流金融工具,为投资者提供前所未有的"市场情绪晴雨表";

3. 新设计的"财报季体验"界面支持实时文字转录、AI生成新闻摘要和历史数据对比,目前已通过google.com/finance/beta开放体验。

https://mp.weixin.qq.com/s/0iTU5nVAqb_dRfkuQHe2Rg


六、GPT-5.1 的「马甲」Polaris Alpha泄露,现在免费就能用

1. OpenRouter平台上线隐名模型Polaris Alpha,网友认为这是披着马甲的GPT-5.1,知识库截止2024年10月,最大context容量256K,单次最大输出128K;

2. 实测显示Polaris在案头工作、编程任务上表现流畅,文风具有典型GPT特征,支持NSFW模式苗头初显;

3. Polaris目前通过API免费调用,在编程小游戏、网页设计等方面表现不错,网传GPT-5.1或将于11月中旬正式发布。

https://mp.weixin.qq.com/s/Q6CIljjkW78gyzobXAz9lw

七、谢赛宁、李飞飞、LeCun提出多模态智能「Cambrian-S」

1. 纽约大学谢赛宁联合李飞飞、Yann LeCun发布Cambrian-S多模态新范式,提出"空间超感知"概念,迈出探索视频空间超感知第一步;

2. 该研究定义多模态智能发展路径从语义感知、流式事件认知到3D空间认知和预测性世界建模四个层级,引入VSI-SUPER基准测试空间超感知能力;

3. Cambrian-S采用潜变量帧预测头预测感知,通过"惊讶度"信号进行记忆管理和事件分割,在空间认知任务上中小型模型超越Gemini。

https://mp.weixin.qq.com/s/UBWodeMYwC2T9XQ0SNWTnQ

八、美团出了一款AI IDE编程工具,代号叫Meituan CatPaw

1. 美团推出AI IDE编程工具CatPaw,提供Tab代码补全、Agent问答生成、Browser内置预览调试和Codebase项目级分析四大核心功能;

2. CatPaw背后核心引擎为美团自研LongCat大模型,支持macOS系统全面兼容Python、C++、Java等主流编程语言,当前阶段完全免费;

3. 该工具在美团内部研发人员周活占比超80%,每周新增代码中AI生成占比约50%,Windows版本预计本周五上线。

https://mp.weixin.qq.com/s/90bgwDH8hfSGn3WHnX8LQA

九、00后团队用国产模型推出Vinsoo,对标Claude Code

1. 芸思智能推出全球首个搭载云端安全Agent编程团队的AI IDE Vinsoo,仅用国产模型超越搭载Claude的Cursor、Codex等产品;

2. Vinsoo通过DYCODE和COTER实现超长上下文工程算法突破,极限有效上下文达千万量级,支持最多8个智能体同步运行开发;

3. 新版本Beta 3.0支持云端一键发布、移动端使用和团队协作功能,创始团队由00后主导汇聚中美顶尖学府硕博士和资深工程师。

https://mp.weixin.qq.com/s/PBSl39FwXGaSwMxeE-4s4A

十、阶跃星辰发布一个开源音频编辑大模型 Step-Audio-EditX

1. 阶跃星辰发布全球首个开源LLM级音频编辑大模型Step-Audio-EditX,能通过语言指令精准控制音频情感、说话风格和副语言特征;

2. 该模型采用统一LLM框架和"双码本"音频分词器结构,支持零样本文本转语音、迭代式编辑和中英双语及多方言;

3. 模型约3B参数,单卡32GB GPU可运行,采用大边际合成数据训练,情感与风格控制准确率优于MiniMax、Doubao等闭源模型。

https://mp.weixin.qq.com/s/vumeCAwJyij-95p4H4Jc2g


十一、OpenAI将英特尔CTO招入麾下,专攻算力基础设施建设

1. OpenAI成功招募英特尔CTO兼首席AI官Sachin Katti,负责为OpenAI打造面向AGI的算力基础设施,而英特尔CEO陈立武被迫亲自接管AI部门;

2. Katti拥有20多年无线通信和AI基础设施领域深耕经验,曾创办多家科技公司并在斯坦福任教,今年4月刚被英特尔提拔为CTO;

3. OpenAI计划未来8年斥资约1.4万亿美元打造AI基础设施,Katti的加入对其自主算力布局版图意义重大,但对英特尔而言是一次重大失血。

https://mp.weixin.qq.com/s/ln_0w1uq8Vlzf7R53EUYVQ

十二、Meta开源最强语音"基座模型",可支持1600+种语言?

1. Meta AI FAIR团队发布Omnilingual ASR语音识别模型套件,能为超过1600种语言提供自动语音识别能力,78%语言字符错误率低于10%;

2. 该框架采用社区驱动设计,用户仅需提供少量样本即可将模型扩展到新语言,首次实现大规模ASR框架的上下文学习能力;

3. 同时开源Omnilingual ASR Corpus数据集(覆盖350种服务欠缺语言)和70亿参数的Omnilingual wav2vec 2.0语音表征模型。

https://mp.weixin.qq.com/s/Amj8MmiKcos6dmSqhn0aJg

十三、商汤开源SenseNova-SI系列空间智能大模型,2B&8B

1. 商汤发布并开源SenseNova-SI系列空间智能大模型(2B和8B版本),其中8B模型在四个核心空间智能任务上平均成绩60.99,领先GPT-5和Gemini-2.5-Pro;

2. 该系列模型首次在空间智能领域验证了"尺度效应",构建了六大核心维度的空间能力分类体系,包括空间测量、空间重构、视角转换等;

3. 模型已接入"悟能"具身智能平台,同步开源空间智能测评平台EASI,将补强具身智能在三维结构认知方面的基础能力。

https://mp.weixin.qq.com/s/lrx8rUjsRsKvzgycWTulvg

十四、字节推出编程优化的新代码模型Doubao-Seed-Code

1. 火山引擎推出Doubao-Seed-Code代码模型,调用价格降低,0-32k区间输入仅1.20元/百万Token;

2. 该模型是支持视觉理解能力的编程模型,可参照UI设计稿生成代码,原生256K长上下文,原生兼容Anthropic API实现零成本切换;

3. 推出Coding Plan套餐,基于10万容器镜像训练库和端到端强化学习。

https://mp.weixin.qq.com/s/LOOVsBHNla4bDb8AorxAsA


十五、65岁图灵巨头LeCun离职Meta,投身「世界模型」创业

1. Meta首席AI科学家LeCun将在未来几个月离职,与小扎因AI战略分歧正式决裂,其领导的FAIR实验室逐渐被边缘化;

2. LeCun坚信大模型无法通往AGI,AI终局是"世界模型",离职后将成立新公司专注推进世界模型研究,目前正在进行早期融资洽谈;

3. Meta今年进行超4次架构调整,将战略重心从LeCun领军的FAIR转向更快推出模型和AI产品,28岁Alexandr Wang领导全新"超级智能"团队。

https://mp.weixin.qq.com/s/sgJAu8l-4P31Wzt5dTshrw

十六、AI秒破18世纪「天书」账本!谷歌新模型盲测刷屏全网

1. 谷歌AI Studio神秘模型成功识别200多年前商人"天书"账本,字符错误率仅1.7%,词错误率6.5%,达到人类专家级准确度;

2. 该模型不仅准确转写,还纠正了原账本书写格式错误,通过反推计算修正了模糊重量表述,展现出抽象推理能力;

3. 测试显示模型在18世纪非十进制货币系统、荷英混杂文本等极端场景下表现出色,历史学家认为这标志AI跨越真正"理解"界限。

https://mp.weixin.qq.com/s/JqHBlGKWbhKVDPglAuwGtw

十七、ElevenLabs发布Scribe v2 Realtime实时语音转文本模型

1. AI语音独角兽ElevenLabs发布Scribe v2 Realtime模型,实现150毫秒超低延迟、93.5%高准确率,覆盖90多种语言;

2. 该模型在FLEURS基准测试中针对前30种常用语言准确率达93.5%,能精准识别方言、专业术语,甚至辨别笑声类型;

3. ElevenLabs成立于2022年,目前拥有7000万用户,月均生成3000万份文档,去年融资1200万美元完成C轮后估值达33亿美元。

https://mp.weixin.qq.com/s/0Z44DWSPn0faugYjw44m1w

十八、OpenAI 将推出「Group chats」群聊功能,独立于个人记忆

1. ChatGPT网页版即将推出群聊功能预览版,用户可生成链接分享,所有成员能查看之前对话记录,支持文件上传、图像生成等功能;

2. 群聊的自定义指令与个人ChatGPT设置完全独立,个人记忆功能永远不会在群聊中使用,保护用户隐私;

3. OpenAI CEO暗示需要原生支持AI的生产力套件取代Slack等工具,此举被解读为OpenAI意图获取企业对话数据以改进模型。

https://mp.weixin.qq.com/s/99C0YfCxG6UtcEOIO7H_OA

十九、Lovart上线分层图像编辑!一键模版自由,设计师的福音

1. LiblibAI旗下Lovart推出"Edit Elements"分层图像编辑功能,可将像素位图一键拆分为文字、前景、背景多个图层;

2. 该功能实现从位图产物反推回图层模版,文字按段落格式返回可编辑,支持中英文识别,AI生成图片也能匹配相似字体;

3. 用户每日登陆可领取100积分,分层编辑功能目前活动期免费使用,可结合AI编辑模型进行图像替换。

https://mp.weixin.qq.com/s/uQWmlVAM34ZpyEy606qXOw


二十、OpenAI上线 GPT-5.1 系列模型,不仅聪明还更有人情味

1. OpenAI发布GPT-5.1模型OpenAI 表示出色的 AI 不仅要聪明,还要让人与之对话变得愉悦

2. GPT-5.1 Instant:ChatGPT 最常用的模型,更温暖、更智能,也更善于遵循指令的模型

3. GPT-5.1 Thinking:高级推理模型,在简单任务上更快,在复杂任务上更持久,也更容易理解

https://mp.weixin.qq.com/s/XiSWqu9raj8OfEXTWVvCVQ

二十一、李飞飞 AI「造世神器」一句话打造 3D 世界|附实测体验

1. 李飞飞团队World Labs正式向全体用户开放3D世界生成模型Marble,支持文本、图像、视频、3D布局等多模态输入方式;

2. Marble首创AI原生编辑工具可对生成世界进行局部替换和结构调整,Chisel功能实现结构与风格分离,同一框架可生成不同风格场景;

3. 提供免费版(7000点数/月)至旗舰版(120000点数/月)四档订阅,支持高斯溅射、三角网格、视频等多种导出格式可直接导入游戏引擎。

https://mp.weixin.qq.com/s/MutPeEl76Fw9o6EHPtKRiw

二十二、Anthropic掷500亿美元联手Fluidstack,拟自建AI infra

1. Anthropic宣布与英国云服务商Fluidstack达成500亿美元数据中心合作协议,将在得克萨斯州和纽约州建设专为Anthropic定制的设施;

2. 这是Anthropic首次大手笔投入建设定制化基础设施,符合其预计到2028年实现700亿美元收入和170亿美元正向现金流的内部预测;

3. Fluidstack这家2017年成立的公司已与Meta、Mistral等建立合作,是首批获得谷歌定制TPU的第三方供应商之一。

https://mp.weixin.qq.com/s/KeRg-xEi5fqjtZ_K1nPFWg

二十三、谷歌Gemini Live语音大升级:AI语音进入拟人化2.0时代

1. 谷歌Gemini Live语音功能全面升级,支持实时语速调节、情绪化语气响应、牛仔腔/伦敦腔等风格化语音等五大核心能力;

2. 基于Gemini2.5Flash模型深度优化语音引擎,显著提升对语调、重音、停顿与音高微变的建模能力,能感知用户情绪自动调整语气;

3. 无缝融入Google生态,在Maps中可直接查询无需唤醒,靠近Pixel Watch抬手腕即可无声启动对话,所有语音数据默认不存储。

https://mp.weixin.qq.com/s/tWxtqhmaIP2XVhhFkCDPcw

二十四、文心5.0正式发布,一手实测2.4万亿参数原生全模态模型

1. 百度文心5.0正式发布,主打原生全模态,最开始就把语言/图像/视频/音频放在同一套自回归统一架构里进行统一训练;

2. 支持全模态输入(文/图/音/视频)+多模态输出(文/图),在LMArena文本排行榜得分1432表现

3. 模型总参数规模超2.4万亿,超稀疏激活参数设计激活比例低于3%,已上线文心一言网页版、文心App及百度千帆平台提供API服务。

https://mp.weixin.qq.com/s/wMeWKu2HAGuilZtlY7Q5KA

二十五、LiblibAI 上线混元图像3.0,工业级原生多模态,附实测

1. 腾讯推出的工业级原生多模态生图模型混元图像3.0现已支持在LiblibAI上使用,能利用世界知识进行推理准确理解千字级复杂提示词;

2. 该模型具备世界知识推理能力可生成带逻辑的连续性内容,支持中英文文字生成以及超长文本渲染,整体美学接近商业级模型;

3. 在真实光影质感、风格材质、推理生成和文本渲染等多方面表现突出,极致真实质感。

https://mp.weixin.qq.com/s/zWW5eC5MjWeIIr5mv8alKg

二十六、成本不到8千美元!新浪微博发布VibeThinker-1.5B模型

1. 新浪微博发布并开源VibeThinker-1.5B模型,仅15亿参数训练成本不足8000美元,在AIME25等顶级数学竞赛基准上击败近万亿参数的DeepSeek-R1;

2. 采用创新的频谱到信号原则(SSP),将SFT和RL目标解耦,SFT阶段追求多样性(Pass@K)、RL阶段追求准确性(Pass@1);

3. 在NVIDIA H800 GPU上总计算成本不到8000美元,成本效益比达惊人的30到60倍,15亿参数可轻松运行在手机等边缘设备上。

https://mp.weixin.qq.com/s/bf3fy7o_3imszz4bQ6cKRg



【声明】内容源于网络
0
0
上海蓝玥信息科技有限公司
1234
内容 108
粉丝 0
上海蓝玥信息科技有限公司 1234
总阅读371
粉丝0
内容108