

AI一周资讯速递（9.15-9.19）

上海蓝玥信息科技有限公司

2025-09-20

一、 OpenAI与微软发布了非约束性的合作备忘录，重组待定

1. OpenAI与微软发布非约束性合作备忘录，涉及云服务托管、知识产权归属和AGI控制权等核心问题，但最终合作条约仍未拍板；

2. OpenAI预计成立估值超1000亿美元的公益公司(PBC)，非营利机构将持有股权并保持控制权，成为全球资源最充足的慈善组织之一；

3. OpenAI面临巨大成本压力，预计2029年前烧掉1150亿美元，仅2030年就需花费1000亿美元租赁服务器，未来几年几乎没有容错空间。

https://mp.weixin.qq.com/s/CM_O0ZWaDqcavhPb6DKg1g

二、前谷歌X团队靠AI电影锁定戛纳！创立AI原生版皮克斯

1. 全球首家AI原生影视工作室Utopai由前谷歌X团队创立，两部电影项目已带来1.1亿美元收入，锁定戛纳电影节；

2. Utopai突破AI视频生成三大难题：一致性、可控性和叙事延续性，实现毫秒级精准对口型，模型内置物理规律的3D数据训练；

3. 公司定位为内容+AI而非纯工具供应商，已获好莱坞顶级资源支持，为电影《科尔特斯》邀请奥斯卡提名编剧，八集科幻剧《太空计划》成功预售欧洲市场。

https://mp.weixin.qq.com/s/Zf3YdM4t8f-tprImv_rDTg

三、 MiniMax Music 1.5上线，4分钟时长、回归"好听"本质

1. MiniMax发布新一代音乐生成模型Music 1.5，支持长达4分钟的完整歌曲创作，具备强控制力、人声自然饱满、编曲层次丰富和歌曲结构清晰四大突破；

2. 模型支持"16种风格×11种情绪×10个场景"自定义音乐特征，能生成不同声线唱腔，并支持中国民族乐器生成，真正实现Intro/Verse/Chorus段落分明；

3. 基于MiniMax多模态自研能力积累，同步面向全球开发者提供API，适用于专业音乐创作、影视游戏配乐、虚拟偶像单曲和企业品牌专属音频内容多种场景。

https://mp.weixin.qq.com/s/UzMDWMHFZDlIUZwhhBpcYQ

四、抢先实测美团首个AI Agent，让我体验一把「懒人点餐」

1. 美团首个AI Agent产品"小美"开启公测，通过自然语言指令点咖啡、找餐厅、规划早餐菜单，大幅简化点餐流程；

2. 小美基于美团自研Longcat模型(5600亿总参数)，能根据用户口味偏好和地理位置实现从选品到支付的全自动操作，并记忆用户习惯；

3. 与Agent热潮相呼应，但目前仍有局限性：无法处理复杂模糊需求、无法进行语音回复，未来将在个性化和主动服务能力上进一步优化。

https://mp.weixin.qq.com/s/oISuURyCcBwbmFQyUsddwg

五、小红书对话生成模型FireRedTTS-2，轻松做出AI播客！

1. 小红书智创音频技术团队发布新一代对话合成模型FireRedTTS-2，解决现有方案灵活性差、发音错误多、说话人切换不稳定和韵律不自然等问题；

2. 模型在数百万小时语音数据上训练，支持逐句生成与多说话人音色切换，能够通过一句语音样本模仿音色和说话习惯，流式解码可实时输出音频；

3. 在主客观评测中均达行业领先水平，开箱即用支持中文、英语、日语等多语言，是AI播客等对话合成应用的工业级解决方案，已开源代码与模型权重。

https://mp.weixin.qq.com/s/XUiCDtUqrYGsy-LkE6aKwA

六、 B站开源语音合成模型IndexTTS2，感情充沛，精准口型

1. 哔哩哔哩开源新一代零样本语音合成模型IndexTTS2，解决行业痛点：实现毫秒级精准时长控制，让AI配音能严丝合缝对上口型；

2. 模型采用"通用且兼容自回归架构的语音时长控制方法"，达到0.02%的时长误差率，同时通过两阶段训练策略实现情感和说话人身份的"解耦"；

3. 系统由T2S(文本到语义)、S2M(语义到梅尔频谱)及BigVGANv2声码器三大核心模块组成，支持用大白话控制情绪，在跨语言产业应用上具有重大意义。

https://mp.weixin.qq.com/s/fkGPr9tpXoC9u_b7ch1YNg

七、 Meta AI 团队正式发布了 MobileLLM-R1，小模型R1时代

1. Meta AI发布MobileLLM-R1系列小参数高效模型，包括140M/360M/950M三种规模，专为数学、编程和科学问题优化；

2. 最大的950M模型仅使用约2T高质量token预训练(总训练量不足5T)，性能却与使用36T token训练的Qwen3 0.6B相当或更佳；

3. 在MATH基准上比Olmo 1.24B高五倍，比SmolLM2 1.7B高两倍，Token效率和性价比极高，完全开源模型中创造新标杆。

https://mp.weixin.qq.com/s/wQysh8qKFynOUQ20fvUfcQ

八、 Google Gemini 凭Nano Banana登顶 App Store 免费榜

1. Google Gemini通过爆火的Nano Banana图像编辑功能一举超越ChatGPT登顶App Store免费榜；

2. Gemini成为完整AI工具集，包含画布、Veo3视频生成、Storybook故事板及Deep Research等多功能；

3. Google AI全家桶还包括NotebookLM知识库(最多可上传300个文件)、Flow视频生成(支持1080p高清)、AI Mode搜索和Gemini CLI本地助手。

https://mp.weixin.qq.com/s/gdSkrm95Mq1RORe-sIoK4A

九、马斯克的最快AI模型，75 token/秒，比标准版快10倍！

1. xAI发布Grok 4 Fast模型，生成速度高达每秒75个token，比标准版快10倍，具有明显的实时交互优势；

2. 网友测试显示，新模型在编程题、初中数学题等任务上准确且速度惊人，能在不到2秒内解决LeetCode题目；

3. 尽管速度领先，Grok 4 Fast仍有准确性妥协，适合简单查询或工具使用场景，体现了xAI近期专注速度的战略。

https://mp.weixin.qq.com/s/5TRim0q2ZI-b-LFXGJaKmA

十、可灵发布可以聊一分钟的数字人，精控表演接近业内底价

1. 可灵AI推出新版数字人功能，支持最长60秒单次输出，1080P/48帧规格，大幅提升面部识别和口型精度；

2. 新功能支持提示词控制角色情绪和动作，使数字人呈现更丰富的表情和肢体语言，能准确执行"看提词卡"等特定动作；

3. 可灵数字人在720P标准下价格为0.12元/秒(黑金会员)，约为Heygen同类产品三分之一，接近业内最低价。

https://mp.weixin.qq.com/s/na-dTVcNwKLc-UNDsEbFfQ

十一、腾讯混元升级AI绘画微调范式，真实感和美学评分升3倍

1. 腾讯混元提出新方法优化AI绘画，通过Direct-Align和语义相对偏好优化(SRPO)技术改进扩散模型训练；

2. Direct-Align在整个扩散轨迹上进行优化，避免传统方法只优化后期步骤造成的"奖励作弊"问题；

3. SRPO将奖励重定义为文本条件信号，经该方法训练的FLUX1.dev模型真实感和美学评分提高3倍以上，且仅需32块H20训练10分钟。

https://mp.weixin.qq.com/s/535bmvdYuxiZEQVGzIXNhw

十二、这个国家任命AI为「部长」？手握实权，招标100%透明

1. 阿尔巴尼亚成为全球首个任命"AI部长"的国家，命名为Diella的AI系统将全面负责公共采购项目；

2. Diella将作为政府透明改革试金石，负责评估招标和选聘人才，以实现"公共招标100%廉洁"的目标；

3. 此举旨在解决阿尔巴尼亚长期困扰的公共招标腐败问题，同时推动该国数字政府转型，强调AI决策的客观公正性。

https://mp.weixin.qq.com/s/w7hsIF5cg4f0MuH4GGNuYw

十三、 OpenAI发布GPT-5-Codex：可独立连续工作超7小时

1. OpenAI发布GPT-5-Codex专为智能体编程优化，可自主连续工作超7小时，已在Codex所有使用场景上线并整合ChatGPT账号体系；

2. 该模型在SWE-bench Verified和代码重构两大基准测试中性能超越GPT-5(high)，可根据任务复杂度动态调整思考时间；

3. GPT-5-Codex具备代码审查能力，能主动发现漏洞，上线仅两小时半流量已占Codex总量40%，支持多种工具调用并计划API开放。

https://mp.weixin.qq.com/s/f6zSmd2no70eAk_hu-hfmA

十四、腾讯混元3D 3.0来了，多指标提升，真人手办建模自由！

1. 腾讯发布混元3D 3.0模型，建模精度提升3倍，几何分辨率达1536³，支持36亿体素超高清建模，解决整体结构与局部细节生成难点；

2. 新模型针对人物生成专项优化，实现精细面部重塑，告别"抽象脸"问题，大幅提升人物真实感与美观度，达到真人手办级别效果；

3. 同步上线腾讯云API和专业级混元3D Studio工作台，覆盖3D管线七大核心环节，已成为全球下载量超260万的最受欢迎开源3D模型之一。

https://mp.weixin.qq.com/s/XzJIt8glOd82pVs_YXjf6w

十五、昆仑万维上线「Agent Studio」功能，私人音乐工作室

1. 昆仑万维旗下AI音乐创作平台Mureka上线"Agent Studio"功能，免除复杂prompt，用户只需说出想法，由Agent自动生成合适歌词、匹配音乐风格；

2. 目前已上线六个不同Agent场景：Make Album（创作专辑）、Tarot Tunes（塔罗音愈）、Buzz Tracks（热点写歌）、Diss Tracks（Diss制造机）、Gift a Song（以歌致礼）和Spicy Song（撩人情歌）；

3. Agent Studio支持基于热门话题创作、结合网络实时搜索生成个性化音乐，让音乐创作融入日常生活，成为人人可用的创作伙伴。

https://mp.weixin.qq.com/s/LNjbrW6yNoKFmnPnywxiVg

十六、宇树开源世界模型-动作架构，名叫UnifoLM-WMA-0

1. 宇树科技开源机器人世界模型-动作架构UnifoLM-WMA-0，拥有理解机器人和环境相互作用物理规律的世界模型，可适配多种机器人本体；

2. 该模型支持决策模式（预测交互关键信息）和仿真模式（生成环境反馈）两种核心功能，可实现精准动作预测，在真机测试中预测与实际操作高度吻合；

3. 模型使用Open-X数据集微调视频生成能力，基于5个开源数据集完成全流程训练，GitHub发布后迅速获得100+星标，推理代码和模型检查点均已开源。

https://mp.weixin.qq.com/s/z4IQi1hSi7_LAg5_g3mXOQ

十七、李飞飞空间智能新成果，3D世界生成进入无限探索时代？

1. 李飞飞创业公司World Labs发布空间智能模型Marble，能仅用一张图片或文本提示生成持久存在的大规模3D世界；

2. 相比之前产品，Marble生成的3D世界规模更大、风格更多样化、几何结构更干净，且支持浏览器中自由视角导航；

3. 用户可将生成世界导出为高斯点云并集成到Three.js中，实现在桌面、移动设备和VR头显上的高效运行，已开放白名单测试。

https://mp.weixin.qq.com/s/-hw_l9Pk72IIify0WUYZJA

十八、 Agent进入支付时代？谷歌联手60+巨头官宣AI支付协议

1. 谷歌联合美国运通、PayPal、Mastercard等60多家机构推出代理支付协议(AP2)，旨在创建AI代理支付的安全标准框架；

2. AP2通过"授权书"(Mandates)构建信任，使用加密签名的数字合同作为用户指令证明，允许用户预授权AI代理在特定条件下自动完成购买；

3. 该协议支持实时购买和无人工参与的委托任务，加密版本A2A x402还支持稳定币支付，目前已开放GitHub仓库供开发者探索。

https://mp.weixin.qq.com/s/FHfnpECZu-5ZNJ7JAgTe9Q

十九、 OpenAI和Anthropic进入新战场：训练AI操作企业软件

1. Anthropic计划投资10亿美元创建企业应用克隆体，OpenAI预计到2030年在数据相关成本上支出80亿美元；

2. 两家公司正在使用"强化学习环境"(模拟企业应用)训练AI模型操作各种专业软件，如Salesforce、Zendesk、Cerner；

3. 或将聘请领域专家示范任务执行，通过训练AI成为"虚拟同事"，开辟新的盈利渠道。

https://mp.weixin.qq.com/s/wL3msfp0dRavNcKuMZq6_g

二十、腾讯云宣布智能体开发平台3.0（ADP3.0）面向全球上线

1. 腾讯云ADP3.0全面升级RAG、Multi-Agent、WorkFlow和应用构建工具链，近3个月完成近600个功能上线；

2. 平台升级包括完善知识库管理运维、支持多方式配置Agent协同、工作流全局Agent视野和即时指令等技术；

3. 已针对性推出智能质检、媒体内容处理等行业Agent，优图实验室将开源Youtu-Agent智能体框架和Youtu-GraphRAG知识图谱框架。

https://mp.weixin.qq.com/s/ECFXRpHGsQDbFLNFtLcOWQ

二十一、 ima支持上传音频文件了！新版本更新三项「效率法宝」

1. ima更新支持上传MP3、M4A、WAV、AAC格式音频文件，AI自动生成原文、速览和纪要，方便处理培训录音等内容；

2. 更新增加电脑端快捷键截图功能，用户可设置截图后直接提问、加入知识库或记笔记；

3. 手机端笔记支持离线编辑与新建，无网络状态下也能记录灵感，联网后自动同步。

https://mp.weixin.qq.com/s/VFrUqlcZOiEDrrA1dVxAvg

二十二、 YouTube 引入Veo3定制版为短视频创作者推出 AI 工具

1. YouTube推出面向Shorts创作者的生成式AI工具，将谷歌文本转视频模型Veo 3的定制版"Veo 3 Fast"引入短视频创作；

2. 新版可以480p分辨率低延迟生成内容，同步添加声音，还能将视频动态效果应用到静态图片上；

3. YouTube还推出基于谷歌Lyria 2的"语音转歌曲"混音工具和"AI编辑"功能，后者可自动整理精彩片段，添加音乐与转场效果。

https://mp.weixin.qq.com/s/CYWmr-UQ9apv1lPWWzyvTA

二十三、华为昇腾AI芯片4年5款产品路线图，搭载自研HBM

1. 华为发布昇腾AI芯片4年5款产品路线图，包括2026年Q1推出的昇腾950PR、2026年Q4的昇腾950DT、2027年Q4的昇腾960和2028年Q4的昇腾970；

2. 新芯片系列支持低精度数据格式，昇腾950PR在FP8/MXFP8/HiF8精度下算力达1PFLOPS，MXFP4下达2PFLOPS，采用自研HiBL 1.0内存；

3. 华为同时推出全球最强算力超节点和集群，包括Atlas 950 SuperPoD支持8192张卡无收敛全互联，Atlas 960 SuperCluster算力规模可达百万卡。

https://mp.weixin.qq.com/s/dJGuwC2Fd4kSI_c47kjtYg

二十四、 OpenAI在ICPC编程赛上满分登顶，Gemini同获金牌

1. OpenAI在ICPC 2025编程竞赛中5小时内解决全部12个问题，成绩相当于人类排名第1位，其中使用GPT-5和一款实验性推理模型共同完成；

2. 谷歌Gemini 2.5 Deep Think解决10个问题，总用时677分钟，达到金牌级表现，若与大学队伍对比排名第2；

3. 两家公司模型均未针对ICPC进行专门训练，Gemini在半小时内解决了竞赛中无任何大学队伍解出的C题，展示出AI在复杂推理和编程问题上的突破性进展。

https://mp.weixin.qq.com/s/Bws9enDXB5CvyhW1cG5DYw

二十五、小扎演示多次翻车，但这依然是 2025 最好的 AI 眼镜？

1. Meta发布三款新智能眼镜，其中Meta Ray-Ban Display是首款带有彩色光波导HUD显示屏和Meta Neural Band肌电神经接口的AI眼镜，售价799美元；

2. Ray-Ban Meta (Gen 2)作为小改款主力机型，电池续航翻倍，支持3K分辨率录制，新增Conversation Focus功能增强人声频率，售价379美元；

3. Oakley Meta Vanguard针对运动人群，采用运动防风镜外形，中央广角摄机，9小时续航，支持与Strava和佳明设备整合，售价499美元。

https://mp.weixin.qq.com/s/GkeLnn-zD09povrqgzTYvQ

二十六、 R1 论文以封面文章的形式登上了权威科学期刊 Nature

1. DeepSeek-R1论文以封面文章登上Nature，证明大语言模型的推理能力可以通过纯强化学习提升，无需人工标注的推理过程；

2. 研究团队提出"群体相对策略优化"(GRPO)算法，帮助模型演化出更多样化、复杂的推理行为，在21个主流基准测试上表现优异；

3. Nature社论将DeepSeek-R1评为"第一个在经过同行评审后发表的主流LLM"，认为这是朝着AI透明化迈出的可喜一步，有助于遏制AI行业的过度炒作。

https://mp.weixin.qq.com/s/r1h3UnsNZpy8twqbSvu_lQ

二十七、阿里开源深度研究Agent模型「通义DeepResearch」

1. 阿里开源首个深度研究Agent模型：通义DeepResearch，拥有3B激活参数，性能对标基于OpenAI o3、DeepSeek V3.1和Claude-4-Sonnet等旗舰模型的ReAct Agent；

2. 该模型在HLE、BrowseComp、BrowseComp-ZH、GAIA等七大Agent评测集中表现优异，模型、框架和方案已在Github、Hugging Face和魔搭社区全面开源；

3. 研究团队构建了合成数据驱动的完整训练链路，以Qwen3-30B-A3B模型为基础，设计了ReAct和基于自研IterResearch的Heavy两种推理模式，解决了"认知空间窒息"与"不可逆噪声污染"问题。

https://mp.weixin.qq.com/s/eLh2TvtrMyN2ulOSEC0wdw

二十八、天工超级智能体上线Vibe Coding Agent「AI Developer」

1. 天工超级智能体(Skywork Super Agents)正式上线Vibe Coding Agent—AI Developer，帮助非专业开发人员通过自然语言交互快速构建、部署和管理全栈Web应用程序；

2. AI Developer不仅能生成前端页面，还可与Supabase深度集成，实现数据库、用户鉴权、文件存储、实时更新和调用外部服务等后端功能；

3. 该功能还提供Stripe支付和Resend邮箱服务集成，支持用户打造包含付款和邮件通知功能的应用，大大降低了全栈开发的门槛。

https://mp.weixin.qq.com/s/PyhfcKrpwaMCyD5MEl2_DQ

【声明】内容源于网络

上海蓝玥信息科技有限公司

1234

内容 108

粉丝 0

上海蓝玥信息科技有限公司 1234

总阅读371

粉丝0

内容108