大数跨境
0
0

AI一周资讯速递(9.15-9.19)

AI一周资讯速递(9.15-9.19) 上海蓝玥信息科技有限公司
2025-09-20
1

一、 OpenAI与微软发布了非约束性的合作备忘录,重组待定

1. OpenAI与微软发布非约束性合作备忘录,涉及云服务托管、知识产权归属和AGI控制权等核心问题,但最终合作条约仍未拍板;

2. OpenAI预计成立估值超1000亿美元的公益公司(PBC),非营利机构将持有股权并保持控制权,成为全球资源最充足的慈善组织之一;

3. OpenAI面临巨大成本压力,预计2029年前烧掉1150亿美元,仅2030年就需花费1000亿美元租赁服务器,未来几年几乎没有容错空间。

https://mp.weixin.qq.com/s/CM_O0ZWaDqcavhPb6DKg1g

二、 前谷歌X团队靠AI电影锁定戛纳!创立AI原生版皮克斯

1. 全球首家AI原生影视工作室Utopai由前谷歌X团队创立,两部电影项目已带来1.1亿美元收入,锁定戛纳电影节;

2. Utopai突破AI视频生成三大难题:一致性、可控性和叙事延续性,实现毫秒级精准对口型,模型内置物理规律的3D数据训练;

3. 公司定位为内容+AI而非纯工具供应商,已获好莱坞顶级资源支持,为电影《科尔特斯》邀请奥斯卡提名编剧,八集科幻剧《太空计划》成功预售欧洲市场。

https://mp.weixin.qq.com/s/Zf3YdM4t8f-tprImv_rDTg

三、 MiniMax Music 1.5上线,4分钟时长、回归"好听"本质

1. MiniMax发布新一代音乐生成模型Music 1.5,支持长达4分钟的完整歌曲创作,具备强控制力、人声自然饱满、编曲层次丰富和歌曲结构清晰四大突破;

2. 模型支持"16种风格×11种情绪×10个场景"自定义音乐特征,能生成不同声线唱腔,并支持中国民族乐器生成,真正实现Intro/Verse/Chorus段落分明;

3. 基于MiniMax多模态自研能力积累,同步面向全球开发者提供API,适用于专业音乐创作、影视游戏配乐、虚拟偶像单曲和企业品牌专属音频内容多种场景。

https://mp.weixin.qq.com/s/UzMDWMHFZDlIUZwhhBpcYQ

四、 抢先实测美团首个AI Agent,让我体验一把「懒人点餐」

1. 美团首个AI Agent产品"小美"开启公测,通过自然语言指令点咖啡、找餐厅、规划早餐菜单,大幅简化点餐流程;

2. 小美基于美团自研Longcat模型(5600亿总参数),能根据用户口味偏好和地理位置实现从选品到支付的全自动操作,并记忆用户习惯;

3. 与Agent热潮相呼应,但目前仍有局限性:无法处理复杂模糊需求、无法进行语音回复,未来将在个性化和主动服务能力上进一步优化。

https://mp.weixin.qq.com/s/oISuURyCcBwbmFQyUsddwg

五、 小红书对话生成模型FireRedTTS-2,轻松做出AI播客!

1. 小红书智创音频技术团队发布新一代对话合成模型FireRedTTS-2,解决现有方案灵活性差、发音错误多、说话人切换不稳定和韵律不自然等问题;

2. 模型在数百万小时语音数据上训练,支持逐句生成与多说话人音色切换,能够通过一句语音样本模仿音色和说话习惯,流式解码可实时输出音频;

3. 在主客观评测中均达行业领先水平,开箱即用支持中文、英语、日语等多语言,是AI播客等对话合成应用的工业级解决方案,已开源代码与模型权重。

https://mp.weixin.qq.com/s/XUiCDtUqrYGsy-LkE6aKwA

六、 B站开源语音合成模型IndexTTS2,感情充沛,精准口型

1. 哔哩哔哩开源新一代零样本语音合成模型IndexTTS2,解决行业痛点:实现毫秒级精准时长控制,让AI配音能严丝合缝对上口型;

2. 模型采用"通用且兼容自回归架构的语音时长控制方法",达到0.02%的时长误差率,同时通过两阶段训练策略实现情感和说话人身份的"解耦";

3. 系统由T2S(文本到语义)、S2M(语义到梅尔频谱)及BigVGANv2声码器三大核心模块组成,支持用大白话控制情绪,在跨语言产业应用上具有重大意义。

https://mp.weixin.qq.com/s/fkGPr9tpXoC9u_b7ch1YNg

七、 Meta AI 团队正式发布了 MobileLLM-R1,小模型R1时代

1. Meta AI发布MobileLLM-R1系列小参数高效模型,包括140M/360M/950M三种规模,专为数学、编程和科学问题优化;

2. 最大的950M模型仅使用约2T高质量token预训练(总训练量不足5T),性能却与使用36T token训练的Qwen3 0.6B相当或更佳;

3. 在MATH基准上比Olmo 1.24B高五倍,比SmolLM2 1.7B高两倍,Token效率和性价比极高,完全开源模型中创造新标杆。

https://mp.weixin.qq.com/s/wQysh8qKFynOUQ20fvUfcQ


八、 Google Gemini 凭Nano Banana登顶 App Store 免费榜

1. Google Gemini通过爆火的Nano Banana图像编辑功能一举超越ChatGPT登顶App Store免费榜;

2. Gemini成为完整AI工具集,包含画布、Veo3视频生成、Storybook故事板及Deep Research等多功能;

3. Google AI全家桶还包括NotebookLM知识库(最多可上传300个文件)、Flow视频生成(支持1080p高清)、AI Mode搜索和Gemini CLI本地助手。

https://mp.weixin.qq.com/s/gdSkrm95Mq1RORe-sIoK4A

九、 马斯克的最快AI模型,75 token/秒,比标准版快10倍!

1. xAI发布Grok 4 Fast模型,生成速度高达每秒75个token,比标准版快10倍,具有明显的实时交互优势;

2. 网友测试显示,新模型在编程题、初中数学题等任务上准确且速度惊人,能在不到2秒内解决LeetCode题目;

3. 尽管速度领先,Grok 4 Fast仍有准确性妥协,适合简单查询或工具使用场景,体现了xAI近期专注速度的战略。

https://mp.weixin.qq.com/s/5TRim0q2ZI-b-LFXGJaKmA

十、 可灵发布可以聊一分钟的数字人,精控表演接近业内底价

1. 可灵AI推出新版数字人功能,支持最长60秒单次输出,1080P/48帧规格,大幅提升面部识别和口型精度;

2. 新功能支持提示词控制角色情绪和动作,使数字人呈现更丰富的表情和肢体语言,能准确执行"看提词卡"等特定动作;

3. 可灵数字人在720P标准下价格为0.12元/秒(黑金会员),约为Heygen同类产品三分之一,接近业内最低价。

https://mp.weixin.qq.com/s/na-dTVcNwKLc-UNDsEbFfQ

十一、 腾讯混元升级AI绘画微调范式,真实感和美学评分升3倍

1. 腾讯混元提出新方法优化AI绘画,通过Direct-Align和语义相对偏好优化(SRPO)技术改进扩散模型训练;

2. Direct-Align在整个扩散轨迹上进行优化,避免传统方法只优化后期步骤造成的"奖励作弊"问题;

3. SRPO将奖励重定义为文本条件信号,经该方法训练的FLUX1.dev模型真实感和美学评分提高3倍以上,且仅需32块H20训练10分钟。

https://mp.weixin.qq.com/s/535bmvdYuxiZEQVGzIXNhw

十二、 这个国家任命AI为「部长」?手握实权,招标100%透明

1. 阿尔巴尼亚成为全球首个任命"AI部长"的国家,命名为Diella的AI系统将全面负责公共采购项目;

2. Diella将作为政府透明改革试金石,负责评估招标和选聘人才,以实现"公共招标100%廉洁"的目标;

3. 此举旨在解决阿尔巴尼亚长期困扰的公共招标腐败问题,同时推动该国数字政府转型,强调AI决策的客观公正性。

https://mp.weixin.qq.com/s/w7hsIF5cg4f0MuH4GGNuYw


十三、 OpenAI发布GPT-5-Codex:可独立连续工作超7小时

1. OpenAI发布GPT-5-Codex专为智能体编程优化,可自主连续工作超7小时,已在Codex所有使用场景上线并整合ChatGPT账号体系;

2. 该模型在SWE-bench Verified和代码重构两大基准测试中性能超越GPT-5(high),可根据任务复杂度动态调整思考时间;

3. GPT-5-Codex具备代码审查能力,能主动发现漏洞,上线仅两小时半流量已占Codex总量40%,支持多种工具调用并计划API开放。

https://mp.weixin.qq.com/s/f6zSmd2no70eAk_hu-hfmA

十四、 腾讯混元3D 3.0来了,多指标提升,真人手办建模自由!

1. 腾讯发布混元3D 3.0模型,建模精度提升3倍,几何分辨率达1536³,支持36亿体素超高清建模,解决整体结构与局部细节生成难点;

2. 新模型针对人物生成专项优化,实现精细面部重塑,告别"抽象脸"问题,大幅提升人物真实感与美观度,达到真人手办级别效果;

3. 同步上线腾讯云API和专业级混元3D Studio工作台,覆盖3D管线七大核心环节,已成为全球下载量超260万的最受欢迎开源3D模型之一。

https://mp.weixin.qq.com/s/XzJIt8glOd82pVs_YXjf6w

十五、 昆仑万维上线「Agent Studio」功能,私人音乐工作室

1. 昆仑万维旗下AI音乐创作平台Mureka上线"Agent Studio"功能,免除复杂prompt,用户只需说出想法,由Agent自动生成合适歌词、匹配音乐风格;

2. 目前已上线六个不同Agent场景:Make Album(创作专辑)、Tarot Tunes(塔罗音愈)、Buzz Tracks(热点写歌)、Diss Tracks(Diss制造机)、Gift a Song(以歌致礼)和Spicy Song(撩人情歌);

3. Agent Studio支持基于热门话题创作、结合网络实时搜索生成个性化音乐,让音乐创作融入日常生活,成为人人可用的创作伙伴。

https://mp.weixin.qq.com/s/LNjbrW6yNoKFmnPnywxiVg

十六、 宇树开源世界模型-动作架构,名叫UnifoLM-WMA-0

1. 宇树科技开源机器人世界模型-动作架构UnifoLM-WMA-0,拥有理解机器人和环境相互作用物理规律的世界模型,可适配多种机器人本体;

2. 该模型支持决策模式(预测交互关键信息)和仿真模式(生成环境反馈)两种核心功能,可实现精准动作预测,在真机测试中预测与实际操作高度吻合;

3. 模型使用Open-X数据集微调视频生成能力,基于5个开源数据集完成全流程训练,GitHub发布后迅速获得100+星标,推理代码和模型检查点均已开源。

https://mp.weixin.qq.com/s/z4IQi1hSi7_LAg5_g3mXOQ


十七、 李飞飞空间智能新成果,3D世界生成进入无限探索时代?

1. 李飞飞创业公司World Labs发布空间智能模型Marble,能仅用一张图片或文本提示生成持久存在的大规模3D世界;

2. 相比之前产品,Marble生成的3D世界规模更大、风格更多样化、几何结构更干净,且支持浏览器中自由视角导航;

3. 用户可将生成世界导出为高斯点云并集成到Three.js中,实现在桌面、移动设备和VR头显上的高效运行,已开放白名单测试。

https://mp.weixin.qq.com/s/-hw_l9Pk72IIify0WUYZJA

十八、 Agent进入支付时代?谷歌联手60+巨头官宣AI支付协议

1. 谷歌联合美国运通、PayPal、Mastercard等60多家机构推出代理支付协议(AP2),旨在创建AI代理支付的安全标准框架;

2. AP2通过"授权书"(Mandates)构建信任,使用加密签名的数字合同作为用户指令证明,允许用户预授权AI代理在特定条件下自动完成购买;

3. 该协议支持实时购买和无人工参与的委托任务,加密版本A2A x402还支持稳定币支付,目前已开放GitHub仓库供开发者探索。

https://mp.weixin.qq.com/s/FHfnpECZu-5ZNJ7JAgTe9Q

十九、 OpenAI和Anthropic进入新战场:训练AI操作企业软件

1. Anthropic计划投资10亿美元创建企业应用克隆体,OpenAI预计到2030年在数据相关成本上支出80亿美元;

2. 两家公司正在使用"强化学习环境"(模拟企业应用)训练AI模型操作各种专业软件,如Salesforce、Zendesk、Cerner;

3. 聘请领域专家示范任务执行,通过训练AI成为"虚拟同事",开辟新的盈利渠道。

https://mp.weixin.qq.com/s/wL3msfp0dRavNcKuMZq6_g

二十、 腾讯云宣布智能体开发平台3.0(ADP3.0)面向全球上线

1. 腾讯云ADP3.0全面升级RAG、Multi-Agent、WorkFlow和应用构建工具链,近3个月完成近600个功能上线;

2. 平台升级包括完善知识库管理运维、支持多方式配置Agent协同、工作流全局Agent视野和即时指令等技术;

3. 已针对性推出智能质检、媒体内容处理等行业Agent,优图实验室将开源Youtu-Agent智能体框架和Youtu-GraphRAG知识图谱框架。

https://mp.weixin.qq.com/s/ECFXRpHGsQDbFLNFtLcOWQ

二十一、 ima支持上传音频文件了!新版本更新三项「效率法宝」

1. ima更新支持上传MP3、M4A、WAV、AAC格式音频文件,AI自动生成原文、速览和纪要,方便处理培训录音等内容;

2. 更新增加电脑端快捷键截图功能,用户可设置截图后直接提问、加入知识库或记笔记;

3. 手机端笔记支持离线编辑与新建,无网络状态下也能记录灵感,联网后自动同步。

https://mp.weixin.qq.com/s/VFrUqlcZOiEDrrA1dVxAvg

二十二、 YouTube 引入Veo3定制版为短视频创作者推出 AI 工具

1. YouTube推出面向Shorts创作者的生成式AI工具,将谷歌文本转视频模型Veo 3的定制版"Veo 3 Fast"引入短视频创作;

2. 新版可以480p分辨率低延迟生成内容,同步添加声音,还能将视频动态效果应用到静态图片上;

3. YouTube还推出基于谷歌Lyria 2的"语音转歌曲"混音工具和"AI编辑"功能,后者可自动整理精彩片段,添加音乐与转场效果。

https://mp.weixin.qq.com/s/CYWmr-UQ9apv1lPWWzyvTA


二十三、 华为昇腾AI芯片4年5款产品路线图,搭载自研HBM

1. 华为发布昇腾AI芯片4年5款产品路线图,包括2026年Q1推出的昇腾950PR、2026年Q4的昇腾950DT、2027年Q4的昇腾960和2028年Q4的昇腾970;

2. 新芯片系列支持低精度数据格式,昇腾950PR在FP8/MXFP8/HiF8精度下算力达1PFLOPS,MXFP4下达2PFLOPS,采用自研HiBL 1.0内存;

3. 华为同时推出全球最强算力超节点和集群,包括Atlas 950 SuperPoD支持8192张卡无收敛全互联,Atlas 960 SuperCluster算力规模可达百万卡。

https://mp.weixin.qq.com/s/dJGuwC2Fd4kSI_c47kjtYg

二十四、 OpenAI在ICPC编程赛上满分登顶,Gemini同获金牌

1. OpenAI在ICPC 2025编程竞赛中5小时内解决全部12个问题,成绩相当于人类排名第1位,其中使用GPT-5和一款实验性推理模型共同完成;

2. 谷歌Gemini 2.5 Deep Think解决10个问题,总用时677分钟,达到金牌级表现,若与大学队伍对比排名第2;

3. 两家公司模型均未针对ICPC进行专门训练,Gemini在半小时内解决了竞赛中无任何大学队伍解出的C题,展示出AI在复杂推理和编程问题上的突破性进展。

https://mp.weixin.qq.com/s/Bws9enDXB5CvyhW1cG5DYw

二十五、 小扎演示多次翻车,但这依然是 2025 最好的 AI 眼镜?

1. Meta发布三款新智能眼镜,其中Meta Ray-Ban Display是首款带有彩色光波导HUD显示屏和Meta Neural Band肌电神经接口的AI眼镜,售价799美元;

2. Ray-Ban Meta (Gen 2)作为小改款主力机型,电池续航翻倍,支持3K分辨率录制,新增Conversation Focus功能增强人声频率,售价379美元;

3. Oakley Meta Vanguard针对运动人群,采用运动防风镜外形,中央广角摄机,9小时续航,支持与Strava和佳明设备整合,售价499美元。

https://mp.weixin.qq.com/s/GkeLnn-zD09povrqgzTYvQ

二十六、 R1 论文以封面文章的形式登上了权威科学期刊 Nature

1. DeepSeek-R1论文以封面文章登上Nature,证明大语言模型的推理能力可以通过纯强化学习提升,无需人工标注的推理过程;

2. 研究团队提出"群体相对策略优化"(GRPO)算法,帮助模型演化出更多样化、复杂的推理行为,在21个主流基准测试上表现优异;

3. Nature社论将DeepSeek-R1评为"第一个在经过同行评审后发表的主流LLM",认为这是朝着AI透明化迈出的可喜一步,有助于遏制AI行业的过度炒作。

https://mp.weixin.qq.com/s/r1h3UnsNZpy8twqbSvu_lQ

二十七、 阿里开源深度研究Agent模型「通义DeepResearch」

1. 阿里开源首个深度研究Agent模型:通义DeepResearch,拥有3B激活参数,性能对标基于OpenAI o3、DeepSeek V3.1和Claude-4-Sonnet等旗舰模型的ReAct Agent;

2. 该模型在HLE、BrowseComp、BrowseComp-ZH、GAIA等七大Agent评测集中表现优异,模型、框架和方案已在Github、Hugging Face和魔搭社区全面开源;

3. 研究团队构建了合成数据驱动的完整训练链路,以Qwen3-30B-A3B模型为基础,设计了ReAct和基于自研IterResearch的Heavy两种推理模式,解决了"认知空间窒息"与"不可逆噪声污染"问题。

https://mp.weixin.qq.com/s/eLh2TvtrMyN2ulOSEC0wdw

二十八、 天工超级智能体上线Vibe Coding Agent「AI Developer」

1. 天工超级智能体(Skywork Super Agents)正式上线Vibe Coding Agent—AI Developer,帮助非专业开发人员通过自然语言交互快速构建、部署和管理全栈Web应用程序;

2. AI Developer不仅能生成前端页面,还可与Supabase深度集成,实现数据库、用户鉴权、文件存储、实时更新和调用外部服务等后端功能;

3. 该功能还提供Stripe支付和Resend邮箱服务集成,支持用户打造包含付款和邮件通知功能的应用,大大降低了全栈开发的门槛。

https://mp.weixin.qq.com/s/PyhfcKrpwaMCyD5MEl2_DQ



【声明】内容源于网络
0
0
上海蓝玥信息科技有限公司
1234
内容 108
粉丝 0
上海蓝玥信息科技有限公司 1234
总阅读371
粉丝0
内容108