9agent.ai
点击蓝字 关注我们
每日AI简讯
2025.06.11
01
大模型
LLM
比自回归更灵活、比离散扩散更通用,首个纯 Discrete Flow Matching 多模态巨兽降临
香港大学与华为诺亚方舟实验室联合推出基于离散流匹配(DFM)架构的多模态模型 FUDOKI,通过动力学最优速度和度量诱导概率路径,实现了图像生成与文本理解任务的统一建模。该模型摒弃传统掩码策略,支持生成过程中动态修正,在 GenEval 图像生成基准以 0.76 分超越同参数自回归模型,视觉理解任务接近 AR 模型水平。相比自回归和离散扩散架构,FUDOKI 具备更高采样灵活性和双向信息整合能力,为多模态处理开辟新路径。
原文链接:https://www.jiqizhixin.com/articles/2025-06-10
刚刚,苹果 WWDC 掀 AI 风暴!端侧模型全面开放、AI 版 Siri 却成最大「鸽子」王
苹果 WWDC 2025 宣布重大系统革新,iOS 26 等系统全面采用年份命名规则,并推出「兔子玻璃」设计语言。AI 成为核心亮点,端侧大模型向第三方开发者开放,支持离线智能功能开发;Xcode 26 集成 ChatGPT 辅助编程,实现 AI 代码生成。然而,用户期待已久的 AI 版 Siri 再度跳票,苹果承认技术落地遇阻,引发市场对其 AI 进展的担忧。同时股价下跌 2.5%,反映出投资者对苹果 AI 战略执行力的信心不足。
原文链接:https://www.jiqizhixin.com/articles/2025-06-10-2
李飞飞团队新作:DiT 不训练直接改架构,模型深度减半,质量还提高了
斯坦福大学李飞飞团队提出 "嫁接" 技术,无需重新训练即可改造预训练扩散 Transformer(DiT)。该方法通过激活蒸馏迁移原模型算子功能,结合轻量级调优缓解误差传播,实现了 MLP 层替换和架构重构。实验显示,混合架构仅用 2% 计算资源即达接近原模型质量(FID 2.38-2.64),文本生成模型 PixArt-Σ 加速 1.43 倍且质量下降不足 2%。典型案例中将模型深度减半,FID 仅升至 2.77 优于同类模型,证明该技术在保持生成质量前提下显著提升计算效率。
原文链接:https://www.jiqizhixin.com/articles/2025-06-10-11
小红书开源 1420 亿参数大模型 dots.llm1 对标阿里 Qwen2.5-72B
小红书 hi lab 团队发布首款开源混合专家(MoE)大语言模型 dots.llm1,采用 1420 亿参数(激活参数 140 亿)架构,基于 11.2TB 真实场景数据训练,文本生成能力与阿里 Qwen2.5-72B 相当。该模型摒弃合成数据,强化自然语言理解和真实交互体验。开源策略旨在推动 AI 技术发展,支持智能客服、内容创作等场景应用,展现小红书在社交平台之外的技术布局与行业影响力。
原文链接:https://www.aibase.com/zh/news/18792
突破传统!FUDOKI 模型让多模态生成与理解更灵活、更高效
香港大学与华为诺亚方舟实验室联合推出 FUDOKI 模型,采用非掩码离散流匹配架构突破传统自回归框架。该模型通过并行去噪机制实现双向信息整合,在图像生成与文本理解任务中实现统一建模,在 GenEval 基准测试中以 0.76 分超越同尺寸自回归模型。其创新架构允许动态调整生成结果,图像生成质量与语义准确性双优,并利用预训练自回归模型降低训练成本,为多模态 AI 提供灵活高效的解决方案。
原文链接:https://www.aibase.com/zh/news/18794
02
产品应用
Product Application
豆包 App “一句话 P 图” 功能全新升级 基于 SeedEdit 3.0 实现全面优化
豆包 App 基于 SeedEdit3.0 升级 "一句话 P 图" 功能,新增多维度智能修图能力。支持一键添加 / 替换文字实现图文定制,创新质感键迁移技术可将油画、动漫等艺术风格迁移至原始图像。新增局部编辑增强功能可精准调整肤色、背景等细节而不影响主体。用户通过更新 App 后,在对话框上传参考图并输入文字指令即可解锁功能,无需专业技能即可完成个性化图像创作,为普通用户提供便捷的智能修图平台。
原文链接:https://www.aibase.com/zh/news/18775
告别多 App 切换!百度 "AI 相机" 解决 99% 照片处理需求
百度在 AI 开放日推出 "AI 相机" 功能,集成存储、修图、扫描、翻译等多项智能服务。该功能通过百度网盘 App 提供一站式解决方案,用户可直接拍摄或导入图片进行美颜、文字提取、合同检查等操作,无需切换不同应用。百度整合 AI 技术优势,覆盖照片从拍摄到管理的全流程需求,旨在解决用户多应用频繁切换的痛点。目前该功能已在百度网盘上线,支持存管用创享全环节核心能力,显著提升图片处理效率。
原文链接:https://www.aibase.com/zh/news/18786
全新豆包・视频生成模型明日发布 支持无缝多镜头叙事等功能
豆包大模型将在 2025FORCE 原动力大会上推出全新视频生成模型,该模型通过高效模型结构与多模态位置编码技术,实现无缝多镜头叙事和稳定运镜。支持生成多主体、多动作的复杂视频,可精准响应运镜及风格指令,产出写实 / 动漫 / 影视等不同风格内容。模型采用多任务统一建模技术降低崩坏率,画面动态更自然结构性强,适用于广告创意、影视制作等多元化创作场景,助力视频内容生产升级。
原文链接:https://www.aibase.com/zh/news/18790
XRobotics 推出新型比萨机器人,每月生产 2.5 万张披萨
XRobotics 发布 xPizza Cube 比萨机器人,该设备每小时可制作 100 张披萨,月产能达 2.5 万张。机器人运用机器学习精准分配酱料和配料,可适配不同尺寸和风格(如底特律 / 芝加哥深盘)。租赁费每月 1300 美元(合同期三年),节省餐厅人力 70%-80% 的时间。公司通过改进现有流程(而非完全重构)获得市场认可,近期完成 250 万美元种子融资,用于扩大生产及向墨西哥、加拿大拓展。此前同类企业 Zume 因转型失败退出市场,XRobotics 以务实技术路径实现突破。
原文链接:https://www.aibase.com/zh/news/18781
美团王兴详解 AI 布局:No Code 平台免费开放,1680 个应用已上线
美团创始人王兴在股东大会上公布 AI 战略三阶段布局:早期应用于外卖配送系统,现阶段重点开发大语言模型。公司投入超 30 亿美元建设算力设施,并通过免费开放的 No Code 平台赋能非技术人员,已支持内部超 2 万名员工开发应用并上线 1680 个公共服务程序。王兴提出 "AI 短期高估但长期价值被低估" 观点,强调短期财务承压但长期将提升生产力,以达成 "吃好生活好" 的企业使命。
原文链接:https://www.aibase.com/zh/news/18782
03
硬件&底层技术前沿
Hardware Technologies
一块 4090 搞定实时视频生成!Adobe 黑科技来了
Adobe 联合德克萨斯大学奥斯汀分校提出 Self Forcing 算法,解决自回归视频生成中的暴露偏差问题。该算法在训练阶段采用自生成帧作为条件输入,结合动态梯度截断策略和滚动 KV 缓存机制,有效减少误差累积并提升效率。模型采用单块 H100 GPU 可实现 17FPS 实时生成,首帧延迟低于 0.8 秒;优化后 RTX 4090 可达 10FPS,支持 480p 准高清视频。相比传统双向扩散和自回归模型,新方法在保持时序一致性的同时显著降低延迟,为直播、游戏等实时交互场景提供技术支撑,现已生成 5-10 秒高质量视频。
原文链接:https://www.jiqizhixin.com/articles/2025-06-10-4
英伟达与港大推出新型视觉注意力机制 GSPN,高分辨率生成加速 84 倍
英伟达与香港大学联合研发广义空间传播网络(GSPN),突破传统自注意力机制在高分辨率图像处理中的性能瓶颈。该技术通过二维线性传播和稳定性条件,将计算复杂度从 O (N²) 降至√N 级别,保持空间连贯性同时实现效率跃升。在实验中,GSPN 在 256×256 图像生成速度提升 1.5 倍,16K×8K 文本到图像生成推理加速超 84 倍,图像分类任务 Top-1 准确率达 82.2%,为多模态 AI 和实时视觉应用提供了新方向。
原文链接:https://www.aibase.com/zh/news/18788
小模型逆袭!港科大快手联手打造 "进化搜索" 技术,让 AI 作画告别 "大力出奇迹"
香港科技大学与快手联合推出 EvoSearch 技术,通过引入进化论思想优化 AI 作画流程,使小模型性能超越大模型。该方法将图像生成视为物种进化过程,通过动态调整噪声注入和适应性评估实现主动探索,无需修改模型结构即可提升生成质量。实验显示,865M 参数模型应用 EvoSearch 后超越 GPT-4o,1.3B 参数模型媲美 14B 大模型,在图像与视频生成任务中均突破传统方法的性能瓶颈。该技术突破 "模型越大效果越好" 的固有模式,显著降低 AI 创作对算力资源的需求。
原文链接:https://www.aibase.com/zh/news/18787
硅基流动完成数亿元融资,用户数突破 600 万
硅基流动宣布完成数亿元 A 轮融资,由阿里云领投,计划加大 AI 基础设施研发投入。公司推出异构算力纳管平台,提升算力资源利用率,并自主研发高性能推理引擎适配国产芯片。旗下 SiliconCloud 云服务平台用户突破 600 万,企业客户达数千家,日均生成 Token 量超千亿,成为国内增长最快的第三方大模型平台。未来将聚焦降低 AI 开发门槛,推动行业智能化升级。
原文链接:https://www.aibase.com/zh/news/18780
ICML 2025 | UniMoMo 基于隐空间扩散模型统一生成多类型靶向药物分子
清华大学等团队提出首个统一生成小分子、多肽和抗体的模型 UniMoMo,采用隐空间扩散框架结合层级模块化表示。该模型通过全原子迭代变分自编码器压缩分子结构为 block 节点,在隐空间进行扩散生成,突破传统单类型模型的局限性。实验显示,在 PepBench 多肽测试中复合物 RMSD 降至 2.19Å,RAbD 抗体数据集 CDR-H3 恢复率达 52.34%,跨类型训练使各分子生成性能提升 4-25%。案例验证模型可针对 GPCR 等靶点实现多类型药物协同设计,支持跨模态结构特征迁移。
原文链接:https://www.jiqizhixin.com/articles/2025-06-10-6
04
上市公司动态
Listed Company Updates
法国 AI 新星 Mistral AI 年销售额破亿 计划融资 10 亿美元拓展全球市场
法国人工智能公司 Mistral AI 预计年销售额将突破 1 亿美元,主要得益于 2025 年初收入增长三倍,欧洲及美国以外市场需求强劲。该公司现有员工 250 人,计划扩招并启动新一轮 10 亿美元融资,用于技术研发、产品创新及全球市场扩张。其核心业务聚焦 AI 解决方案开发,通过先进算法助力多行业降本增效,已在全球市场建立竞争壁垒,展现出成为 AI 领域全球领导者的潜力。
原文链接:https://www.aibase.com/zh/news/18774
硅基流动完成数亿元融资,用户数突破 600 万
硅基流动宣布完成数亿元 A 轮融资,由阿里云领投,计划加大 AI 基础设施研发投入。公司推出异构算力纳管平台,提升算力资源利用率,并自主研发高性能推理引擎适配国产芯片。旗下 SiliconCloud 云服务平台用户突破 600 万,企业客户达数千家,日均生成 Token 量超千亿,成为国内增长最快的第三方大模型平台。未来将聚焦降低 AI 开发门槛,推动行业智能化升级。
原文链接:https://www.aibase.com/zh/news/18780
理想汽车组织架构调整:两大机器人部门成立,瞄准车载智能生态
理想汽车成立 "空间机器人" 和 "穿戴机器人" 两大二级部门,隶属产品部并由高级副总裁范皓宇分管。空间机器人聚焦车内 "第三空间" 智能化开发,由早期员工帅一帆负责;穿戴机器人布局车外智能设备生态,由张文博执掌。此次调整旨在通过机器人技术构建车内外智能体验闭环,推动公司从汽车制造商向智能出行生态服务商转型,加速 "智能空间" 战略落地,契合行业智能化发展趋势。
原文链接:https://www.aibase.com/zh/news/18783
蚂蚁数科加速推进 AI 战略,设立 “AI + 产业创新” 实验室
蚂蚁数科将天玑实验室升级为 “AI + 产业创新” 实验室,聚焦 AI 大模型在金融、能源等产业的深度融合应用。实验室联合清华大学等高校开展 AI + 数据、安全、金融及具身智能四大方向研究,推动技术成果产业化。蚂蚁数科已发布企业级金融智能体平台 Agentar 和能源电力时序大模型 EnergyTS,后者预测风光发电准确率超国际科技巨头。通过可信智能体技术底座构建,保障智能体应用安全可控,助力产业智能化升级。
原文链接:https://www.aibase.com/zh/news/18793
美团王兴详解 AI 布局:No Code 平台免费开放,1680 个应用已上线
美团创始人王兴在股东大会上公布 AI 战略三阶段布局:早期应用于外卖配送系统,现阶段重点开发大语言模型。公司投入超 30 亿美元建设算力设施,并通过免费开放的 No Code 平台赋能非技术人员,已支持内部超 2 万名员工开发应用并上线 1680 个公共服务程序。王兴提出 "AI 短期高估但长期价值被低估" 观点,强调短期财务承压但长期将提升生产力,以达成 "吃好生活好" 的企业使命。
原文链接:https://www.aibase.com/zh/news/18782
05
其他
Other
俄亥俄州立大学全体学生将接受 AI 培训,提升技术应用能力
俄亥俄州立大学宣布全体学生需接受人工智能课程培训,旨在培养专业与 AI 技术结合能力。课程体系将全面融入 "AI 流利度" 计划,重点针对新生逐步推广,确保毕业生能在各自领域灵活应用 AI 工具。校方明确禁止使用生成式 AI 作弊,同步加强教师学术诚信培训。哲学教授指出 AI 辅助可激发创意,但学生需掌握合理使用边界。此外,俄亥俄州正推动 K-12 教育系统 AI 工具包,构建从基础教育到高等教育的 AI 能力培养链条。
原文链接:https://www.aibase.com/zh/news/18779
AI 威胁使 SecOps 团队精疲力竭并面临风险
调查显示,86% 的美国大型企业安全团队因应对 AI 驱动攻击而加大 AI 技术使用,但 70% 的从业者认为新技术加剧工作疲惫。38% 的组织过去一年遭遇 AI 网络攻击,关键基础设施领域达 50%,攻击导致数据泄露和财务损失。防御者面临资源不足困境,而攻击者可低成本滥用 AI 技术。目前 80% 组织转向预防优先策略,通过新技术投资和外部合作强化防御,仅 2% 未采取应对措施。
原文链接:https://www.aibase.com/zh/news/18784
LVMH 如何用 AI 技术应对奢侈品市场寒潮?
面对奢侈品市场增速放缓,LVMH 集团通过与谷歌云合作构建集中数据平台,整合旗下 75 个品牌资源,运用预测 AI、生成式 AI 及智能代理技术优化运营。AI 技术覆盖供应链管理、动态定价、产品设计及客户互动等环节,例如蒂芙尼通过智能代理生成个性化客户跟进信息,电商搜索转化率提升,内部还推出服务 4 万名员工的 MaIA 生成式 AI 工具,月处理超 200 万次请求。尽管中美市场消费信心受涨价影响,集团仍通过技术创新保持品牌吸引力与运营效率。
原文链接:https://www.aibase.com/zh/news/18785
大模型是「躲在洞穴里」观察世界?强化学习大佬「吹哨」提醒 LLM 致命缺点
强化学习专家 Sergey Levine 指出,大语言模型(LLM)仅通过互联网文本逆向推导人类思维,如同「柏拉图的洞穴」中观察影子,缺乏真实物理经验学习能力。这种间接学习模式使 LLM 擅长模拟认知技能(如推理、创作),却难以像人类般从现实经验中自主获取知识。相比之下,视频模型虽接触更丰富物理信息,但推理能力远逊于 LLM。文章警示当前 AI 发展过度依赖「思维投影」,需探索结合真实世界经验的学习机制以实现灵活智能,并强调未来 AI 需突破文本逆向工程的局限。
原文链接:https://sergeylevine.substack.com/p/language-models-in-platos-cave
苹果再轰 AI 推理能力,GitHub 大佬怒怼:这不是推理能力的真实面貌!
苹果发布论文指出大语言模型在汉诺塔等复杂任务中存在推理缺陷,认为模型遇到高复杂度问题时会主动放弃。GitHub 工程师 Sean Goedecke 对此强烈反对,指出汉诺塔这类重复步骤的谜题并非测试推理能力的合理标准,强调模型设计初衷是处理推理而非机械重复,类比 "不能用写诗能力否定语言能力",认为评估体系需改进以发掘 AI 真实潜力。双方争议聚焦在 AI 推理能力的评判标准与方法论层面。
原文链接:https://www.aibase.com/zh/news/18791
⬇️更多AI资讯关注我们⬇️

