6月11日丨每日AI简讯- 大数跨境

首页

6月11日丨每日AI简讯

久新数智

2025-06-11

9agent.ai

点击蓝字关注我们

每日AI简讯

2025.06.11

大模型

LLM

比自回归更灵活、比离散扩散更通用，首个纯 Discrete Flow Matching 多模态巨兽降临
香港大学与华为诺亚方舟实验室联合推出基于离散流匹配（DFM）架构的多模态模型 FUDOKI，通过动力学最优速度和度量诱导概率路径，实现了图像生成与文本理解任务的统一建模。该模型摒弃传统掩码策略，支持生成过程中动态修正，在 GenEval 图像生成基准以 0.76 分超越同参数自回归模型，视觉理解任务接近 AR 模型水平。相比自回归和离散扩散架构，FUDOKI 具备更高采样灵活性和双向信息整合能力，为多模态处理开辟新路径。
原文链接：https://www.jiqizhixin.com/articles/2025-06-10
刚刚，苹果 WWDC 掀 AI 风暴！端侧模型全面开放、AI 版 Siri 却成最大「鸽子」王
苹果 WWDC 2025 宣布重大系统革新，iOS 26 等系统全面采用年份命名规则，并推出「兔子玻璃」设计语言。AI 成为核心亮点，端侧大模型向第三方开发者开放，支持离线智能功能开发；Xcode 26 集成 ChatGPT 辅助编程，实现 AI 代码生成。然而，用户期待已久的 AI 版 Siri 再度跳票，苹果承认技术落地遇阻，引发市场对其 AI 进展的担忧。同时股价下跌 2.5%，反映出投资者对苹果 AI 战略执行力的信心不足。
原文链接：https://www.jiqizhixin.com/articles/2025-06-10-2
李飞飞团队新作：DiT 不训练直接改架构，模型深度减半，质量还提高了
斯坦福大学李飞飞团队提出 "嫁接" 技术，无需重新训练即可改造预训练扩散 Transformer（DiT）。该方法通过激活蒸馏迁移原模型算子功能，结合轻量级调优缓解误差传播，实现了 MLP 层替换和架构重构。实验显示，混合架构仅用 2% 计算资源即达接近原模型质量（FID 2.38-2.64），文本生成模型 PixArt-Σ 加速 1.43 倍且质量下降不足 2%。典型案例中将模型深度减半，FID 仅升至 2.77 优于同类模型，证明该技术在保持生成质量前提下显著提升计算效率。
原文链接：https://www.jiqizhixin.com/articles/2025-06-10-11
小红书开源 1420 亿参数大模型 dots.llm1 对标阿里 Qwen2.5-72B
小红书 hi lab 团队发布首款开源混合专家（MoE）大语言模型 dots.llm1，采用 1420 亿参数（激活参数 140 亿）架构，基于 11.2TB 真实场景数据训练，文本生成能力与阿里 Qwen2.5-72B 相当。该模型摒弃合成数据，强化自然语言理解和真实交互体验。开源策略旨在推动 AI 技术发展，支持智能客服、内容创作等场景应用，展现小红书在社交平台之外的技术布局与行业影响力。
原文链接：https://www.aibase.com/zh/news/18792
突破传统！FUDOKI 模型让多模态生成与理解更灵活、更高效
香港大学与华为诺亚方舟实验室联合推出 FUDOKI 模型，采用非掩码离散流匹配架构突破传统自回归框架。该模型通过并行去噪机制实现双向信息整合，在图像生成与文本理解任务中实现统一建模，在 GenEval 基准测试中以 0.76 分超越同尺寸自回归模型。其创新架构允许动态调整生成结果，图像生成质量与语义准确性双优，并利用预训练自回归模型降低训练成本，为多模态 AI 提供灵活高效的解决方案。
原文链接：https://www.aibase.com/zh/news/18794

产品应用

Product Application

豆包 App “一句话 P 图” 功能全新升级基于 SeedEdit 3.0 实现全面优化
豆包 App 基于 SeedEdit3.0 升级 "一句话 P 图" 功能，新增多维度智能修图能力。支持一键添加 / 替换文字实现图文定制，创新质感键迁移技术可将油画、动漫等艺术风格迁移至原始图像。新增局部编辑增强功能可精准调整肤色、背景等细节而不影响主体。用户通过更新 App 后，在对话框上传参考图并输入文字指令即可解锁功能，无需专业技能即可完成个性化图像创作，为普通用户提供便捷的智能修图平台。
原文链接：https://www.aibase.com/zh/news/18775
告别多 App 切换！百度 "AI 相机" 解决 99% 照片处理需求
百度在 AI 开放日推出 "AI 相机" 功能，集成存储、修图、扫描、翻译等多项智能服务。该功能通过百度网盘 App 提供一站式解决方案，用户可直接拍摄或导入图片进行美颜、文字提取、合同检查等操作，无需切换不同应用。百度整合 AI 技术优势，覆盖照片从拍摄到管理的全流程需求，旨在解决用户多应用频繁切换的痛点。目前该功能已在百度网盘上线，支持存管用创享全环节核心能力，显著提升图片处理效率。
原文链接：https://www.aibase.com/zh/news/18786
全新豆包・视频生成模型明日发布支持无缝多镜头叙事等功能
豆包大模型将在 2025FORCE 原动力大会上推出全新视频生成模型，该模型通过高效模型结构与多模态位置编码技术，实现无缝多镜头叙事和稳定运镜。支持生成多主体、多动作的复杂视频，可精准响应运镜及风格指令，产出写实 / 动漫 / 影视等不同风格内容。模型采用多任务统一建模技术降低崩坏率，画面动态更自然结构性强，适用于广告创意、影视制作等多元化创作场景，助力视频内容生产升级。
原文链接：https://www.aibase.com/zh/news/18790
XRobotics 推出新型比萨机器人，每月生产 2.5 万张披萨
XRobotics 发布 xPizza Cube 比萨机器人，该设备每小时可制作 100 张披萨，月产能达 2.5 万张。机器人运用机器学习精准分配酱料和配料，可适配不同尺寸和风格（如底特律 / 芝加哥深盘）。租赁费每月 1300 美元（合同期三年），节省餐厅人力 70%-80% 的时间。公司通过改进现有流程（而非完全重构）获得市场认可，近期完成 250 万美元种子融资，用于扩大生产及向墨西哥、加拿大拓展。此前同类企业 Zume 因转型失败退出市场，XRobotics 以务实技术路径实现突破。
原文链接：https://www.aibase.com/zh/news/18781
美团王兴详解 AI 布局：No Code 平台免费开放，1680 个应用已上线
美团创始人王兴在股东大会上公布 AI 战略三阶段布局：早期应用于外卖配送系统，现阶段重点开发大语言模型。公司投入超 30 亿美元建设算力设施，并通过免费开放的 No Code 平台赋能非技术人员，已支持内部超 2 万名员工开发应用并上线 1680 个公共服务程序。王兴提出 "AI 短期高估但长期价值被低估" 观点，强调短期财务承压但长期将提升生产力，以达成 "吃好生活好" 的企业使命。
原文链接：https://www.aibase.com/zh/news/18782

硬件&底层技术前沿

Hardware Technologies

一块 4090 搞定实时视频生成！Adobe 黑科技来了
Adobe 联合德克萨斯大学奥斯汀分校提出 Self Forcing 算法，解决自回归视频生成中的暴露偏差问题。该算法在训练阶段采用自生成帧作为条件输入，结合动态梯度截断策略和滚动 KV 缓存机制，有效减少误差累积并提升效率。模型采用单块 H100 GPU 可实现 17FPS 实时生成，首帧延迟低于 0.8 秒；优化后 RTX 4090 可达 10FPS，支持 480p 准高清视频。相比传统双向扩散和自回归模型，新方法在保持时序一致性的同时显著降低延迟，为直播、游戏等实时交互场景提供技术支撑，现已生成 5-10 秒高质量视频。
原文链接：https://www.jiqizhixin.com/articles/2025-06-10-4
英伟达与港大推出新型视觉注意力机制 GSPN，高分辨率生成加速 84 倍
英伟达与香港大学联合研发广义空间传播网络（GSPN），突破传统自注意力机制在高分辨率图像处理中的性能瓶颈。该技术通过二维线性传播和稳定性条件，将计算复杂度从 O (N²) 降至√N 级别，保持空间连贯性同时实现效率跃升。在实验中，GSPN 在 256×256 图像生成速度提升 1.5 倍，16K×8K 文本到图像生成推理加速超 84 倍，图像分类任务 Top-1 准确率达 82.2%，为多模态 AI 和实时视觉应用提供了新方向。
原文链接：https://www.aibase.com/zh/news/18788
小模型逆袭！港科大快手联手打造 "进化搜索" 技术，让 AI 作画告别 "大力出奇迹"
香港科技大学与快手联合推出 EvoSearch 技术，通过引入进化论思想优化 AI 作画流程，使小模型性能超越大模型。该方法将图像生成视为物种进化过程，通过动态调整噪声注入和适应性评估实现主动探索，无需修改模型结构即可提升生成质量。实验显示，865M 参数模型应用 EvoSearch 后超越 GPT-4o，1.3B 参数模型媲美 14B 大模型，在图像与视频生成任务中均突破传统方法的性能瓶颈。该技术突破 "模型越大效果越好" 的固有模式，显著降低 AI 创作对算力资源的需求。
原文链接：https://www.aibase.com/zh/news/18787
硅基流动完成数亿元融资，用户数突破 600 万
硅基流动宣布完成数亿元 A 轮融资，由阿里云领投，计划加大 AI 基础设施研发投入。公司推出异构算力纳管平台，提升算力资源利用率，并自主研发高性能推理引擎适配国产芯片。旗下 SiliconCloud 云服务平台用户突破 600 万，企业客户达数千家，日均生成 Token 量超千亿，成为国内增长最快的第三方大模型平台。未来将聚焦降低 AI 开发门槛，推动行业智能化升级。
原文链接：https://www.aibase.com/zh/news/18780
ICML 2025 | UniMoMo 基于隐空间扩散模型统一生成多类型靶向药物分子
清华大学等团队提出首个统一生成小分子、多肽和抗体的模型 UniMoMo，采用隐空间扩散框架结合层级模块化表示。该模型通过全原子迭代变分自编码器压缩分子结构为 block 节点，在隐空间进行扩散生成，突破传统单类型模型的局限性。实验显示，在 PepBench 多肽测试中复合物 RMSD 降至 2.19Å，RAbD 抗体数据集 CDR-H3 恢复率达 52.34%，跨类型训练使各分子生成性能提升 4-25%。案例验证模型可针对 GPCR 等靶点实现多类型药物协同设计，支持跨模态结构特征迁移。
原文链接：https://www.jiqizhixin.com/articles/2025-06-10-6

上市公司动态

Listed Company Updates

法国 AI 新星 Mistral AI 年销售额破亿计划融资 10 亿美元拓展全球市场
法国人工智能公司 Mistral AI 预计年销售额将突破 1 亿美元，主要得益于 2025 年初收入增长三倍，欧洲及美国以外市场需求强劲。该公司现有员工 250 人，计划扩招并启动新一轮 10 亿美元融资，用于技术研发、产品创新及全球市场扩张。其核心业务聚焦 AI 解决方案开发，通过先进算法助力多行业降本增效，已在全球市场建立竞争壁垒，展现出成为 AI 领域全球领导者的潜力。
原文链接：https://www.aibase.com/zh/news/18774
硅基流动完成数亿元融资，用户数突破 600 万
硅基流动宣布完成数亿元 A 轮融资，由阿里云领投，计划加大 AI 基础设施研发投入。公司推出异构算力纳管平台，提升算力资源利用率，并自主研发高性能推理引擎适配国产芯片。旗下 SiliconCloud 云服务平台用户突破 600 万，企业客户达数千家，日均生成 Token 量超千亿，成为国内增长最快的第三方大模型平台。未来将聚焦降低 AI 开发门槛，推动行业智能化升级。
原文链接：https://www.aibase.com/zh/news/18780
理想汽车组织架构调整：两大机器人部门成立，瞄准车载智能生态
理想汽车成立 "空间机器人" 和 "穿戴机器人" 两大二级部门，隶属产品部并由高级副总裁范皓宇分管。空间机器人聚焦车内 "第三空间" 智能化开发，由早期员工帅一帆负责；穿戴机器人布局车外智能设备生态，由张文博执掌。此次调整旨在通过机器人技术构建车内外智能体验闭环，推动公司从汽车制造商向智能出行生态服务商转型，加速 "智能空间" 战略落地，契合行业智能化发展趋势。
原文链接：https://www.aibase.com/zh/news/18783
蚂蚁数科加速推进 AI 战略，设立 “AI + 产业创新” 实验室
蚂蚁数科将天玑实验室升级为 “AI + 产业创新” 实验室，聚焦 AI 大模型在金融、能源等产业的深度融合应用。实验室联合清华大学等高校开展 AI + 数据、安全、金融及具身智能四大方向研究，推动技术成果产业化。蚂蚁数科已发布企业级金融智能体平台 Agentar 和能源电力时序大模型 EnergyTS，后者预测风光发电准确率超国际科技巨头。通过可信智能体技术底座构建，保障智能体应用安全可控，助力产业智能化升级。
原文链接：https://www.aibase.com/zh/news/18793
美团王兴详解 AI 布局：No Code 平台免费开放，1680 个应用已上线
美团创始人王兴在股东大会上公布 AI 战略三阶段布局：早期应用于外卖配送系统，现阶段重点开发大语言模型。公司投入超 30 亿美元建设算力设施，并通过免费开放的 No Code 平台赋能非技术人员，已支持内部超 2 万名员工开发应用并上线 1680 个公共服务程序。王兴提出 "AI 短期高估但长期价值被低估" 观点，强调短期财务承压但长期将提升生产力，以达成 "吃好生活好" 的企业使命。
原文链接：https://www.aibase.com/zh/news/18782

其他

Other

俄亥俄州立大学全体学生将接受 AI 培训，提升技术应用能力
俄亥俄州立大学宣布全体学生需接受人工智能课程培训，旨在培养专业与 AI 技术结合能力。课程体系将全面融入 "AI 流利度" 计划，重点针对新生逐步推广，确保毕业生能在各自领域灵活应用 AI 工具。校方明确禁止使用生成式 AI 作弊，同步加强教师学术诚信培训。哲学教授指出 AI 辅助可激发创意，但学生需掌握合理使用边界。此外，俄亥俄州正推动 K-12 教育系统 AI 工具包，构建从基础教育到高等教育的 AI 能力培养链条。
原文链接：https://www.aibase.com/zh/news/18779
AI 威胁使 SecOps 团队精疲力竭并面临风险
调查显示，86% 的美国大型企业安全团队因应对 AI 驱动攻击而加大 AI 技术使用，但 70% 的从业者认为新技术加剧工作疲惫。38% 的组织过去一年遭遇 AI 网络攻击，关键基础设施领域达 50%，攻击导致数据泄露和财务损失。防御者面临资源不足困境，而攻击者可低成本滥用 AI 技术。目前 80% 组织转向预防优先策略，通过新技术投资和外部合作强化防御，仅 2% 未采取应对措施。
原文链接：https://www.aibase.com/zh/news/18784
LVMH 如何用 AI 技术应对奢侈品市场寒潮？
面对奢侈品市场增速放缓，LVMH 集团通过与谷歌云合作构建集中数据平台，整合旗下 75 个品牌资源，运用预测 AI、生成式 AI 及智能代理技术优化运营。AI 技术覆盖供应链管理、动态定价、产品设计及客户互动等环节，例如蒂芙尼通过智能代理生成个性化客户跟进信息，电商搜索转化率提升，内部还推出服务 4 万名员工的 MaIA 生成式 AI 工具，月处理超 200 万次请求。尽管中美市场消费信心受涨价影响，集团仍通过技术创新保持品牌吸引力与运营效率。
原文链接：https://www.aibase.com/zh/news/18785
大模型是「躲在洞穴里」观察世界？强化学习大佬「吹哨」提醒 LLM 致命缺点
强化学习专家 Sergey Levine 指出，大语言模型（LLM）仅通过互联网文本逆向推导人类思维，如同「柏拉图的洞穴」中观察影子，缺乏真实物理经验学习能力。这种间接学习模式使 LLM 擅长模拟认知技能（如推理、创作），却难以像人类般从现实经验中自主获取知识。相比之下，视频模型虽接触更丰富物理信息，但推理能力远逊于 LLM。文章警示当前 AI 发展过度依赖「思维投影」，需探索结合真实世界经验的学习机制以实现灵活智能，并强调未来 AI 需突破文本逆向工程的局限。
原文链接：https://sergeylevine.substack.com/p/language-models-in-platos-cave
苹果再轰 AI 推理能力，GitHub 大佬怒怼：这不是推理能力的真实面貌！
苹果发布论文指出大语言模型在汉诺塔等复杂任务中存在推理缺陷，认为模型遇到高复杂度问题时会主动放弃。GitHub 工程师 Sean Goedecke 对此强烈反对，指出汉诺塔这类重复步骤的谜题并非测试推理能力的合理标准，强调模型设计初衷是处理推理而非机械重复，类比 "不能用写诗能力否定语言能力"，认为评估体系需改进以发掘 AI 真实潜力。双方争议聚焦在 AI 推理能力的评判标准与方法论层面。
原文链接：https://www.aibase.com/zh/news/18791

⬇️更多AI资讯关注我们⬇️

【声明】内容源于网络

久新数智

重塑生产力，开启人机协作新篇章！

内容 139

粉丝 0

久新数智重塑生产力，开启人机协作新篇章！

总阅读107

粉丝0

内容139