大数跨境

5月15日丨每日AI简讯

5月15日丨每日AI简讯 久新数智
2025-05-15
2



9agent.ai

点击蓝字 关注我们



每日AI简讯

2025.05.15


01

大模型

LLM

图片
  • ICML 2025 | 如何在合成文本数据时避免模型崩溃?

    研究团队针对合成数据导致的语言模型崩溃问题,提出TokenLevel Editing方法。该方法通过对真实数据中的高置信度token进行替换式微调,生成保留数据多样性的“半合成”数据,避免模型在训练中出现分布覆盖收窄和特征过度集中问题。理论分析表明该方法可将测试误差限制在固定上界,实验显示其在预训练、持续训练和微调阶段均有效提升模型性能,如在PubMedQA任务中准确率提升13.6%,且具备跨领域泛化能力。

    原文链接:https://www.jiqizhixin.com/articles/20250514

  • 叶子豪、陈天奇等人开源项目FlashInfer入选MLSys2025最佳论文奖

    MLSys2025最佳论文奖由华人团队主导的FlashInfer和瑞典团队的《The Hidden Bloat》共同获得。FlashInfer是专注于大语言模型推理优化的开源引擎,通过块稀疏格式、可组合内存布局和动态调度算法,显著提升LLM推理效率,在长上下文处理中降低28%30%延迟,并行生成场景提速13%17%。其内核已集成至vLLM等项目,并支持DeepSeek MLA的Blackwell架构。另一获奖论文提出NegativaML方法,可减少机器学习系统55%代码臃肿,有效优化内存与计算资源消耗。

    原文链接:https://www.jiqizhixin.com/articles/202505142

  • 字节最强多模态模型登陆火山引擎!Seed1.5VL靠20B激活参数狂揽38项SOTA

    字节跳动推出多模态大模型Seed1.5VL,激活参数仅20B却斩获38项SOTA。该模型具备视觉定位、视频理解及多模态智能体能力,支持精准识别图像元素、解析视频内容并完成GUI交互任务。在推理成本方面,输入输出价格分别为每千tokens 0.003/0.009元,较同类模型极具优势。模型采用SeedViT视觉编码+MoE架构语言基座,通过三阶段预训练和混合强化学习策略优化性能,现已在火山引擎开放API调用,支持开发智能巡检、交互Agent等应用。

    原文链接:https://www.jiqizhixin.com/articles/202505143

  • 阶跃星辰开源 3D 大模型 Step1X3D

    阶跃星辰开源 4.8B 参数量的 3D 大模型 Step1X3D,包含 1.3B 几何模块和 3.5B 纹理模块。该模型通过处理 500 万原始数据构建高质量训练库,采用两阶段架构解耦几何与纹理生成,结合混合 VAEDiT 和 SDXL 技术提升保真度与一致性。支持 LoRA 微调实现细节调控,在自建测试中 CLIPScore 领先同类模型,现已在 GitHub、HuggingFace 和 ModelScope 开源,为 3D 创作提供高精度可控解决方案。

    原文链接:https://www.jiqizhixin.com/articles/2025051451

  • 通义千问Qwen免费开放「深入研究」Deep Research功能

    通义千问Qwen推出免费Deep Research功能,该智能助理系统可分解复杂研究任务,通过多步骤网络搜索分析生成结构化报告。系统融合Qwen模型推理、Agent能力及强化学习技术,耗时数小时的任务可缩短至十几分钟。用户仅需输入研究主题,系统将主动反问确认需求,自动规划研究路径并整合网络信息,最终生成附带引用来源的易读报告。该功能已在QwenChat开放体验,适用于科研人员和日常用户,点击对话框按钮即可启用。

    原文链接:https://www.aibase.com/zh/news/18020

02

产品应用

Product Application

图片
  • 仅需1秒生成药物分子,性能与FDA批准药物相当,生成式AI方法DiffSMol登Nature子刊

    俄亥俄州立大学团队开发生成式AI方法DiffSMol,通过预训练形状嵌入和扩散模型,仅需1秒即可生成3D药物分子。该方法利用配体形状和蛋白质结合口袋的几何信息,生成分子与靶点结合亲和力提升达17.7%,成功率高达61.4%。实验显示,针对CDK6和NEP靶点生成的候选药物结合性能优于已知配体,ADMET特性与FDA批准药物相当,毒性评分低且符合药物开发规则,为快速发现优质候选药物提供新途径。

    原文链接:https://www.jiqizhixin.com/articles/2025-05-14-5

  • 人工智能驱动肺部3D重建,重新评估智能的手术设计

    研究团队开发了基于AI的肺部3D重建技术,通过深度学习处理CT影像数据,可在数分钟内生成高精度三维模型。该系统支持智能手术规划,能自动识别血管、支气管等关键结构,并模拟不同切除方案对肺功能的影响。临床测试显示,该技术使手术方案评估效率提升60%,术后并发症发生率降低35%,尤其适用于肺癌精准切除和肺移植规划,标志着AI在胸外科手术智能化领域的重大突破。

    原文链接:https://www.jiqizhixin.com/articles/2025-05-14-6

  • 苹果推出革命性 AI 模型 Matrix3D:轻松将 3 张照片转化为 3D 场景

    苹果联合南京大学、香港科技大学推出Matrix3D AI模型,可通过三张2D照片生成高质量3D场景。该模型突破传统摄影测量技术,整合姿态估计、深度预测等分散步骤为统一架构,减少人为误差并提升效率。采用掩码学习策略增强模型适应性,支持小数据集训练。其应用覆盖AR/VR设备场景构建,如为Apple Vision Pro创建逼真虚拟环境,推动元宇宙及沉浸式技术发展,现已在研究领域展现显著潜力。

    原文链接:https://www.aibase.com/zh/news/18022

  • 腾讯混元携手科研机构推出首个多模态统一CoT奖励模型并开源

    腾讯混元联合上海AI Lab、复旦大学等机构发布全球首个开源多模态统一CoT奖励模型Unified Reward-Think。该模型突破性地将"思维链"能力引入视觉领域,具备长链推理功能,可精准评估图像生成与理解任务。通过多模态融合技术实现跨任务泛化,解决了传统视觉任务评估不准确、推理不足的痛点。模型开源内容包括训练脚本、数据集及评测工具,为AI社区提供研究新平台,推动多模态技术发展与应用场景拓展。

    原文链接:https://www.aibase.com/zh/news/18035

  • PixVerse V4.5视频模型发布!20+电影镜头+多图融合,5秒打造好莱坞大片!

    PixVerse推出V4.5视频模型,新增20余种电影级镜头控制和多图融合功能,支持通过多张参考图生成复杂场景。该模型5秒内可生成720p/1080p视频,动作流畅度提升30%,优化了高速运动与群体交互表现,支持7种语言界面。应用覆盖社交媒体短视频、广告制作及影视创作,免费版已开放使用,专业版需订阅。其镜头控制技术及快速迭代能力在AI视频领域形成竞争优势,背后公司爱诗科技近期完成近3亿元融资。

    原文链接:https://www.aibase.com/zh/news/18056

03

硬件&底层技术前沿

Hardware Technologies

图片
    • 美国全球封杀华为昇腾芯片,为何反让中国AI产业加速突围?

      美国禁用华为昇腾AI芯片后,中国市场加速技术替代,昇腾芯片性能达英伟达H100的96%,形成“昇腾芯片+昇思框架+国产数据中心”全栈生态,并在自动驾驶等领域调试效率反超美系方案。

      原文链接:http://m.toutiao.com/group/7504172916159693353/

    • 英伟达将向沙特阿拉伯供应 18,000 块人工智能芯片

      英伟达宣布与沙特主权财富基金旗下初创公司 Humain 合作,将向沙特供应 18,000 块最新 Blackwell 架构 GB300 AI 芯片,用于建设 500 兆瓦数据中心项目。CEO 黄仁勋称 AI 是国家的"基本基础设施",此次合作旨在支持沙特科技愿景,提升云计算能力并吸引外资。该项目将加速沙特人工智能发展,助力经济数字化转型,同时巩固英伟达在中东市场的战略布局。

      原文链接:https://www.aibase.com/zh/news/18057


    ⬇️更多AI资讯关注我们⬇️



    【声明】内容源于网络
    0
    0
    久新数智
    重塑生产力,开启人机协作新篇章!
    内容 0
    粉丝 0
    久新数智 重塑生产力,开启人机协作新篇章!
    总阅读0
    粉丝0
    内容0