5月21日丨每日AI简讯- 大数跨境

首页

5月21日丨每日AI简讯

久新数智

2025-05-21

9agent.ai

点击蓝字关注我们

每日AI简讯

2025.05.21

大模型

LLM

如何应对结构活性悬崖难题，用于分子性质预测的预训练框架SCAGE给出解答
山东大学、天津大学与澳门理工大学联合开发了SCAGE预训练框架，通过融合分子构象与空间信息解决药物开发中的结构活性悬崖难题。该模型基于500万药物化合物预训练，结合多尺度构象学习和多任务策略，在9个分子特性基准测试中8项领先，并在30个活性悬崖数据集上23项达最优。相比现有方法，SCAGE仅需四分之一预训练数据即实现性能突破，显著降低了药物活性预测误差，相关成果发表于《Nature Communications》。
原文链接：https://www.jiqizhixin.com/articles/20250520
华为&中国科学院带来优化框架，用于面向文本的药物分子设计
华为联合中科院、香港大学提出3DToMolo框架，通过整合文本描述、2D化学键和3D分子构象实现药物分子优化。该框架采用LLAMA模型进行文本语义对齐，结合扩散模型生成新结构，支持零样本优化无需重复训练。实验显示其在8项分类任务中5项表现卓越，并能通过自然语言提示实现结构约束下的分子优化。该多模态方法在数据有限时仍保持高效，为药物设计提供灵活的子结构修改能力，但生成分子的可合成性仍需进一步验证。
原文链接：https://www.jiqizhixin.com/articles/202505202
ICML 2025 Spotlight | 多模态大模型暴露短板？EMMA基准深度揭秘多模态推理能力
ICML 2025研究提出EMMA基准，揭示多模态大模型（MLLMs）在深度视觉与文本融合推理中的不足。测试显示，即使顶尖模型如GPT4o和Gemini2.5pro在数学、物理等领域的表现仍落后人类专家超20%，主要瓶颈为视觉推理能力，如空间模拟和跨模态信息整合。研究发现，模型依赖文本逻辑而非视觉直观，错误分析中视觉推理错误占比最高（52.83%）。该基准为提升多模态推理能力提供方向，相关代码及数据集已开源。
原文链接：https://www.jiqizhixin.com/articles/202505207
代码、多模态检索全面登顶SOTA!智源BGE向量模型三连击，并全面开放
智源研究院发布三款BGE向量模型——BGECodev1（代码检索）、BGEVLv1.5（多模态检索）和BGEVLScreenshot（视觉化文档检索），均在CoIR、MMEB、MVRB等基准测试中以显著优势刷新SOTA。BGECodev1针对代码与文本检索优化，BGEVLv1.5增强图文理解能力，BGEVLScreenshot擅长处理复杂视觉文档。三款模型全面开源，支持代码检索、跨模态推荐、截图问答等场景，助力研发与产业应用，现已在Hugging Face等平台开放下载。
原文链接：https://www.jiqizhixin.com/articles/202505209
Salesforce BLIP3o重磅登陆Hugging Face!全开源多模态模型，图像理解与生成一统江湖!
Salesforce在Hugging Face发布全开源多模态模型BLIP3o，通过扩散变换器架构与CLIP图像特征结合，实现图像理解与生成的统一。该模型支持文本生成图像、视觉问答等任务，训练效率提升30%，OCR准确率提高20%。配套开源BLIP3OCR200M数据集与完整代码，开发者可快速部署图像内容创作、学术文档解析等场景。社区反响热烈，Hugging Face页面访问量超5.8万次，GitHub仓库新增2000+星标，成为多模态AI开源领域新标杆。
原文链接：https://huggingface.co/spaces/BLIP3o/blip3o

产品应用

Product Application

AI婴儿视频爆红！Hedra工具打造宫崎骏跨次元对话
Hedra公司推出的Character-3全栈AI角色生成器，通过整合图像生成、语音合成与视频对齐技术，实现一键式虚拟角色创作。用户只需上传图片即可生成口型精准同步、表情生动的视频，配合MiniMax Audio等工具完成中文语音适配。该技术已应用于TikTok爆款内容制作，如"婴儿宫崎骏"与老年版跨次元对谈《苍鹭与少年》，从脚本生成到视频剪辑全程AI驱动，支持调用Veo 2等多模型协作，现提供网页端一站式创作体验。
原文链接：https://www.jiqizhixin.com/articles/2025-05-20-3
Animon日本爆火背后:CreateAI全力押注AI动漫，深度布局内容生态
CreateAI推出的Animon.ai动漫AI生成工具在日本引发热潮，用户可通过上传图片和文本描述快速生成动画视频，免费不限次使用模式吸引大量创作者。该工具基于通义万相2.1模型优化，生成效果达专业水准，5秒视频仅需3分钟。CreateAI从自动驾驶转型AI娱乐，通过三大战略布局：AI赋能降低动漫/游戏生产成本50%、构建技术工具与内容生态闭环、联动《金庸群侠传》《三体》等顶级IP开发影游项目。公司计划以"技术-工具-平台-内容"四层战略推动动漫产业革新，RUYI开源模型和UGC社区建设加速行业AI化转型。
原文链接：https://www.jiqizhixin.com/articles/2025-05-20-4
将对话界面直接引入Web，微软开源NLWeb，实现ChatGPT级别搜索
微软开源NLWeb项目，将自然语言对话界面直接集成至Web搜索场景。该系统通过深度语义理解技术，支持用户以多轮对话形式进行网页信息检索，响应速度与准确性达到ChatGPT级别。该框架可帮助开发者快速构建免关键词搜索的交互系统，适用于电商导购、知识问答等场景，现已在GitHub开放核心算法模块及API接口，预计将推动人机交互范式革新。
原文链接：https://www.jiqizhixin.com/articles/2025-05-20-15
谷歌Jules测试版全球上线!挑战Codex，AI自主生成PR，每天5次免费任务
谷歌推出基于Gemini2.5的AI编码代理Jules测试版，支持Python和JavaScript项目，可自主分析代码库、生成多步骤计划并创建GitHub拉取请求。用户通过自然语言指令即可触发异步任务执行，每日提供5次免费任务，开发者可实时审查代码变更。该工具深度整合GitHub，采用透明化流程与人类监督机制，相较Codex在多步骤任务处理上更具优势，其免费策略和谷歌云生态协同能力或冲击现有AI编码工具市场格局。
原文链接：https://www.aibase.com/zh/news/18184
边画边出图!腾讯混元上线游戏视觉生成平台
腾讯发布混元游戏视觉生成平台，基于大模型实现游戏美术工业级内容生产。该平台整合AI美术管线，支持输入提示词生成灵感图、实时画布秒级出图，并能自动生成角色三视图及360°旋转演示视频，角色一致性达99%。内置AI2D美术模型精准理解"厚涂""赛璐璐"等专业术语，覆盖写实、仙侠等主流风格。未来将推出图生视频、动态立绘等新功能，助力游戏美术效率提升数十倍，现可通过官网申请体验。
原文链接：https://www.aibase.com/zh/news/18198

硬件&底层技术前沿

Hardware Technologies

Nvidia 推出 AI 驱动的 DGX 个人计算系统，开启桌面级超级计算新时代
Nvidia发布DGX Spark和DGX Station个人AI超算系统，分别提供1Petaflop和20Petaflops的AI算力。DGX Spark搭载GB10Grace Blackwell超芯片，支持128GB统一内存；DGX Station采用GB300芯片，配备784GB内存并支持多实例GPU分割。两款系统预装PyTorch等工具链，适配开发者模型构建与调试需求，合作伙伴包括戴尔、惠普等厂商，预计今夏上市。黄仁勋表示该系列专为下一代AI研发设计，旨在实现桌面与数据中心的无缝AI开发体验。
原文链接：https://www.aibase.com/zh/news/18195
MLX-LM与Hugging Face实现无缝集成，助力Apple Silicon设备高效运行大语言模型
MLX-LM现已集成至Hugging Face平台，使搭载M1/M2/M3/M4芯片的Apple设备能直接在本地高效运行超4400种大语言模型，无需依赖云服务或格式转换。该集成基于Apple团队专为Apple Silicon优化的MLX框架，通过调用神经引擎和Metal GPU提升性能，并支持从Hugging Face Hub直接加载模型，省去额外转换步骤。此举大幅简化开发者工作流程，推动本地化AI开发普及，为研究人员提供更灵活高效的工具支持。
原文链接：https://www.aibase.com/zh/news/18188
富士康与英伟达携手打造100兆瓦人工智能数据中心
富士康与英伟达宣布合作建设100兆瓦AI数据中心，分阶段从20兆瓦逐步扩展至目标容量。该项目旨在解决台湾电力资源紧张问题，同步开发AI超级计算机以支撑当地科技生态。英伟达CEO黄仁勋表示，该中心将服务富士康及台湾350家科技合作伙伴，打造共享型AI平台。此次合作标志着台湾在全球AI基础设施布局的重要进展，突显两大科技巨头在智能算力领域的战略协同。
原文链接：https://www.aibase.com/zh/news/18203
英伟达推出人形机器人新模型，助力工业革命新篇章
英伟达发布Isaac GR00T N1.5人形机器人基础模型，通过GR00T-Dreams工具将合成数据生成时间从传统3个月缩短至36小时，突破行业数据瓶颈。该模型基于Cosmos Predict世界模型，仅需单张图片即可生成多环境任务视频并提取动作训练数据，显著提升环境适应性和指令识别能力。目前波士顿动力、富士康等企业已接入NVIDIA Isaac平台，同步推出的开源仿真工具Isaac Sim5.0与RTX PRO6000工作站，为工业机器人开发构建完整技术生态。
原文链接：https://www.aibase.com/zh/news/18209
Bright Data MCP 服务器发布，集成超过30种强大工具
Bright Data推出开源MCP服务器，集成30余种工具助力AI代理高效处理网络数据。该方案通过动态工具选择适配不同平台（如Instagram、LinkedIn），解决IP封锁、机器人限制等问题，支持JavaScript重载和地理限制网站访问。服务器完全开源，提供GitHub代码及Docker部署方案，内置SERP API等数据处理工具，支持大规模爬取任务并强调安全防护。开发者可免费测试并按需付费，现已开放于GitHub平台。
原文链接：https://www.aibase.com/zh/news/18187

其他

Other

75万元奖金池+心动offer，启元实验室2025重磅赛事来袭，三大赛道，等你来战!
启元实验室启动2025「启智杯」算法大赛，设置总额75万元奖金池，聚焦卫星遥感图像鲁棒实例分割、嵌入式平台无人机目标检测及多模态大模型对抗三大赛道。赛事旨在推动智能算法技术落地，解决遥感图像多目标分割、无人机端侧部署及大模型安全性等难题，面向国内机构开放报名。优秀选手可获得实验室招聘绿色通道，赛事将联动产学研资源加速技术转化与生态建设，报名截止时间以官网为准。
原文链接：https://www.jiqizhixin.com/articles/2025-05-20-10
20万美元奖金等你来拿!首届WBCD 2025双臂机器人挑战赛全球启幕
首届WBCD 2025双臂机器人挑战赛于2025年5月19-23日在美国亚特兰大ICRA 2025期间举办，总奖金池达20万美元。赛事聚焦物流包装、生命科学实验和餐桌服务三大前沿赛题，要求参赛团队使用指定机器人完成精细操作任务，吸引全球88支队伍报名，最终16支高校及企业团队入围决赛。评委来自伯克利、MIT等顶尖机构，旨在推动产学研结合。赛事获DataWiz、松灵机器人等机构赞助，提供技术支持和产业化指导，优秀团队可获投融资推荐。
原文链接：https://www.jiqizhixin.com/articles/2025-05-20-11
LLM增强微生物组样本语义分类，提高数据可用性
瑞士苏黎世大学研究团队利用大型语言模型（LLM）优化微生物组样本元数据分类，通过上下文理解能力将380万条测序记录精准归类至"动物""水""土壤"等环境类别，并提取地理位置及关键术语。相比传统TF-IDF方法，LLM在复杂术语处理中准确度提升显著，且无需重新训练即可适配多种分类方案。该方法有效解决了元数据质量参差导致的科研数据复用难题，API调用成本可控，但存在模型响应限制和样本模糊性挑战，为生物大数据管理提供了标准化新思路。
原文链接：https://www.jiqizhixin.com/articles/2025-05-20-6
中英举行人工智能对话
中英双方就人工智能的发展机遇、挑战及政策进行了深入交流，同意加强技术互鉴与务实合作，推动人工智能健康安全发展。两国承诺在全球治理层面保持沟通，落实联合国《全球数字契约》，支持发展中国家能力建设。
原文链接：https://cj.sina.cn/article/norm_detail?url=http%3A%2F%2Ffinance.sina.cn%2F2025-05-20%2Fdetail-inexfepc3763478.d.html
Flowith NEO发布!全球首款无限步骤、上下文与工具的AI Agent
Flowith发布全球首款支持无限步骤、上下文与工具的AI代理NEO，由10人团队在云南Vibe Hackathon开发。该产品具备10M token上下文窗口和云端架构，支持超长周期任务如百万字小说创作、3D游戏开发，通过Oracle框架可动态调用图像生成、联网搜索等工具。多线程画布界面实现多代理协作，GAIA基准测试准确率达90%。应用覆盖内容创作、学术研究及软件开发，GitHub上线后获3000+星，被誉"AI生产力未来"。云端虚拟机提供10petaflops处理能力，但需关注高并发任务成本优化。
原文链接：https://www.aibase.com/zh/news/18206

⬇️更多AI资讯关注我们⬇️

【声明】内容源于网络

久新数智

重塑生产力，开启人机协作新篇章！

内容 139

粉丝 0

久新数智重塑生产力，开启人机协作新篇章！

总阅读107

粉丝0

内容139