9agent.ai
点击蓝字 关注我们
每日AI简讯
2025.05.21
01
大模型
LLM
如何应对结构活性悬崖难题,用于分子性质预测的预训练框架SCAGE给出解答
山东大学、天津大学与澳门理工大学联合开发了SCAGE预训练框架,通过融合分子构象与空间信息解决药物开发中的结构活性悬崖难题。该模型基于500万药物化合物预训练,结合多尺度构象学习和多任务策略,在9个分子特性基准测试中8项领先,并在30个活性悬崖数据集上23项达最优。相比现有方法,SCAGE仅需四分之一预训练数据即实现性能突破,显著降低了药物活性预测误差,相关成果发表于《Nature Communications》。
原文链接:https://www.jiqizhixin.com/articles/20250520
华为&中国科学院带来优化框架,用于面向文本的药物分子设计
华为联合中科院、香港大学提出3DToMolo框架,通过整合文本描述、2D化学键和3D分子构象实现药物分子优化。该框架采用LLAMA模型进行文本语义对齐,结合扩散模型生成新结构,支持零样本优化无需重复训练。实验显示其在8项分类任务中5项表现卓越,并能通过自然语言提示实现结构约束下的分子优化。该多模态方法在数据有限时仍保持高效,为药物设计提供灵活的子结构修改能力,但生成分子的可合成性仍需进一步验证。
原文链接:https://www.jiqizhixin.com/articles/202505202
ICML 2025 Spotlight | 多模态大模型暴露短板?EMMA基准深度揭秘多模态推理能力
ICML 2025研究提出EMMA基准,揭示多模态大模型(MLLMs)在深度视觉与文本融合推理中的不足。测试显示,即使顶尖模型如GPT4o和Gemini2.5pro在数学、物理等领域的表现仍落后人类专家超20%,主要瓶颈为视觉推理能力,如空间模拟和跨模态信息整合。研究发现,模型依赖文本逻辑而非视觉直观,错误分析中视觉推理错误占比最高(52.83%)。该基准为提升多模态推理能力提供方向,相关代码及数据集已开源。
原文链接:https://www.jiqizhixin.com/articles/202505207
代码、多模态检索全面登顶SOTA!智源BGE向量模型三连击,并全面开放
智源研究院发布三款BGE向量模型——BGECodev1(代码检索)、BGEVLv1.5(多模态检索)和BGEVLScreenshot(视觉化文档检索),均在CoIR、MMEB、MVRB等基准测试中以显著优势刷新SOTA。BGECodev1针对代码与文本检索优化,BGEVLv1.5增强图文理解能力,BGEVLScreenshot擅长处理复杂视觉文档。三款模型全面开源,支持代码检索、跨模态推荐、截图问答等场景,助力研发与产业应用,现已在Hugging Face等平台开放下载。
原文链接:https://www.jiqizhixin.com/articles/202505209
Salesforce BLIP3o重磅登陆Hugging Face!全开源多模态模型,图像理解与生成一统江湖!
Salesforce在Hugging Face发布全开源多模态模型BLIP3o,通过扩散变换器架构与CLIP图像特征结合,实现图像理解与生成的统一。该模型支持文本生成图像、视觉问答等任务,训练效率提升30%,OCR准确率提高20%。配套开源BLIP3OCR200M数据集与完整代码,开发者可快速部署图像内容创作、学术文档解析等场景。社区反响热烈,Hugging Face页面访问量超5.8万次,GitHub仓库新增2000+星标,成为多模态AI开源领域新标杆。
原文链接:https://huggingface.co/spaces/BLIP3o/blip3o
02
产品应用
Product Application
AI婴儿视频爆红!Hedra工具打造宫崎骏跨次元对话
Hedra公司推出的Character-3全栈AI角色生成器,通过整合图像生成、语音合成与视频对齐技术,实现一键式虚拟角色创作。用户只需上传图片即可生成口型精准同步、表情生动的视频,配合MiniMax Audio等工具完成中文语音适配。该技术已应用于TikTok爆款内容制作,如"婴儿宫崎骏"与老年版跨次元对谈《苍鹭与少年》,从脚本生成到视频剪辑全程AI驱动,支持调用Veo 2等多模型协作,现提供网页端一站式创作体验。
原文链接:https://www.jiqizhixin.com/articles/2025-05-20-3
Animon日本爆火背后:CreateAI全力押注AI动漫,深度布局内容生态
CreateAI推出的Animon.ai动漫AI生成工具在日本引发热潮,用户可通过上传图片和文本描述快速生成动画视频,免费不限次使用模式吸引大量创作者。该工具基于通义万相2.1模型优化,生成效果达专业水准,5秒视频仅需3分钟。CreateAI从自动驾驶转型AI娱乐,通过三大战略布局:AI赋能降低动漫/游戏生产成本50%、构建技术工具与内容生态闭环、联动《金庸群侠传》《三体》等顶级IP开发影游项目。公司计划以"技术-工具-平台-内容"四层战略推动动漫产业革新,RUYI开源模型和UGC社区建设加速行业AI化转型。
原文链接:https://www.jiqizhixin.com/articles/2025-05-20-4
将对话界面直接引入Web,微软开源NLWeb,实现ChatGPT级别搜索
微软开源NLWeb项目,将自然语言对话界面直接集成至Web搜索场景。该系统通过深度语义理解技术,支持用户以多轮对话形式进行网页信息检索,响应速度与准确性达到ChatGPT级别。该框架可帮助开发者快速构建免关键词搜索的交互系统,适用于电商导购、知识问答等场景,现已在GitHub开放核心算法模块及API接口,预计将推动人机交互范式革新。
原文链接:https://www.jiqizhixin.com/articles/2025-05-20-15
谷歌Jules测试版全球上线!挑战Codex,AI自主生成PR,每天5次免费任务
谷歌推出基于Gemini2.5的AI编码代理Jules测试版,支持Python和JavaScript项目,可自主分析代码库、生成多步骤计划并创建GitHub拉取请求。用户通过自然语言指令即可触发异步任务执行,每日提供5次免费任务,开发者可实时审查代码变更。该工具深度整合GitHub,采用透明化流程与人类监督机制,相较Codex在多步骤任务处理上更具优势,其免费策略和谷歌云生态协同能力或冲击现有AI编码工具市场格局。
原文链接:https://www.aibase.com/zh/news/18184
边画边出图!腾讯混元上线游戏视觉生成平台
腾讯发布混元游戏视觉生成平台,基于大模型实现游戏美术工业级内容生产。该平台整合AI美术管线,支持输入提示词生成灵感图、实时画布秒级出图,并能自动生成角色三视图及360°旋转演示视频,角色一致性达99%。内置AI2D美术模型精准理解"厚涂""赛璐璐"等专业术语,覆盖写实、仙侠等主流风格。未来将推出图生视频、动态立绘等新功能,助力游戏美术效率提升数十倍,现可通过官网申请体验。
原文链接:https://www.aibase.com/zh/news/18198
03
硬件&底层技术前沿
Hardware Technologies
Nvidia 推出 AI 驱动的 DGX 个人计算系统,开启桌面级超级计算新时代
Nvidia发布DGX Spark和DGX Station个人AI超算系统,分别提供1Petaflop和20Petaflops的AI算力。DGX Spark搭载GB10Grace Blackwell超芯片,支持128GB统一内存;DGX Station采用GB300芯片,配备784GB内存并支持多实例GPU分割。两款系统预装PyTorch等工具链,适配开发者模型构建与调试需求,合作伙伴包括戴尔、惠普等厂商,预计今夏上市。黄仁勋表示该系列专为下一代AI研发设计,旨在实现桌面与数据中心的无缝AI开发体验。
原文链接:https://www.aibase.com/zh/news/18195
MLX-LM与Hugging Face实现无缝集成,助力Apple Silicon设备高效运行大语言模型
MLX-LM现已集成至Hugging Face平台,使搭载M1/M2/M3/M4芯片的Apple设备能直接在本地高效运行超4400种大语言模型,无需依赖云服务或格式转换。该集成基于Apple团队专为Apple Silicon优化的MLX框架,通过调用神经引擎和Metal GPU提升性能,并支持从Hugging Face Hub直接加载模型,省去额外转换步骤。此举大幅简化开发者工作流程,推动本地化AI开发普及,为研究人员提供更灵活高效的工具支持。
原文链接:https://www.aibase.com/zh/news/18188
富士康与英伟达携手打造100兆瓦人工智能数据中心
富士康与英伟达宣布合作建设100兆瓦AI数据中心,分阶段从20兆瓦逐步扩展至目标容量。该项目旨在解决台湾电力资源紧张问题,同步开发AI超级计算机以支撑当地科技生态。英伟达CEO黄仁勋表示,该中心将服务富士康及台湾350家科技合作伙伴,打造共享型AI平台。此次合作标志着台湾在全球AI基础设施布局的重要进展,突显两大科技巨头在智能算力领域的战略协同。
原文链接:https://www.aibase.com/zh/news/18203
英伟达推出人形机器人新模型,助力工业革命新篇章
英伟达发布Isaac GR00T N1.5人形机器人基础模型,通过GR00T-Dreams工具将合成数据生成时间从传统3个月缩短至36小时,突破行业数据瓶颈。该模型基于Cosmos Predict世界模型,仅需单张图片即可生成多环境任务视频并提取动作训练数据,显著提升环境适应性和指令识别能力。目前波士顿动力、富士康等企业已接入NVIDIA Isaac平台,同步推出的开源仿真工具Isaac Sim5.0与RTX PRO6000工作站,为工业机器人开发构建完整技术生态。
原文链接:https://www.aibase.com/zh/news/18209
Bright Data MCP 服务器发布,集成超过30种强大工具
Bright Data推出开源MCP服务器,集成30余种工具助力AI代理高效处理网络数据。该方案通过动态工具选择适配不同平台(如Instagram、LinkedIn),解决IP封锁、机器人限制等问题,支持JavaScript重载和地理限制网站访问。服务器完全开源,提供GitHub代码及Docker部署方案,内置SERP API等数据处理工具,支持大规模爬取任务并强调安全防护。开发者可免费测试并按需付费,现已开放于GitHub平台。
原文链接:https://www.aibase.com/zh/news/18187
04
其他
Other
75万元奖金池+心动offer,启元实验室2025重磅赛事来袭,三大赛道,等你来战!
启元实验室启动2025「启智杯」算法大赛,设置总额75万元奖金池,聚焦卫星遥感图像鲁棒实例分割、嵌入式平台无人机目标检测及多模态大模型对抗三大赛道。赛事旨在推动智能算法技术落地,解决遥感图像多目标分割、无人机端侧部署及大模型安全性等难题,面向国内机构开放报名。优秀选手可获得实验室招聘绿色通道,赛事将联动产学研资源加速技术转化与生态建设,报名截止时间以官网为准。
原文链接:https://www.jiqizhixin.com/articles/2025-05-20-10
20万美元奖金等你来拿!首届WBCD 2025双臂机器人挑战赛全球启幕
首届WBCD 2025双臂机器人挑战赛于2025年5月19-23日在美国亚特兰大ICRA 2025期间举办,总奖金池达20万美元。赛事聚焦物流包装、生命科学实验和餐桌服务三大前沿赛题,要求参赛团队使用指定机器人完成精细操作任务,吸引全球88支队伍报名,最终16支高校及企业团队入围决赛。评委来自伯克利、MIT等顶尖机构,旨在推动产学研结合。赛事获DataWiz、松灵机器人等机构赞助,提供技术支持和产业化指导,优秀团队可获投融资推荐。
原文链接:https://www.jiqizhixin.com/articles/2025-05-20-11
LLM增强微生物组样本语义分类,提高数据可用性
瑞士苏黎世大学研究团队利用大型语言模型(LLM)优化微生物组样本元数据分类,通过上下文理解能力将380万条测序记录精准归类至"动物""水""土壤"等环境类别,并提取地理位置及关键术语。相比传统TF-IDF方法,LLM在复杂术语处理中准确度提升显著,且无需重新训练即可适配多种分类方案。该方法有效解决了元数据质量参差导致的科研数据复用难题,API调用成本可控,但存在模型响应限制和样本模糊性挑战,为生物大数据管理提供了标准化新思路。
原文链接:https://www.jiqizhixin.com/articles/2025-05-20-6
中英举行人工智能对话
中英双方就人工智能的发展机遇、挑战及政策进行了深入交流,同意加强技术互鉴与务实合作,推动人工智能健康安全发展。两国承诺在全球治理层面保持沟通,落实联合国《全球数字契约》,支持发展中国家能力建设。
原文链接:https://cj.sina.cn/article/norm_detail?url=http%3A%2F%2Ffinance.sina.cn%2F2025-05-20%2Fdetail-inexfepc3763478.d.html
Flowith NEO发布!全球首款无限步骤、上下文与工具的AI Agent
Flowith发布全球首款支持无限步骤、上下文与工具的AI代理NEO,由10人团队在云南Vibe Hackathon开发。该产品具备10M token上下文窗口和云端架构,支持超长周期任务如百万字小说创作、3D游戏开发,通过Oracle框架可动态调用图像生成、联网搜索等工具。多线程画布界面实现多代理协作,GAIA基准测试准确率达90%。应用覆盖内容创作、学术研究及软件开发,GitHub上线后获3000+星,被誉"AI生产力未来"。云端虚拟机提供10petaflops处理能力,但需关注高并发任务成本优化。
原文链接:https://www.aibase.com/zh/news/18206
⬇️更多AI资讯关注我们⬇️

