5月18日丨每日AI简讯- 大数跨境

首页

5月18日丨每日AI简讯

久新数智

2025-05-18

导读：摘要信息

9agent.ai

点击蓝字关注我们

每日AI简讯

2025.05.18

大模型

LLM

ICML 2025 Spotlight｜南洋理工团队提出高分辨率图像感知框架RAP，准确率提升20%
南洋理工大学陶大程教授团队联合武汉大学团队提出基于RAG的高分辨率图像感知框架RAP，解决了传统多模态大模型处理高分辨率图像时信息丢失的问题。该框架通过SpatialAwareness Layout算法保留关键图像块的相对位置，结合RESearch自适应选择图像块数量，在HRBench测试中单实例和跨实例任务准确率最高提升21.7%。无需额外训练即可适配主流模型，适用于医疗影像和卫星图像分析，相关成果获ICML 2025 Spotlight收录。
原文链接：https://www.jiqizhixin.com/articles/20250517
苹果开源FastVLM视觉语言模型：iPhone端侧运行速度提升85倍
苹果开源FastVLM视觉语言模型，该模型通过FastViTHD混合编码器融合卷积与Transformer技术，将视觉token数量压缩至传统模型的1/16，支持768×768高分辨率处理，首个token生成速度较同类模型快85倍。模型提供0.5B、1.5B、7B三种参数版本，适配iOS/macOS生态，可在iPhone实时运行图文交互任务，现已开源并附带设备优化演示应用，显著提升端侧AI效率与用户体验。
原文链接：https://www.jiqizhixin.com/articles/202505172
OpenAI最强编程智能体Codex上线ChatGPT，开启智能编程新时代
OpenAI推出Codex编程智能体并集成至ChatGPT，该智能体基于codex1模型优化，支持云端并行处理代码编写、问题解答、bug修复及拉取请求等任务，每个任务运行于独立云沙盒环境。用户可通过ChatGPT侧边栏交互使用，Pro、Team及企业用户已开放体验，Plus和Edu用户即将支持。Codex定价为输入每百万tokens 1.5美元，输出6美元，初期提供免费试用。其设计强调安全性，任务执行禁用互联网访问，并通过日志和测试结果确保透明度。开发者认为Codex将显著提升编程效率，未来有望实现软件"自我编写"。
原文链接：https://www.jiqizhixin.com/articles/202505173
MiniMax开启Agent内测:比Manus思维链更繁复，多模态优势或成突围胜负手
大模型公司MiniMax于2025年5月17日启动AI Agent内测，提供标准与深度两种模式，深度模式通过多步骤思维链执行复杂任务，并实时展示工作流程。相比Manus的简洁思维链，MiniMax在文档解析、语音生成等任务中展现多模态优势，其新发布的Speech 02语音模型支持32种语言和情绪化人声，生成效果优于竞品。公司依托自主研发的文本、语音、视频多模态模型体系，结合行业报告生成、冥想音频创作等场景，在AI Agent赛道与智谱AI、月之暗面等展开竞争，推动多模态智能体发展。
原文链接：https://cj.sina.cn/article/norm_detail?url=http%3A%2F%2Ffinance.sina.cn%2Ftech%2F20250517%2Fdetailinewvwnh5262506.d.html
中远海运科技申请基于大模型的网络安全辅助系统及构建方法专利，能够根据用户提问给出准确回答并自动生成处置建议
中远海运科技公司于2025年2月申请了一项基于大模型的网络安全辅助系统专利，该系统利用自然语言处理技术深度解析网络攻击日志、用户查询及安全策略，可识别未知威胁和变异攻击，自动生成处置建议。该技术突破传统静态规则和签名匹配的局限性，支持输出markdown格式内容辅助安全决策，适用于智能化网络威胁响应场景。中远海运科技成立于1993年，注册资本超3.7亿元，拥有308项专利，此次专利布局进一步强化其在网络安全领域的技术竞争力。
原文链接：http://m.toutiao.com/group/7505203518882562587/

产品应用

Product Application

CVPR 2025 | SketchVideo让手绘动起来，视频生成进入线稿时代
中国科学院大学、香港科技大学与快手可灵团队提出SketchVideo方法，通过手绘线稿实现视频生成与编辑，解决了现有AI视频模型在几何细节控制和局部编辑上的难题。该方法基于CogVideo-2B模型，引入跳跃式残差控制网络和帧间注意力机制，支持单帧或双帧线稿输入生成时序一致的动态视频，并允许用户通过绘制关键帧控制物体运动轨迹。在编辑任务中，新增视频嵌入模块和局部融合策略，确保修改区域与原始视频时空对齐。实验表明，用户仅需简单线稿即可生成或编辑高质量视频，适用于影视创作、虚拟仿真等场景，相关论文已被CVPR 2025接收。
原文链接：https://www.jiqizhixin.com/articles/2025-05-17-4
腾讯混元图像2.0发布，支持实时"边说边画"
腾讯推出Hunyuan Image 2.0文生图模型，实现毫秒级响应实时生成，支持语音输入同步调整图像，新增手绘草图结合文字生成功能。该模型在真实感、语义对齐和图像压缩方面显著提升，通过强化学习优化后训练效果。
原文链接：http://m.toutiao.com/group/7505262367429706267/
“人工智能建筑设计与城市建设研究院”将落户深圳
中国工程院院士孟建民宣布在深圳筹建“人工智能建筑设计与城市建设研究院”，旨在以数据驱动解决建筑设计行业效率瓶颈与数据孤岛问题。该研究院由深总院牵头，联合深智城、科技企业及高校共建，聚焦研发AI设计工具、搭建协同平台及构建城市级建筑数据库，助力智慧城市建设。作为深圳“全球人工智能先锋城市”建设的重要举措，研究院将推动行业向数据驱动转型，其生成数据将接入全市时空信息平台，现获政府专项资金支持并进入筹建阶段。
原文链接：http://m.toutiao.com/group/7505291124865647130/

硬件&底层技术前沿

Hardware Technologies

图像分词器造反了!华为 Selftok:自回归内核完美统一扩散模型，触发像素自主推理
华为推出Selftok技术，通过反向扩散过程将自回归先验融入视觉token，实现跨模态生成统一。该技术摒弃传统空间token分割方式，利用扩散时序分解生成严格遵循因果律的离散序列，解决了视觉生成中的因果建模难题。实验显示，Selftok在Imagenet重建指标达到离散token领域最高水平，无监督模式下GenEval生成质量超越GPT-4o，并通过昇腾AI原生优化实现0.31秒单卡推理速度。该技术成功将强化学习引入视觉生成，支持策略梯度优化，在图像编辑和多轮指令执行中展现出精确控制能力。
原文链接：https://www.jiqizhixin.com/articles/2025-05-17-5
港科大与vivo提出PreSelect数据筛选方案，提升预训练效率10倍
香港科技大学与vivo AI Lab合作开发PreSelect数据筛选方法，通过"预测强度"指标量化数据贡献度，利用fastText评分器筛选训练数据。该方法减少10倍计算需求的同时提升模型效果3%，突破传统规则筛选局限，相关论文已被ICML 2025接收。
原文链接：http://m.toutiao.com/group/7505262367429706267/
人形机器人首次走AI红毯，挥手致意还打了一套太极拳
2025年上海科技节开幕式中，傅利叶智能公司携GR-2、N1及“远征A2”三款人形机器人首次亮相AI红毯。机器人通过上万小时场景训练，在XR虚拟空间中实现虚实互动，其中GR-2稳健行走搬运重物，N1展示耐力巡航，“远征A2”更现场表演太极拳并语音解说招式。活动结合实时动捕与AI特效，展现人形机器人运动控制突破及“人机共融”理念，体现上海在产学研协同创新和未来产业布局的成果。
原文链接：http://m.toutiao.com/group/7505249294774010405/

上市公司动态

Listed Company Updates

微软大规模裁员引发行业震动，AI驱动的组织变革加速
微软宣布全球裁员6000人，涉及资深员工及TypeScript核心开发者，旨在简化管理层级并提高程序员比例。此次裁员被视为AI技术提升效率、优化人力结构的体现，引发对AI冲击就业市场、企业忠诚度及未来工作模式的广泛讨论。
原文链接：http://m.toutiao.com/group/7505262367429706267/

其他

Other

"瓯江论数数安未来"2025数据安全发展大会召开
2025年5月17日，温州市举办"瓯江论数数安未来"数据安全发展大会，国家数据局局长刘烈宏、浙江省副省长张振丰及多位院士专家参会。会上签订25城数据要素合作联盟协议，落地6个数据安全实验室，发布《2025高质量数据集发展报告》等成果。沈昌祥院士提出可信计算3.0构建安全长城，徐涛院士强调生命健康数据安全体系，公安部、华为、奇安信等机构代表围绕AI大模型、数据合规等议题展开研讨，推动数据要素产业生态建设。
原文链接：http://m.toutiao.com/group/7505340982788932132/
智网联八桂 AI创未来——广西2025年世界电信和信息社会日大会在南宁举行
2025年5月17日，广西信息通信行业在南宁举办世界电信和信息社会日大会，自治区常务副主席许永锞等领导及行业代表参会。大会聚焦人工智能与信息通信技术融合，发布《广西互联网发展报告》显示全区网民突破3800万，数字经济企业达1.93万家，并推出《高质量发展行动方案》推动"双万兆"网络升级。会议总结了广西电信普遍服务十周年成果，累计建成20.5万个基站，实现城乡网络全覆盖。同时，南宁国际通信业务出入口局和智算中心建设加速，助力打造中国—东盟人工智能合作高地。
原文链接：http://m.toutiao.com/group/7505375854436811264/

⬇️更多AI资讯关注我们⬇️

【声明】内容源于网络

久新数智

重塑生产力，开启人机协作新篇章！

内容 0

粉丝 0

久新数智重塑生产力，开启人机协作新篇章！

总阅读0

粉丝0

内容0