大数跨境

5月18日丨每日AI简讯

5月18日丨每日AI简讯 久新数智
2025-05-18
2
导读:摘要信息



9agent.ai

点击蓝字 关注我们



每日AI简讯

2025.05.18


01

大模型

LLM

图片
  • ICML 2025 Spotlight|南洋理工团队提出高分辨率图像感知框架RAP,准确率提升20%

    南洋理工大学陶大程教授团队联合武汉大学团队提出基于RAG的高分辨率图像感知框架RAP,解决了传统多模态大模型处理高分辨率图像时信息丢失的问题。该框架通过SpatialAwareness Layout算法保留关键图像块的相对位置,结合RESearch自适应选择图像块数量,在HRBench测试中单实例和跨实例任务准确率最高提升21.7%。无需额外训练即可适配主流模型,适用于医疗影像和卫星图像分析,相关成果获ICML 2025 Spotlight收录。

    原文链接:https://www.jiqizhixin.com/articles/20250517

  • 苹果开源FastVLM视觉语言模型:iPhone端侧运行速度提升85倍

    苹果开源FastVLM视觉语言模型,该模型通过FastViTHD混合编码器融合卷积与Transformer技术,将视觉token数量压缩至传统模型的1/16,支持768×768高分辨率处理,首个token生成速度较同类模型快85倍。模型提供0.5B、1.5B、7B三种参数版本,适配iOS/macOS生态,可在iPhone实时运行图文交互任务,现已开源并附带设备优化演示应用,显著提升端侧AI效率与用户体验。

    原文链接:https://www.jiqizhixin.com/articles/202505172

  • OpenAI最强编程智能体Codex上线ChatGPT,开启智能编程新时代

    OpenAI推出Codex编程智能体并集成至ChatGPT,该智能体基于codex1模型优化,支持云端并行处理代码编写、问题解答、bug修复及拉取请求等任务,每个任务运行于独立云沙盒环境。用户可通过ChatGPT侧边栏交互使用,Pro、Team及企业用户已开放体验,Plus和Edu用户即将支持。Codex定价为输入每百万tokens 1.5美元,输出6美元,初期提供免费试用。其设计强调安全性,任务执行禁用互联网访问,并通过日志和测试结果确保透明度。开发者认为Codex将显著提升编程效率,未来有望实现软件"自我编写"。

    原文链接:https://www.jiqizhixin.com/articles/202505173

  • MiniMax开启Agent内测:比Manus思维链更繁复,多模态优势或成突围胜负手

    大模型公司MiniMax于2025年5月17日启动AI Agent内测,提供标准与深度两种模式,深度模式通过多步骤思维链执行复杂任务,并实时展示工作流程。相比Manus的简洁思维链,MiniMax在文档解析、语音生成等任务中展现多模态优势,其新发布的Speech 02语音模型支持32种语言和情绪化人声,生成效果优于竞品。公司依托自主研发的文本、语音、视频多模态模型体系,结合行业报告生成、冥想音频创作等场景,在AI Agent赛道与智谱AI、月之暗面等展开竞争,推动多模态智能体发展。

    原文链接:https://cj.sina.cn/article/norm_detail?url=http%3A%2F%2Ffinance.sina.cn%2Ftech%2F20250517%2Fdetailinewvwnh5262506.d.html

  • 中远海运科技申请基于大模型的网络安全辅助系统及构建方法专利,能够根据用户提问给出准确回答并自动生成处置建议

    中远海运科技公司于2025年2月申请了一项基于大模型的网络安全辅助系统专利,该系统利用自然语言处理技术深度解析网络攻击日志、用户查询及安全策略,可识别未知威胁和变异攻击,自动生成处置建议。该技术突破传统静态规则和签名匹配的局限性,支持输出markdown格式内容辅助安全决策,适用于智能化网络威胁响应场景。中远海运科技成立于1993年,注册资本超3.7亿元,拥有308项专利,此次专利布局进一步强化其在网络安全领域的技术竞争力。

    原文链接:http://m.toutiao.com/group/7505203518882562587/


02

产品应用

Product Application

图片
  • CVPR 2025 | SketchVideo让手绘动起来,视频生成进入线稿时代

    中国科学院大学、香港科技大学与快手可灵团队提出SketchVideo方法,通过手绘线稿实现视频生成与编辑,解决了现有AI视频模型在几何细节控制和局部编辑上的难题。该方法基于CogVideo-2B模型,引入跳跃式残差控制网络和帧间注意力机制,支持单帧或双帧线稿输入生成时序一致的动态视频,并允许用户通过绘制关键帧控制物体运动轨迹。在编辑任务中,新增视频嵌入模块和局部融合策略,确保修改区域与原始视频时空对齐。实验表明,用户仅需简单线稿即可生成或编辑高质量视频,适用于影视创作、虚拟仿真等场景,相关论文已被CVPR 2025接收。

    原文链接:https://www.jiqizhixin.com/articles/2025-05-17-4

  • 腾讯混元图像2.0发布,支持实时"边说边画"

    腾讯推出Hunyuan Image 2.0文生图模型,实现毫秒级响应实时生成,支持语音输入同步调整图像,新增手绘草图结合文字生成功能。该模型在真实感、语义对齐和图像压缩方面显著提升,通过强化学习优化后训练效果。

    原文链接:http://m.toutiao.com/group/7505262367429706267/

  • “人工智能建筑设计与城市建设研究院”将落户深圳

    中国工程院院士孟建民宣布在深圳筹建“人工智能建筑设计与城市建设研究院”,旨在以数据驱动解决建筑设计行业效率瓶颈与数据孤岛问题。该研究院由深总院牵头,联合深智城、科技企业及高校共建,聚焦研发AI设计工具、搭建协同平台及构建城市级建筑数据库,助力智慧城市建设。作为深圳“全球人工智能先锋城市”建设的重要举措,研究院将推动行业向数据驱动转型,其生成数据将接入全市时空信息平台,现获政府专项资金支持并进入筹建阶段。

    原文链接:http://m.toutiao.com/group/7505291124865647130/


03

硬件&底层技术前沿

Hardware Technologies

图片
  • 图像分词器造反了!华为 Selftok:自回归内核完美统一扩散模型,触发像素自主推理

    华为推出Selftok技术,通过反向扩散过程将自回归先验融入视觉token,实现跨模态生成统一。该技术摒弃传统空间token分割方式,利用扩散时序分解生成严格遵循因果律的离散序列,解决了视觉生成中的因果建模难题。实验显示,Selftok在Imagenet重建指标达到离散token领域最高水平,无监督模式下GenEval生成质量超越GPT-4o,并通过昇腾AI原生优化实现0.31秒单卡推理速度。该技术成功将强化学习引入视觉生成,支持策略梯度优化,在图像编辑和多轮指令执行中展现出精确控制能力。

    原文链接:https://www.jiqizhixin.com/articles/2025-05-17-5

  • 港科大与vivo提出PreSelect数据筛选方案,提升预训练效率10倍

    香港科技大学与vivo AI Lab合作开发PreSelect数据筛选方法,通过"预测强度"指标量化数据贡献度,利用fastText评分器筛选训练数据。该方法减少10倍计算需求的同时提升模型效果3%,突破传统规则筛选局限,相关论文已被ICML 2025接收。

    原文链接:http://m.toutiao.com/group/7505262367429706267/

  • 人形机器人首次走AI红毯,挥手致意还打了一套太极拳

    2025年上海科技节开幕式中,傅利叶智能公司携GR-2、N1及“远征A2”三款人形机器人首次亮相AI红毯。机器人通过上万小时场景训练,在XR虚拟空间中实现虚实互动,其中GR-2稳健行走搬运重物,N1展示耐力巡航,“远征A2”更现场表演太极拳并语音解说招式。活动结合实时动捕与AI特效,展现人形机器人运动控制突破及“人机共融”理念,体现上海在产学研协同创新和未来产业布局的成果。

    原文链接:http://m.toutiao.com/group/7505249294774010405/


04

上市公司动态

Listed Company Updates

图片
  • 微软大规模裁员引发行业震动,AI驱动的组织变革加速

    微软宣布全球裁员6000人,涉及资深员工及TypeScript核心开发者,旨在简化管理层级并提高程序员比例。此次裁员被视为AI技术提升效率、优化人力结构的体现,引发对AI冲击就业市场、企业忠诚度及未来工作模式的广泛讨论。

    原文链接:http://m.toutiao.com/group/7505262367429706267/


05

其他

Other

图片
  • "瓯江论数 数安未来"2025数据安全发展大会召开

    2025年5月17日,温州市举办"瓯江论数 数安未来"数据安全发展大会,国家数据局局长刘烈宏、浙江省副省长张振丰及多位院士专家参会。会上签订25城数据要素合作联盟协议,落地6个数据安全实验室,发布《2025高质量数据集发展报告》等成果。沈昌祥院士提出可信计算3.0构建安全长城,徐涛院士强调生命健康数据安全体系,公安部、华为、奇安信等机构代表围绕AI大模型、数据合规等议题展开研讨,推动数据要素产业生态建设。

    原文链接:http://m.toutiao.com/group/7505340982788932132/

  • 智网联八桂 AI创未来——广西2025年世界电信和信息社会日大会在南宁举行

    2025年5月17日,广西信息通信行业在南宁举办世界电信和信息社会日大会,自治区常务副主席许永锞等领导及行业代表参会。大会聚焦人工智能与信息通信技术融合,发布《广西互联网发展报告》显示全区网民突破3800万,数字经济企业达1.93万家,并推出《高质量发展行动方案》推动"双万兆"网络升级。会议总结了广西电信普遍服务十周年成果,累计建成20.5万个基站,实现城乡网络全覆盖。同时,南宁国际通信业务出入口局和智算中心建设加速,助力打造中国—东盟人工智能合作高地。

    原文链接:http://m.toutiao.com/group/7505375854436811264/



⬇️更多AI资讯关注我们⬇️



【声明】内容源于网络
0
0
久新数智
重塑生产力,开启人机协作新篇章!
内容 0
粉丝 0
久新数智 重塑生产力,开启人机协作新篇章!
总阅读0
粉丝0
内容0