大数跨境
0
0

[分享][每日更新][2025.10.16][ArXiv CV Paper]

[分享][每日更新][2025.10.16][ArXiv CV Paper] 电商运营宝典
2025-10-18
10
导读:[UPDATED!

[UPDATED!] 2025-10-16 (Update Time)

视觉表征与基础模型 (Visual Representation & Foundation Models)

大规模预训练模型 (Large-scale Pretrained Models)

index: 1
Date: 2025-10-16
Title: Learning an Image Editing Model without Image Editing Pairs
Title_cn: 无监督学习图像编辑模型:无需图像编辑对
Authors: Nupur Kumari, Sheng-Yu Wang, Nanxuan Zhao, Yotam Nitzan, Yuheng Li, Krishna Kumar Singh, Richard Zhang, Eli Shechtman .etc.
PDF:http://arxiv.org/pdf/2510.14978v1
Code/Contribution:提出了一种无需图像编辑对的新训练范式,通过视觉语言模型反馈和分布匹配损失优化扩散模型,实现无需配对数据的图像编辑。

index: 2
Date: 2025-10-16
Title: GRAB: A Challenging GRaph Analysis Benchmark for Large Multimodal Models
Title_cn: GRAB:面向大型多模态模型的大规模图分析挑战基准
Authors: Jonathan Roberts, Kai Han, Samuel Albanie
PDF:http://arxiv.org/pdf/2408.11817v3
Code/Contribution:提出了GRAB基准,为大型多模态模型在图形分析任务上提供了高难度的挑战和评估标准。

index: 3
Date: 2025-10-16
Title: Benchmarking Multimodal Large Language Models for Face Recognition
Title_cn: 多模态大型语言模型在人脸识别中的基准测试
Authors: Hatef Otroshi Shahreza, Sébastien Marcel
PDF:http://arxiv.org/pdf/2510.14866v1
Code/Contribution:系统评估了多模态大型语言模型在人脸识别上的表现,为提升模型准确性和泛化能力提供了基准和洞见。

index: 4
Date: 2025-10-16
Title: Gradient-Sign Masking for Task Vector Transport Across Pre-Trained Models
Title_cn: 梯度符号遮蔽:跨预训练模型的任务向量传输
Authors: Filippo Rinaldi, Aniello Panariello, Giacomo Salici, Fengyuan Liu, Marco Ciccone, Angelo Porrello, Simone Calderara
PDF:http://arxiv.org/pdf/2510.09658v2
Code/Contribution:提出GradFix方法,通过梯度符号结构实现跨预训练模型的任务向量迁移,仅需少量样本即可有效适应新模型。

index: 5
Date: 2025-10-16
Title: Subspace-Boosted Model Merging
Title_cn: 子空间增强的模型融合
Authors: Ronald Skorobogat, Karsten Roth, Mariana-Iuliana Georgescu
PDF:http://arxiv.org/pdf/2506.16506v2
Code/Contribution:提出方法解决模型融合中任务空间秩塌陷问题,通过子空间提升显著提高多专家模型融合效果。

index: 6
Date: 2025-10-16
Title: In-Context Learning with Unpaired Clips for Instruction-based Video Editing
Title_cn: 基于指令的视频编辑的无配对片段上下文学习
Authors: Xinyao Liao, Xianfang Zeng, Ziye Song, Zhoujie Fu, Gang Yu, Guosheng Lin
PDF:http://arxiv.org/pdf/2510.14648v1
Code/Contribution:提出了一种低成本预训练策略,通过未配对视频片段的上下文学习实现指令驱动的视频编辑,显著提升了编辑质量和遵循指令的能力。

index: 7
Date: 2025-10-16
Title: UniEgoMotion: A Unified Model for Egocentric Motion Reconstruction, Forecasting, and Generation
Title_cn: 《UniEgoMotion:一种用于自我中心运动重建、预测和生成的统一模型》
Authors: Chaitanya Patel, Hiroki Nakamura, Yuta Kyuragi, Kazuki Kozuka, Juan Carlos Niebles, Ehsan Adeli
PDF:http://arxiv.org/pdf/2508.01126v2
Code/Contribution:提出UniEgoMotion模型,通过提取第一视角图像中的场景信息,实现了 egocentric 运动的重建、预测和生成。

index: 8
Date: 2025-10-16
Title: Emergent Visual Grounding in Large Multimodal Models Without Grounding Supervision
Title_cn: 无监督大型多模态模型中的涌现视觉定位
Authors: Shengcao Cao, Liang-Yan Gui, Yu-Xiong Wang
PDF:http://arxiv.org/pdf/2410.08209v2
Code/Contribution:发现无需显式接地监督的大规模多模态模型中可自发产生接地能力,提出了一种增强接地能力的DIFFLMM模型。

index: 9
Date: 2025-10-16
Title: WoW: Towards a World omniscient World model Through Embodied Interaction
Title_cn: 《WoW:通过具身交互构建全知世界模型》
Authors: Xiaowei Chi, Peidong Jia, Chun-Kai Fan, Xiaozhu Ju, Weishi Mi, Kevin Zhang, Zhiyuan Qin, Wanxin Tian .etc.
PDF:http://arxiv.org/pdf/2509.22642v2
Code/Contribution:提出了一种通过机器人互动学习物理直觉的14亿参数生成世界模型,实现了视频中的物理一致性和因果推理的最新性能。

index: 10
Date: 2025-10-16
Title: Falcon: A Remote Sensing Vision-Language Foundation Model (Technical Report)
Title_cn: “Falcon:一种遥感视觉-语言基础模型(技术报告)”
Authors: Kelu Yao, Nuo Xu, Rong Yang, Yingying Xu, Zhuoyan Gao, Titinunt Kitrungrotsakul, Yi Ren, Pu Zhang .etc.
PDF:http://arxiv.org/pdf/2503.11070v2
Code/Contribution:提出了Falcon模型,一种针对遥感领域的统一视觉语言基础模型,实现了14项复杂遥感任务的高效执行。代码

index: 11
Date: 2025-10-16
Title: Spot the Fake: Large Multimodal Model-Based Synthetic Image Detection with Artifact Explanation
Title_cn: “识破假象:基于大型多模态模型的合成图像检测及瑕疵解释”
Authors: Siwei Wen, Junyan Ye, Peilin Feng, Hengrui Kang, Zichen Wen, Yize Chen, Jiang Wu, Wenjun Wu .etc.
PDF:http://arxiv.org/pdf/2503.14905v2
Code/Contribution:提出 FakeVLM 模型,用于有效检测合成图像并提供清晰的图像伪造痕迹解释。代码

index: 12
Date: 2025-10-16
Title: GauSSmart: Enhanced 3D Reconstruction through 2D Foundation Models and Geometric Filtering
Title_cn: 高斯智能:通过二维基础模型与几何滤波增强的三维重建
Authors: Alexander Valverde, Brian Xu, Yuyin Zhou, Meng Xu, Hongyun Wang
PDF:http://arxiv.org/pdf/2510.14270v1
Code/Contribution:提出了一种融合2D基础模型与3D高斯散点重建的GauSSmart方法,有效提升了场景重建的细节表现和覆盖度。

多模态表征学习 (Multimodal Representation Learning)

index: 1
Date: 2025-10-16
Title: DialectGen: Benchmarking and Improving Dialect Robustness in Multimodal Generation
Title_cn: 方言生成:多模态生成中的方言鲁棒性基准测试与改进
Authors: Yu Zhou, Sohyun An, Haikang Deng, Da Yin, Clark Peng, Cho-Jui Hsieh, Kai-Wei Chang, Nanyun Peng
PDF:http://arxiv.org/pdf/2510.14949v1
Code/Contribution:定位方言鲁棒性缺陷并提出一种通用编码器策略,使多模态生成模型在方言和标准英语上表现相当。

index: 2
Date: 2025-10-16
Title: Leveraging Multimodal LLM Descriptions of Activity for Explainable Semi-Supervised Video Anomaly Detection
Title_cn: 利用多模态大型语言模型对活动描述进行可解释的半监督视频异常检测
Authors: Furkan Mumcu, Michael J. Jones, Anoop Cherian, Yasin Yilmaz
PDF:http://arxiv.org/pdf/2510.14896v1
Code/Contribution:提出了一种利用多模态大型语言模型描述物体活动与交互的半监督视频异常检测框架,有效识别复杂交互异常并增强解释性。

index: 3
Date: 2025-10-16
Title: Backdoor Unlearning by Linear Task Decomposition
Title_cn: 通过线性任务分解的后门遗忘
Authors: Amel Abdelraheem, Alessandro Favero, Gerome Bovet, Pascal Frossard
PDF:http://arxiv.org/pdf/2510.14845v1
Code/Contribution:提出了一种线性任务分解方法,实现了在不损害模型原有性能的前提下有效移除后门攻击。

index: 4
Date: 2025-10-16
Title: Supervised Fine-Tuning or Contrastive Learning? Towards Better Multimodal LLM Reranking
Title_cn: 监督微调还是对比学习?迈向更优的多模态大型语言模型重排
Authors: Ziqi Dai, Xin Zhang, Mingxin Li, Yanzhao Zhang, Dingkun Long, Pengjun Xie, Meishan Zhang, Wenjie Li .etc.
PDF:http://arxiv.org/pdf/2510.14824v1
Code/Contribution:比较了对比学习与监督微调在大型语言模型reranking中的效果,发现监督微调更具优势。

index: 5
Date: 2025-10-16
Title: Morphology-Aware Prognostic model for Five-Year Survival Prediction in Colorectal Cancer from H&E Whole Slide Images
Title_cn: 基于形态学感知的预后模型:从H&E全切片图像预测结直肠癌五年生存率
Authors: Usama Sajjad, Abdul Rehman Akbar, Ziyu Su, Deborah Knight, Wendy L. Frankel, Metin N. Gurcan, Wei Chen, Muhammad Khalid Khan Niazi
PDF:http://arxiv.org/pdf/2510.14800v1
Code/Contribution:提出了一种新的 interpretable AI 模型 PRISM,通过整合形态学特征预测结直肠癌患者五年生存率,准确度优于现有方法。

index: 6
Date: 2025-10-16
Title: DCMIL: A Progressive Representation Learning Model of Whole Slide Images for Cancer Prognosis Analysis
Title_cn: 全切片图像的渐进式表征学习模型DCMIL:用于癌症预后分析
Authors: Chao Tu, Kun Huang, Jie Zhang, Qianjin Feng, Yu Zhang, Zhenyuan Ning
PDF:http://arxiv.org/pdf/2510.14403v1
Code/Contribution:提出了一种无需密集标注的渐进式表示学习模型DCMIL,有效处理全切片图像以预测癌症预后。代码

index: 7
Date: 2025-10-16
Title: Vision-Centric Activation and Coordination for Multimodal Large Language Models
Title_cn: 视觉中心激活与多模态大型语言模型的协同
Authors: Yunnan Wang, Fan Lu, Kecheng Zheng, Ziyuan Huang, Ziqiang Li, Wenjun Zeng, Xin Jin
PDF:http://arxiv.org/pdf/2510.14349v1
Code/Contribution:引入VaCo方法,通过视觉激活与协调,提升多模态大语言模型对视觉信息的理解和处理能力。

index: 8
Date: 2025-10-16
Title: NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching
Title_cn: NExT-OMNI:面向任意到任意全模态基础模型的离散流匹配方法
Authors: Run Luo, Xiaobo Xia, Lu Wang, Longze Chen, Renke Shan, Jing Luo, Min Yang, Tat-Seng Chua
PDF:http://arxiv.org/pdf/2510.13721v2
Code/Contribution:提出了NExT-OMNI模型,通过离散流范式实现任意模态间的统一理解和生成,提升了多模态交互和检索性能。

index: 9
Date: 2025-10-16
Title: Joint Modeling of Big Five and HEXACO for Multimodal Apparent Personality-trait Recognition
Title_cn: 《多模态表型人格特质识别中的五大人格与HEXACO联合建模》
Authors: Ryo Masumura, Shota Orihashi, Mana Ihori, Tomohiro Tanaka, Naoki Makishima, Taiga Yamane, Naotaka Kawata, Satoshi Suzuki .etc.
PDF:http://arxiv.org/pdf/2510.14203v1
Code/Contribution:提出了一种联合建模方法,结合Big Five和HEXACO模型,有效提升多模态人格特质识别准确性。

视觉Transformer架构 (Vision Transformer Architectures)

index: 1
Date: 2025-10-16
Title: Decorrelation Speeds Up Vision Transformers
Title_cn: decorrelation speeds up vision transformers

decorrelation加速了视觉变换器
Authors: Kieran Carrigg, Rob van Gastel, Melda Yeghaian, Sander Dalm, Faysal Boughorbel, Marcel van Gerven
PDF:http://arxiv.org/pdf/2510.14657v1
Code/Contribution:引入Decorrelated Backpropagation优化Masked Autoencoder预训练,加快了Vision Transformers的训练速度并提升了性能。

index: 2
Date: 2025-10-16
Title: EDIT: Enhancing Vision Transformers by Mitigating Attention Sink through an Encoder-Decoder Architecture
Title_cn: 通过编码器-解码器架构减轻注意力汇聚以增强视觉变换器:EDIT
Authors: Wenfeng Feng, Hongxiang Wang, Jianlong Wang, Xin Zhang, Jingjing Zhao, Yueyue Liang, Xiang Chen, Duokui Han
PDF:http://arxiv.org/pdf/2504.06738v2
Code/Contribution:提出EDIT架构,通过编码器-解码器设计缓解Vision Transformer中的注意力汇聚问题,提升图像特征提取效果。

index: 3
Date: 2025-10-16
Title: Zero-Shot Wildlife Sorting Using Vision Transformers: Evaluating Clustering and Continuous Similarity Ordering
Title_cn: 使用视觉变换器进行零样本野生动物分类:评估聚类与连续相似度排序
Authors: Hugo Markoff, Jevgenijs Galaktionovs
PDF:http://arxiv.org/pdf/2510.14596v1
Code/Contribution:提出零样本野生动物图像分类方法,使用自监督视觉变换器进行无标签图像组织,实现高准确度排序。

index: 4
Date: 2025-10-16
Title: Hierarchical Re-Classification: Combining Animal Classification Models with Vision Transformers
Title_cn: 分层重分类:结合动物分类模型与视觉变换器
Authors: Hugo Markoff, Jevgenijs Galaktionovs
PDF:http://arxiv.org/pdf/2510.14594v1
Code/Contribution:提出了一种结合SpeciesNet和CLIP嵌入的动物分类系统,实现了高精度物种级别识别。

index: 5
Date: 2025-10-16
Title: Towards Generalist Intelligence in Dentistry: Vision Foundation Models for Oral and Maxillofacial Radiology
Title_cn: 迈向牙科通用智能:口腔及颌面放射学视觉基础模型
Authors: Xinrui Huang, Fan Xiao, Dongming He, Anqi Gao, Dandan Li, Xiaofan Zhang, Shaoting Zhang, Xudong Wang
PDF:http://arxiv.org/pdf/2510.14532v1
Code/Contribution:提出首个面向牙科的全模态视觉基础模型DentVFM,通过自监督学习提升多任务泛化能力,解决牙科影像诊断专业人员短缺问题。

index: 6
Date: 2025-10-16
Title: Beyond Seeing: Evaluating Multimodal LLMs on Tool-Enabled Image Perception, Transformation, and Reasoning
Title_cn: 超越视觉:评估工具增强型图像感知、转换与推理的多模态大型语言模型
Authors: Xingang Guo, Utkarsh Tyagi, Advait Gosai, Paula Vergara, Ernesto Gabriel Hernández Montoya, Chen Bo Calvin Zhang, Bin Hu, Yunzhong He .etc.
PDF:http://arxiv.org/pdf/2510.12712v2
Code/Contribution:提出了VisualToolBench,首个针对多模态大语言模型在动态图像处理与工具整合能力上进行评估的视觉工具使用推理基准。

视觉识别与理解 (Visual Recognition & Understanding)

目标检测与定位 (Object Detection & Localization)

index: 1
Date: 2025-10-16
Title: Scaling Artificial Intelligence for Multi-Tumor Early Detection with More Reports, Fewer Masks
Title_cn: 利用更多报告、更少掩模扩展人工智能进行多肿瘤早期检测
Authors: Pedro R. A. S. Bassi, Xinze Zhou, Wenxuan Li, Szymon Płotka, Jieneng Chen, Qi Chen, Zheren Zhu, Jakub Prządo .etc.
PDF:http://arxiv.org/pdf/2510.14803v1
Code/Contribution:利用医疗报告训练AI模型进行肿瘤分割,减少对人工绘制肿瘤掩膜的需求。代码

index: 2
Date: 2025-10-16
Title: Cross-Layer Feature Self-Attention Module for Multi-Scale Object Detection
Title_cn: 跨层特征自注意力模块用于多尺度目标检测
Authors: Dingzhou Xie, Rushi Lan, Cheng Pang, Enhao Ning, Jiahao Zeng, Wei Zheng
PDF:http://arxiv.org/pdf/2510.14726v1
Code/Contribution:提出了一种跨层特征自注意力模块,有效提升了多尺度目标检测的性能和训练收敛速度。

index: 3
Date: 2025-10-16
Title: HyCoVAD: A Hybrid SSL-LLM Model for Complex Video Anomaly Detection
Title_cn: 《HyCoVAD:一种用于复杂视频异常检测的混合自监督学习-语言模型》
Authors: Mohammad Mahdi Hemmatyar, Mahdi Jafari, Mohammad Amin Yousefi, Mohammad Reza Nemati, Mobin Azadani, Hamid Reza Rastad, Amirmohammad Akbari
PDF:http://arxiv.org/pdf/2509.22544v2
Code/Contribution:提出HyCoVAD模型,融合自监督学习和大型语言模型,有效识别复杂视频异常。

index: 4
Date: 2025-10-16
Title: InfoDet: A Dataset for Infographic Element Detection
Title_cn: 信息图元素检测数据集 InfoDet
Authors: Jiangning Zhu, Yuxing Zhou, Zheng Wang, Juntao Yao, Yima Gu, Yuhui Yuan, Shixia Liu
PDF:http://arxiv.org/pdf/2505.17473v5
Code/Contribution:提出InfoDet数据集,增强视觉语言模型对图表元素的理解和检测能力。

index: 5
Date: 2025-10-16
Title: Structured Universal Adversarial Attacks on Object Detection for Video Sequences
Title_cn: 视频序列目标检测中的结构化通用对抗攻击
Authors: Sven Jacob, Weijia Shao, Gjergji Kasneci
PDF:http://arxiv.org/pdf/2510.14460v1
Code/Contribution:提出了一种针对视频对象检测的微调结构化通用对抗攻击方法,通过核范数正则化提高攻击效果并保持隐蔽性。代码

index: 6
Date: 2025-10-16
Title: UrbanTwin: Synthetic LiDAR Datasets (LUMPI, V2X-Real-IC, and TUMTraf-I)
Title_cn: 《UrbanTwin:合成激光雷达数据集(LUMPI、V2X-Real-IC和TUMTraf-I)》
Authors: Muhammad Shahbaz, Shaurya Agarwal
PDF:http://arxiv.org/pdf/2509.06781v2
Code/Contribution:创建了UrbanTwin合成LiDAR数据集,通过数字孪生技术增强训练样本和场景多样性,提升3D感知性能。

图像分类与识别 (Image Classification & Recognition)

index: 1
Date: 2025-10-16
Title: Free-Grained Hierarchical Recognition
Title_cn: 细粒度层次化识别
Authors: Seulki Park, Zilin Wang, Stella X. Yu
PDF:http://arxiv.org/pdf/2510.14737v1
Code/Contribution:提出free-grain学习框架,通过异质监督和视觉语言模型,提升了混合标注下的层次分类性能。

index: 2
Date: 2025-10-16
Title: Analysis of Hyperparameter Optimization Effects on Lightweight Deep Models for Real-Time Image Classification
Title_cn: 《实时图像分类轻量级深度模型中超参数优化效果分析》
Authors: Vineet Kumar Rakesh, Soumya Mazumdar, Tapas Samanta, Hemendra Kumar Pandey, Amitabha Das
PDF:http://arxiv.org/pdf/2507.23315v2
Code/Contribution:评估了超参数优化对轻量级网络实时图像分类性能的影响,实现了准确度提升和边缘设备部署优化。代码

index: 3
Date: 2025-10-16
Title: Leveraging Learned Image Prior for 3D Gaussian Compression
Title_cn: 利用学习到的图像先验进行三维高斯压缩
Authors: Seungjoo Shin, Jaesik Park, Sunghyun Cho
PDF:http://arxiv.org/pdf/2510.14705v1
Code/Contribution:提出了一种利用学习到的图像先验的3D高斯压缩框架,有效提升了压缩率和渲染质量。

index: 4
Date: 2025-10-16
Title: On Large Multimodal Models as Open-World Image Classifiers
Title_cn: 《大型多模态模型作为开放世界图像分类器》
Authors: Alessandro Conti, Massimiliano Mancini, Enrico Fini, Yiming Wang, Paolo Rota, Elisa Ricci
PDF:http://arxiv.org/pdf/2503.21851v2
Code/Contribution:提出开放世界图像分类新方法,通过全面评估大型多模态模型,揭示了其在细粒度分类中的挑战及优化途径。

关键点定位与姿态估计 (Keypoint Detection & Pose Estimation)

index: 1
Date: 2025-10-16
Title: FASTopoWM: Fast-Slow Lane Segment Topology Reasoning with Latent World Models
Title_cn: FASTopoWM:基于潜在世界模型的速度-慢速车道线拓扑推理
Authors: Yiming Yang, Hongbin Lin, Yueru Luo, Suzhong Fu, Chao Zheng, Xinrui Yan, Shuqi Mei, Kun Tang .etc.
PDF:http://arxiv.org/pdf/2507.23325v2
Code/Contribution:提出了一种结合快慢拓扑推理和潜在世界模型的框架,有效利用时间信息提升自动驾驶系统中的道路场景理解性能。

index: 2
Date: 2025-10-16
Title: A Density-Informed Multimodal Artificial Intelligence Framework for Improving Breast Cancer Detection Across All Breast Densities
Title_cn: 一种基于密度信息的多元人工智能框架,用于提高各种乳腺密度下的乳腺癌检测准确性
Authors: Siva Teja Kakileti, Bharath Govindaraju, Sudhakar Sampangi, Geetha Manjunath
PDF:http://arxiv.org/pdf/2510.14340v1
Code/Contribution:提出了一种基于乳腺密度动态选择成像模态的多模态AI框架,提高了乳腺癌检测的准确性和覆盖不同乳腺密度的性能。

index: 3
Date: 2025-10-16
Title: ELASTIC: Efficient Once For All Iterative Search for Object Detection on Microcontrollers
Title_cn: 弹性:面向微控制器的对象检测高效一次性迭代搜索
Authors: Tony Tran, Qin Lin, Bin Hu
PDF:http://arxiv.org/pdf/2503.21999v2
Code/Contribution:提出了一种针对微控制器的统一硬件感知NAS框架,通过循环优化各模块,实现了更快的收敛速度和更高的检测精度。

语义/实例分割 (Semantic/Instance Segmentation)

index: 1
Date: 2025-10-16
Title: SOHES: Self-supervised Open-world Hierarchical Entity Segmentation
Title_cn: 自监督开放世界层次实体分割方法(SOHES)
Authors: Shengcao Cao, Jiuxiang Gu, Jason Kuen, Hao Tan, Ruiyi Zhang, Handong Zhao, Ani Nenkova, Liang-Yan Gui .etc.
PDF:http://arxiv.org/pdf/2404.12386v2
Code/Contribution:提出了一种无需人工标注的开放世界实体分割方法SOHES,通过自监督学习实现高质量分割效果。

生成式视觉模型 (Generative Visual Modeling)

条件式生成与编辑 (Conditional Generation & Editing)

index: 1
Date: 2025-10-16
Title: WithAnyone: Towards Controllable and ID Consistent Image Generation
Title_cn: 与任何人:迈向可控且身份一致性的图像生成
Authors: Hengyuan Xu, Wei Cheng, Peng Xing, Yixiao Fang, Shuhan Wu, Rui Wang, Xianfang Zeng, Daxin Jiang .etc.
PDF:http://arxiv.org/pdf/2510.14975v1
Code/Contribution:提出了一种对抗复制粘贴现象的图像生成模型WithAnyone,通过大规模数据集和对比损失函数实现了身份一致性与多样性平衡。

index: 2
Date: 2025-10-16
Title: pi-Flow: Policy-Based Few-Step Generation via Imitation Distillation
Title_cn: π-流:基于策略的少步生成通过模仿蒸馏
Authors: Hansheng Chen, Kai Zhang, Hao Tan, Leonidas Guibas, Gordon Wetzstein, Sai Bi
PDF:http://arxiv.org/pdf/2510.14974v1
Code/Contribution:提出了一种基于策略的生成模型pi-Flow,通过模仿蒸馏避免质量-多样性权衡,实现快速准确的数据去噪。

index: 3
Date: 2025-10-16
Title: Terra: Explorable Native 3D World Model with Point Latents
Title_cn: “Terra:具有点潜在特性的可探索原生3D世界模型”
Authors: Yuanhui Huang, Weiliang Chen, Wenzhao Zheng, Xin Tao, Pengfei Wan, Jie Zhou, Jiwen Lu
PDF:http://arxiv.org/pdf/2510.14977v1
Code/Contribution:提出原生3D世界模型Terra,使用点隐空间编码和解码,实现高效且一致的三维场景重建与探索。

index: 4
Date: 2025-10-16
Title: MathCanvas: Intrinsic Visual Chain-of-Thought for Multimodal Mathematical Reasoning
Title_cn: 数学画布:用于多模态数学推理的内在视觉思维链
Authors: Weikang Shi, Aldrich Yu, Rongyao Fang, Houxing Ren, Ke Wang, Aojun Zhou, Changyao Tian, Xinyu Fu .etc.
PDF:http://arxiv.org/pdf/2510.14958v1
Code/Contribution:提出MathCanvas框架,使大型多模态模型具备内在的视觉推理能力,显著提升数学问题解决性能。

index: 5
Date: 2025-10-16
Title: OmniMotion: Multimodal Motion Generation with Continuous Masked Autoregression
Title_cn: 全方位运动生成:基于连续遮蔽自回归的多模态运动生成
Authors: Zhe Li, Weihao Yuan, Weichao Shen, Siyu Zhu, Zilong Dong, Chang Xu
PDF:http://arxiv.org/pdf/2510.14954v1
Code/Contribution:提出了一种连续掩码自回归的全身多模态运动生成机制,有效融合文本、语音和音乐等多种模态信息。

index: 6
Date: 2025-10-16
Title: 3D Scene Prompting for Scene-Consistent Camera-Controllable Video Generation
Title_cn: 用于场景一致性的相机可控视频生成的三维场景提示
Authors: JoungBin Lee, Jaewoo Jung, Jisang Han, Takuya Narihira, Kazumi Fukuda, Junyoung Seo, Sunghwan Hong, Yuki Mitsufuji .etc.
PDF:http://arxiv.org/pdf/2510.14945v1
Code/Contribution:提出3DScenePrompt框架,通过双时空条件实现精确相机控制和场景一致性,生成高质量视频片段。代码

index: 7
Date: 2025-10-16
Title: From Language to Locomotion: Retargeting-free Humanoid Control via Motion Latent Guidance
Title_cn: 从语言到移动:通过运动潜在引导的无重定向 humanoid 控制
Authors: Zhe Li, Cheng Chi, Yangyang Wei, Boan Zhu, Yibo Peng, Tao Huang, Pengwei Wang, Zhongyuan Wang .etc.
PDF:http://arxiv.org/pdf/2510.14952v1
Code/Contribution:分类

index: 8
Date: 2025-10-16
Title: ScaleWeaver: Weaving Efficient Controllable T2I Generation with Multi-Scale Reference Attention
Title_cn: 《ScaleWeaver:利用多尺度参考注意力编织高效可控的文本到图像生成》
Authors: Keli Liu, Zhendong Wang, Wengang Zhou, Shaodong Xu, Ruixiao Dong, Houqiang Li
PDF:http://arxiv.org/pdf/2510.14882v1
Code/Contribution:提出ScaleWeaver框架,通过参数高效微调实现视觉自回归模型的高保真、可控文本到图像生成。

index: 9
Date: 2025-10-16
Title: Ctrl-VI: Controllable Video Synthesis via Variational Inference
Title_cn: Ctrl-VI:通过变分推理实现可控视频合成
Authors: Haoyi Duan, Yunzhi Zhang, Yilun Du, Jiajun Wu
PDF:http://arxiv.org/pdf/2510.07670v2
Code/Contribution:提出了一种可控视频合成方法Ctrl-VI,通过变分推理实现高元素控制性和多样性的平衡。

index: 10
Date: 2025-10-16
Title: TOUCH: Text-guided Controllable Generation of Free-Form Hand-Object Interactions
Title_cn: 《TOUCH:基于文本引导的自由形式手-物交互可控生成》
Authors: Guangyi Han, Wei Zhai, Yuhang Yang, Yang Cao, Zheng-Jun Zha
PDF:http://arxiv.org/pdf/2510.14874v1
Code/Contribution:提出了一种多级扩散模型TOUCH,实现了基于细粒度意图的多样化、可控且物理可信的手-物交互生成。代码

index: 11
Date: 2025-10-16
Title: AvatarSync: Rethinking Talking-Head Animation through Phoneme-Guided Autoregressive Perspective
Title_cn: 《AvatarSync:通过音素引导的自回归视角重新思考说话人头动画》
Authors: Yuchen Deng, Xiuyang Wu, Hai-Tao Zheng, Suiyang Zhang, Yi He, Yuxing Han
PDF:http://arxiv.org/pdf/2509.12052v2
Code/Contribution:提出AvatarSync方法,通过音素引导自回归框架,解决了说话人头动画中的帧间闪烁和推理速度慢的问题。

index: 12
Date: 2025-10-16
Title: FraQAT: Quantization Aware Training with Fractional bits
Title_cn: FraQAT: 基于分数位的量化感知训练
Authors: Luca Morreale, Alberto Gil C. P. Ramos, Malcolm Chadwick, Mehid Noroozi, Ruchika Chavhan, Abhinav Mehrotra, Sourav Bhattacharya
PDF:http://arxiv.org/pdf/2510.14823v1
Code/Contribution:提出了一种基于分数位量化的训练方法,通过逐步降低模型精度并利用分数位优化,有效保持了生成图像的质量。

index: 13
Date: 2025-10-16
Title: Adapting Self-Supervised Representations as a Latent Space for Efficient Generation
Title_cn: 将自监督表征适配为高效生成的潜在空间
Authors: Ming Gui, Johannes Schusterbauer, Timy Phan, Felix Krause, Josh Susskind, Miguel Angel Bautista, Björn Ommer
PDF:http://arxiv.org/pdf/2510.14630v1
Code/Contribution:提出了一种利用自监督学习表征作为潜在空间的生成模型,有效降低训练成本并实现竞争性生成效果。

index: 14
Date: 2025-10-16
Title: 3DOT: Texture Transfer for 3DGS Objects from a Single Reference Image
Title_cn: 3DOT:从单张参考图像进行三维游戏角色对象的纹理迁移
Authors: Xiao Cao, Beibei Lin, Bo Wang, Zhiyong Huang, Robby T. Tan
PDF:http://arxiv.org/pdf/2503.18853v2
Code/Contribution:提出了一种3D纹理转换方法,通过渐进生成和一致性引导,实现了高效且视角一致的3D对象纹理定制。

index: 15
Date: 2025-10-16
Title: Consistent text-to-image generation via scene de-contextualization
Title_cn: 通过场景去上下文化的文本到图像一致性生成
Authors: Song Tang, Peihao Gong, Kunyu Li, Kai Guo, Boyu Wang, Mao Ye, Jianwei Zhang, Xiatian Zhu
PDF:http://arxiv.org/pdf/2510.14553v1
Code/Contribution:提出了一种无需训练的Scene De-Contextualization方法,有效解决了文本到图像生成中的身份偏移问题,增强了身份保持和场景多样性。

index: 16
Date: 2025-10-16
Title: ChartGalaxy: A Dataset for Infographic Chart Understanding and Generation
Title_cn: 图表星系:一个用于信息图表理解和生成的数据集
Authors: Zhen Li, Duan Li, Yukai Guo, Xinyuan Guo, Bowen Li, Lanxi Xiao, Shenyu Qiao, Jiashu Chen .etc.
PDF:http://arxiv.org/pdf/2505.18668v5
Code/Contribution:提出了ChartGalaxy数据集,通过合成 infographic 图表,提升了大型视觉语言模型对复杂图表的理解和生成能力。

index: 17
Date: 2025-10-16
Title: Deep Compositional Phase Diffusion for Long Motion Sequence Generation
Title_cn: 深度组合相位扩散用于长运动序列生成
Authors: Ho Yin Au, Jie Chen, Junkun Jiang, Jingyu Xiang
PDF:http://arxiv.org/pdf/2510.14427v1
Code/Contribution:提出了一种生成连续性更好的复合运动序列的方法,通过逐步融合语义指导和相位细节,解决了运动剪辑间过渡不自然的问题。代码

index: 18
Date: 2025-10-16
Title: DOS: Directional Object Separation in Text Embeddings for Multi-Object Image Generation
Title_cn: 用于多对象图像生成的文本嵌入中的方向性对象分离DOS
Authors: Dongnam Byun, Jungwon Park, Jumgmin Ko, Changin Choi, Wonjong Rhee
PDF:http://arxiv.org/pdf/2510.14376v1
Code/Contribution:提出DOS方法,通过修改CLIP文本嵌入提升多物体图像生成质量,减少物体混合。

index: 19
Date: 2025-10-16
Title: Flows and Diffusions on the Neural Manifold
Title_cn: 神经网络流形上的流与扩散
Authors: Daniel Saragih, Deyu Cao, Tejas Balaji
PDF:http://arxiv.org/pdf/2507.10623v2
Code/Contribution:将梯度下降轨迹视为轨迹推理问题,统一多种推理技术以匹配梯度流,提升生成模型在权重空间学习的效果。

index: 20
Date: 2025-10-16
Title: Earth-Agent: Unlocking the Full Landscape of Earth Observation with Agents
Title_cn: 地球代理:利用代理解锁地球观测的全景图
Authors: Peilin Feng, Zhutao Lv, Junyan Ye, Xiaolei Wang, Xinjie Huo, Jinhua Yu, Wanghan Xu, Wenlong Zhang .etc.
PDF:http://arxiv.org/pdf/2509.23141v2
Code/Contribution:提出了一种集成RGB与光谱数据的Earth-Agent框架,实现了跨模态、多步骤的地球观测推理分析。

index: 21
Date: 2025-10-16
Title: A Clinically-Grounded Two-Stage Framework for Renal CT Report Generation
Title_cn: 基于临床的肾CT报告生成的两阶段框架
Authors: Renjie Liang, Zhengkang Fan, Jinqian Pan, Chenkun Sun, Bruce Daniel Steinberg, Russell Terry, Jie Xu
PDF:http://arxiv.org/pdf/2506.23584v2
Code/Contribution:提出了一种两阶段临床导向框架,通过结合结构化特征检测和条件性报告生成,提高了肾CT报告的准确性和临床一致性。

index: 22
Date: 2025-10-16
Title: ComposeMe: Attribute-Specific Image Prompts for Controllable Human Image Generation
Title_cn: 《ComposeMe:用于可控人类图像生成的属性特定图像提示》
Authors: Guocheng Gordon Qian, Daniil Ostashev, Egor Nemchinov, Avihay Assouline, Sergey Tulyakov, Kuan-Chieh Jackson Wang, Kfir Aberman
PDF:http://arxiv.org/pdf/2509.18092v2
Code/Contribution:提出了一种基于特定属性图像提示的方法,实现了对人类图像生成中发型和服饰等属性的细粒度控制。代码

index: 23
Date: 2025-10-16
Title: SphereDrag: Spherical Geometry-Aware Panoramic Image Editing
Title_cn: 球面拖拽:基于球面几何的全景图像编辑
Authors: Zhiao Feng, Xuewei Li, Junjie Yang, Jingchao Li, Yuxin Peng, Xi Li
PDF:http://arxiv.org/pdf/2506.11863v2
Code/Contribution:提出SphereDrag框架,利用球面几何知识解决全景图像编辑中的边界不连续、轨迹变形和像素密度不均问题。

index: 24
Date: 2025-10-16
Title: Identity-GRPO: Optimizing Multi-Human Identity-preserving Video Generation via Reinforcement Learning
Title_cn: 身份-GRPO:通过强化学习优化多人身份保持视频生成
Authors: Xiangyu Meng, Zixian Zhang, Zhenghao Zhang, Junchao Liao, Long Qin, Weizhi Wang
PDF:http://arxiv.org/pdf/2510.14256v1
Code/Contribution:提出了一种基于人类反馈的优化管道Identity-GRPO,用于提升多人物视频生成中身份一致性的保持。

index: 25
Date: 2025-10-16
Title: CymbaDiff: Structured Spatial Diffusion for Sketch-based 3D Semantic Urban Scene Generation
Title_cn: 《CymbaDiff:基于草图的三维语义城市场景生成的结构化空间扩散》
Authors: Li Liang, Bo Miao, Xinyu Wang, Naveed Akhtar, Jordan Vice, Ajmal Mian
PDF:http://arxiv.org/pdf/2510.13245v2
Code/Contribution:提出SketchSem3D数据集并引入CymbaDiff方法,提高了3D户外场景生成的空间一致性和真实感。代码

index: 26
Date: 2025-10-16
Title: OmniGaze: Reward-inspired Generalizable Gaze Estimation In The Wild
Title_cn: 全方位注视:基于奖励启发的野外泛化注视估计
Authors: Hongyu Qu, Jianan Wei, Xiangbo Shu, Yazhou Yao, Wenguan Wang, Jinhui Tang
PDF:http://arxiv.org/pdf/2510.13660v2
Code/Contribution:OmniGaze通过半监督框架和奖励模型,利用大规模未标注数据集,有效提升了3D gaze estimation的泛化能力。

index: 27
Date: 2025-10-16
Title: CAP: Evaluation of Persuasive and Creative Image Generation
Title_cn: CAP: 图像生成中的说服力与创造力评估
Authors: Aysan Aghazadeh, Adriana Kovashka
PDF:http://arxiv.org/pdf/2412.10426v2
Code/Contribution:提出三个评价指标评估广告图像的创造力、提示对齐性和说服力,并引入一种增强文本到图像模型生成效果的方法。

index: 28
Date: 2025-10-16
Title: HuGDiffusion: Generalizable Single-Image Human Rendering via 3D Gaussian Diffusion
Title_cn: HuGDiffusion:通过三维高斯扩散实现的通用单张图像人物渲染
Authors: Yingzhi Tang, Qijian Zhang, Junhui Hou
PDF:http://arxiv.org/pdf/2501.15008v2
Code/Contribution:提出了一种基于单张图片的通用人体渲染方法,通过3D高斯扩散实现新颖视角合成。

index: 29
Date: 2025-10-16
Title: LOTA: Bit-Planes Guided AI-Generated Image Detection
Title_cn: LOTA:比特平面引导的AI生成图像检测
Authors: Hongsong Wang, Renxi Cheng, Yang Zhang, Chaolei Han, Jie Gui
PDF:http://arxiv.org/pdf/2510.14230v1
Code/Contribution:提出了一种基于比特平面处理的AI生成图像检测方法,大幅提升了检测速度和准确性。代码

index: 30
Date: 2025-10-16
Title: EdiVal-Agent: An Object-Centric Framework for Automated, Fine-Grained Evaluation of Multi-Turn Editing
Title_cn: EdiVal-Agent:一种面向对象的自动化、细粒度多轮编辑评估框架
Authors: Tianyu Chen, Yasi Zhang, Zhi Zhang, Peiyu Yu, Shu Wang, Zhendong Wang, Kevin Lin, Xiaofei Wang .etc.
PDF:http://arxiv.org/pdf/2509.13399v2
Code/Contribution:提出了一种基于对象中心的EdiVal-Agent框架,精确评估多轮指令驱动的图像编辑性能。

扩散概率模型 (Diffusion Probabilistic Models)

index: 1
Date: 2025-10-16
Title: Ponimator: Unfolding Interactive Pose for Versatile Human-human Interaction Animation
Title_cn: Ponimator:展开交互式姿态以实现多样化的人与人交互动画
Authors: Shaowei Liu, Chuan Guo, Bing Zhou, Jian Wang
PDF:http://arxiv.org/pdf/2510.14976v1
Code/Contribution:提出Ponimator框架,利用互动姿态先验生成多样化交互动画,实现从单个体姿态到动态互动的转换。

index: 2
Date: 2025-10-16
Title: Coupled Diffusion Sampling for Training-Free Multi-View Image Editing
Title_cn: 耦合扩散采样用于无需训练的多视角图像编辑
Authors: Hadi Alzayer, Yunzhi Zhang, Chen Geng, Jia-Bin Huang, Jiajun Wu
PDF:http://arxiv.org/pdf/2510.14981v1
Code/Contribution:分类

index: 3
Date: 2025-10-16
Title: RainDiff: End-to-end Precipitation Nowcasting Via Token-wise Attention Diffusion
Title_cn: 雨滴差分:通过逐标记注意力扩散实现端到端降水预测
Authors: Thao Nguyen, Jiaqi Ma, Fahad Shahbaz Khan, Souhaib Ben Taieb, Salman Khan
PDF:http://arxiv.org/pdf/2510.14962v1
Code/Contribution:提出了一种结合注意力机制的U-Net扩散模型,有效捕捉多尺度时空交互,提升降水预测的准确性。

index: 4
Date: 2025-10-16
Title: RealDPO: Real or Not Real, that is the Preference
Title_cn: 《RealDPO:是真是假,这就是偏好》
Authors: Guo Cheng, Danni Yang, Ziqi Huang, Jianlou Si, Chenyang Si, Ziwei Liu
PDF:http://arxiv.org/pdf/2510.14955v1
Code/Contribution:提出RealDPO方法,利用现实世界数据优化偏好学习,显著提升视频生成模型中复杂运动的自然度和连贯性。

index: 5
Date: 2025-10-16
Title: Deep Few-view High-resolution Photon-counting CT at Halved Dose for Extremity Imaging
Title_cn: 深度学习驱动的低剂量高清光子计数CT在肢体成像中的应用
Authors: Mengzhou Li, Chuang Niu, Ge Wang, Maya R Amma, Krishna M Chapagain, Stefan Gabrielson, Andrew Li, Kevin Jonker .etc.
PDF:http://arxiv.org/pdf/2403.12331v2
Code/Contribution:提出了一种深度学习方法,实现了在减半辐射剂量的同时加倍速度进行高分辨率X射线光子计数CT成像。

index: 6
Date: 2025-10-16
Title: Inpainting the Red Planet: Diffusion Models for the Reconstruction of Martian Environments in Virtual Reality
Title_cn: 《修复红色星球:用于虚拟现实中火星环境重建的扩散模型》
Authors: Giuseppe Lorenzo Catalano, Agata Marta Soccini
PDF:http://arxiv.org/pdf/2510.14765v1
Code/Contribution:提出了一种基于无条件扩散模型的方法,用于精确重构火星表面,显著优于传统插值技术。

index: 7
Date: 2025-10-16
Title: DEXTER: Diffusion-Guided EXplanations with TExtual Reasoning for Vision Models
Title_cn: DEXTER:基于文本推理的扩散引导视觉模型解释方法
Authors: Simone Carnemolla, Matteo Pennisi, Sarinda Samarasinghe, Giovanni Bellitto, Simone Palazzo, Daniela Giordano, Mubarak Shah, Concetto Spampinato
PDF:http://arxiv.org/pdf/2510.14741v1
Code/Contribution:DEXTER通过结合扩散模型和大型语言模型,无需训练数据即可为视觉分类器生成全局性文本解释。代码

index: 8
Date: 2025-10-16
Title: Synthetic History: Evaluating Visual Representations of the Past in Diffusion Models
Title_cn: 合成历史:评估扩散模型中过去视觉表征的有效性
Authors: Maria-Teresa De Rosa Palmini, Eva Cetinic
PDF:http://arxiv.org/pdf/2505.17064v2
Code/Contribution:提出历史场景描绘评估基准,揭示了文本到图像模型在历史准确性方面的不足。

index: 9
Date: 2025-10-16
Title: Attention Surgery: An Efficient Recipe to Linearize Your Video Diffusion Transformer
Title_cn: 注意力手术:一种高效方法将您的视频扩散变压器线性化
Authors: Mohsen Ghafoorian, Denis Korzhenkov, Amirhossein Habibian
PDF:http://arxiv.org/pdf/2509.24899v2
Code/Contribution:提出了一种无需从头训练的“注意力手术”方法,有效将视频扩散模型中的注意力线性化,降低计算成本同时保持生成质量。代码

index: 10
Date: 2025-10-16
Title: Does FLUX Already Know How to Perform Physically Plausible Image Composition?
Title_cn: FLUX是否已经知道如何执行物理上可信的图像合成?
Authors: Shilin Lu, Zhuming Lian, Zihan Zhou, Shaocong Zhang, Chen Zhao, Adams Wai-Kin Kong
PDF:http://arxiv.org/pdf/2509.21278v2
Code/Contribution:提出SHINE框架,通过利用预训练模型实现无需训练的高质量图像合成,解决了复杂光照和多样输入下的合成问题。

index: 11
Date: 2025-10-16
Title: A Denoising Framework for Real-World Ultra-Low Dose Lung CT Images Based on an Image Purification Strategy
Title_cn: 基于图像净化策略的实际超低剂量肺部CT图像去噪框架
Authors: Guoliang Gong, Man Yu
PDF:http://arxiv.org/pdf/2510.07492v2
Code/Contribution:提出了一种基于图像净化策略的降噪框架,有效解决了低剂量CT图像的噪声和错位问题,实现了最佳的解剖结构保真度。代码

index: 12
Date: 2025-10-16
Title: TTT3R: 3D Reconstruction as Test-Time Training
Title_cn: TTT3R:测试时训练的三维重建
Authors: Xingyu Chen, Yue Chen, Yuliang Xiu, Andreas Geiger, Anpei Chen
PDF:http://arxiv.org/pdf/2509.26645v3
Code/Contribution:提出了一种测试时训练方法TTT3R,通过在线学习显著提升3D重建模型在长度泛化上的性能。代码

index: 13
Date: 2025-10-16
Title: Noise Projection: Closing the Prompt-Agnostic Gap Behind Text-to-Image Misalignment in Diffusion Models
Title_cn: 噪声投影:弥合文本到图像失配背后的扩散模型中提示无关性差距
Authors: Yunze Tong, Didi Zhu, Zijing Hu, Jinluan Yang, Ziyu Zhao
PDF:http://arxiv.org/pdf/2510.14526v1
Code/Contribution:提出噪声投影方法,通过文本条件优化初始噪声,有效提升文本到图像的对齐度。

index: 14
Date: 2025-10-16
Title: OmnimatteZero: Fast Training-free Omnimatte with Pre-trained Video Diffusion Models
Title_cn: 全向材质零:基于预训练视频扩散模型的快速无训练全向材质
Authors: Dvir Samuel, Matan Levy, Nir Darshan, Gal Chechik, Rami Ben-Ari
PDF:http://arxiv.org/pdf/2503.18033v3
Code/Contribution:提出了一种无需训练的OmnimatteZero方法,利用预训练视频扩散模型实现视频中的对象移除和效果提取。

index: 15
Date: 2025-10-16
Title: Unsupervised Deep Generative Models for Anomaly Detection in Neuroimaging: A Systematic Scoping Review
Title_cn: 无监督深度生成模型在神经影像异常检测中的应用:系统性范围综述
Authors: Youwan Mahé, Elise Bannier, Stéphanie Leplaideur, Elisa Fromont, Francesca Galassi
PDF:http://arxiv.org/pdf/2510.14462v1
Code/Contribution:提出无监督深度生成模型用于神经影像异常检测,无需标注数据即可识别病变。

index: 16
Date: 2025-10-16
Title: Spatial Preference Rewarding for MLLMs Spatial Understanding
Title_cn: 用于提升多模态语言模型空间理解的空间偏好奖励方法
Authors: Han Qiu, Peng Gao, Lewei Lu, Xiaoqin Zhang, Ling Shao, Shijian Lu
PDF:http://arxiv.org/pdf/2510.14374v1
Code/Contribution:提出了一种奖励机制SPR,通过精确对象定位增强大型多模态语言模型的细粒度空间感知能力。代码

index: 17
Date: 2025-10-16
Title: One Stone with Two Birds: A Null-Text-Null Frequency-Aware Diffusion Models for Text-Guided Image Inpainting
Title_cn: 一石二鸟:面向文本引导图像修复的零文本零频率感知扩散模型
Authors: Haipeng Liu, Yang Wang, Meng Wang
PDF:http://arxiv.org/pdf/2510.08273v4
Code/Contribution:提出了一种分解频率带的扩散模型NTN-Diff,通过分阶段处理实现文本引导的图像修复,同时保持未遮蔽区域不变。代码

index: 18
Date: 2025-10-16
Title: AttenCraft: Attention-guided Disentanglement of Multiple Concepts for Text-to-Image Customization
Title_cn: AttenCraft:基于注意力引导的多概念解耦用于文本到图像定制化
Authors: Junjie Shentu, Matthew Watson, Noura Al Moubayed
PDF:http://arxiv.org/pdf/2405.17965v2
Code/Contribution:提出了一种基于注意力的多概念解耦方法AttenCraft,有效解决了特征融合和异步学习问题,提升了图像定制化质量。

index: 19
Date: 2025-10-16
Title: On Equivariance and Fast Sampling in Video Diffusion Models Trained with Warped Noise
Title_cn: 在视频扩散模型中关于等方差性和快速采样训练的研究:基于扭曲噪声的模型训练
Authors: Chao Liu, Arash Vahdat
PDF:http://arxiv.org/pdf/2504.09789v2
Code/Contribution:提出了一种视频生成模型训练方法,通过引入扭曲噪声实现空间变换等变性和高效采样,显著提升了视频时序一致性和生成质量。

index: 20
Date: 2025-10-16
Title: A Multi-domain Image Translative Diffusion StyleGAN for Iris Presentation Attack Detection
Title_cn: 多域图像迁移扩散风格 StyleGAN 用于虹膜呈现攻击检测
Authors: Shivangi Yadav, Arun Ross
PDF:http://arxiv.org/pdf/2510.14314v1
Code/Contribution:提出了一种生成合成眼部图像的MID-StyleGAN框架,有效解决了iris PAD数据稀缺问题并提升了检测性能。

index: 21
Date: 2025-10-16
Title: ForensicHub: A Unified Benchmark & Codebase for All-Domain Fake Image Detection and Localization
Title_cn: 法医中心:一种用于全领域伪造图像检测与定位的统一基准与代码库
Authors: Bo Du, Xuekang Zhu, Xiaochen Ma, Chenfan Qu, Kaiwen Feng, Zhe Yang, Chi-Man Pun, Jian Liu .etc.
PDF:http://arxiv.org/pdf/2505.11003v2
Code/Contribution:ForensicHub统一了fake图像检测与定位的四个领域,通过模块化架构和基准,促进了跨域比较和模型发展。

index: 22
Date: 2025-10-16
Title: TRACE: Your Diffusion Model is Secretly an Instance Edge Detector
Title_cn: TRACE:你的扩散模型实际上是一个实例边缘检测器
Authors: Sanghyun Jo, Ziseok Lee, Wooyeol Lee, Jonghyun Choi, Jaesik Park, Kyungsu Kim
PDF:http://arxiv.org/pdf/2503.07982v2
Code/Contribution:提出TRACE方法,利用扩散模型自动检测实例边缘,无需密集标注即可提升分割质量。代码

index: 23
Date: 2025-10-16
Title: Virtually Being: Customizing Camera-Controllable Video Diffusion Models with Multi-View Performance Captures
Title_cn: 虚拟存在:利用多视角表演捕捉定制摄像头可控视频扩散模型
Authors: Yuancheng Xu, Wenqi Xian, Li Ma, Julien Philip, Ahmet Levent Taşel, Yiwei Zhao, Ryan Burgert, Mingming He .etc.
PDF:http://arxiv.org/pdf/2510.14179v1
Code/Contribution:提出了一种定制化多视角视频扩散模型的新框架,实现了精确的相机控制和多视角一致性。代码

时空一致性生成 (Spatiotemporal Coherent Generation)

index: 1
Date: 2025-10-16
Title: ImagerySearch: Adaptive Test-Time Search for Video Generation Beyond Semantic Dependency Constraints
Title_cn: 影像搜索:超越语义依赖约束的适应性测试时视频生成搜索
Authors: Meiqi Wu, Jiashu Zhu, Xiaokun Feng, Chubin Chen, Chen Zhu, Bingze Song, Fangyuan Mao, Jiahong Wu .etc.
PDF:http://arxiv.org/pdf/2510.14847v1
Code/Contribution:提出了一种自适应测试时搜索策略ImagerySearch,通过动态调整搜索空间和奖励函数,有效提升了想象场景下的视频生成质量。

index: 2
Date: 2025-10-16
Title: MetaCaptioner: Towards Generalist Visual Captioning with Open-source Suites
Title_cn: 元标注器:面向通用视觉标注的开源工具套件
Authors: Zhenxin Lei, Zhangwei Gao, Changyao Tian, Erfei Cui, Guanzhou Chen, Danni Yang, Yuchen Duan, Zhaokai Wang .etc.
PDF:http://arxiv.org/pdf/2510.12126v3
Code/Contribution:提出CapFlow多代理协作流程,实现开源模型生成与GPT-4.1质量相当的视觉字幕,降低成本89.5%。

index: 3
Date: 2025-10-16
Title: GOPLA: Generalizable Object Placement Learning via Synthetic Augmentation of Human Arrangement
Title_cn: GOPLA:通过合成增强人类排列的泛化对象放置学习
Authors: Yao Zhong, Hanzhi Chen, Simon Schaefer, Anran Zhang, Stefan Leutenegger
PDF:http://arxiv.org/pdf/2510.14627v1
Code/Contribution:提出了一种学习通用物体放置的分层框架,通过合成数据增强人类演示,显著提升了机器人日常物品摆放的成功率。

index: 4
Date: 2025-10-16
Title: Shot2Tactic-Caption: Multi-Scale Captioning of Badminton Videos for Tactical Understanding
Title_cn: 《羽毛球视频战术理解的多尺度字幕标注:Shot2Tactic-Caption》
Authors: Ning Ding, Keisuke Fujii, Toru Tamaki
PDF:http://arxiv.org/pdf/2510.14617v1
Code/Contribution:提出了一种多尺度视频字幕框架,用于解析羽毛球比赛中的动作和战术执行过程。

index: 5
Date: 2025-10-16
Title: STANCE: Motion Coherent Video Generation Via Sparse-to-Dense Anchored Encoding
Title_cn: STANCE:通过稀疏到密集锚定编码实现运动连贯的视频生成
Authors: Zhifei Chen, Tianshuo Xu, Leyi Wu, Luozhou Wang, Dongyu Yan, Zihan You, Wenting Luo, Guo Zhang .etc.
PDF:http://arxiv.org/pdf/2510.14588v1
Code/Contribution:通过引入实例提示和密集旋转位置编码,STANCE框架有效提升了视频生成中的运动一致性和时序连贯性。

index: 6
Date: 2025-10-16
Title: HANS-Net: Hyperbolic Convolution and Adaptive Temporal Attention for Accurate and Generalizable Liver and Tumor Segmentation in CT Imaging
Title_cn: HANS-Net:双曲卷积与自适应时间注意力机制用于精确且泛化的肝脏和肿瘤分割在CT成像中
Authors: Arefin Ittesafun Abian, Ripon Kumar Debnath, Md. Abdur Rahman, Mohaimenul Azam Khan Raiaan, Md Rafiqul Islam, Asif Karim, Reem E. Mohamed, Sami Azam
PDF:http://arxiv.org/pdf/2507.11325v2
Code/Contribution:提出HANS-Net,结合超双曲卷积与自适应时序注意力,实现了腹部CT图像中肝脏和肿瘤的高准确度与泛化能力分割。

index: 7
Date: 2025-10-16
Title: AI for Service: Proactive Assistance with AI Glasses
Title_cn: 服务用AI:通过AI眼镜的主动辅助
Authors: Zichen Wen, Yiyu Wang, Chenfei Liao, Boxue Yang, Junxian Li, Weifeng Liu, Haocong He, Bolong Feng .etc.
PDF:http://arxiv.org/pdf/2510.14359v1
Code/Contribution:提出AI4Service新范式,通过Alpha-Service框架实现智能眼镜的主动实时辅助。

index: 8
Date: 2025-10-16
Title: Identity-Preserving Image-to-Video Generation via Reward-Guided Optimization
Title_cn: 通过奖励引导优化实现的保真图像到视频生成
Authors: Liao Shen, Wentao Jiang, Yiran Zhu, Tiezheng Ge, Zhiguo Cao, Bo Zheng
PDF:http://arxiv.org/pdf/2510.14255v1
Code/Contribution:提出了一种基于强化学习的视频生成框架,通过优化扩散模型有效保持了人物身份一致性。

三维内容生成 (3D Content Generation)

index: 1
Date: 2025-10-16
Title: Moto: Latent Motion Token as the Bridging Language for Learning Robot Manipulation from Videos
Title_cn: “Moto:潜在运动标记作为从视频学习机器人操作的中介语言”
Authors: Yi Chen, Yuying Ge, Weiliang Tang, Yizhuo Li, Yixiao Ge, Mingyu Ding, Ying Shan, Xihui Liu
PDF:http://arxiv.org/pdf/2412.04445v4
Code/Contribution:提出将视频转化为运动潜码序列,通过自回归预训练提升机器人操作学习效率。

index: 2
Date: 2025-10-16
Title: ART-VITON: Measurement-Guided Latent Diffusion for Artifact-Free Virtual Try-On
Title_cn: ART-VITON:测量引导的潜在扩散技术实现无瑕疵虚拟试穿
Authors: Junseo Park, Hyeryung Jang
PDF:http://arxiv.org/pdf/2509.25749v2
Code/Contribution:提出测量引导的扩散框架ART-VITON,有效消除虚拟试衣中的边界伪影并提高视觉保真度和稳健性。

三维视觉与几何推理 (3D Vision & Geometric Reasoning)

神经辐射场表示 (Neural Radiance Field Representation)

index: 1
Date: 2025-10-16
Title: LinPrim: Linear Primitives for Differentiable Volumetric Rendering
Title_cn: 线性基元:用于可微体积渲染的线性原语
Authors: Nicolas von Lützow, Matthias Nießner
PDF:http://arxiv.org/pdf/2501.16312v4
Code/Contribution:引入线性原语(八面体和四面体)作为体积渲染的新型场景表示,实现高效实时渲染与优化。

index: 2
Date: 2025-10-16
Title: Impact of Regularization on Calibration and Robustness: from the Representation Space Perspective
Title_cn: 正则化对校准与鲁棒性的影响:从表征空间视角分析
Authors: Jonghyun Park, Juyeop Kim, Jong-Seok Lee
PDF:http://arxiv.org/pdf/2410.03999v2
Code/Contribution:从特征空间角度揭示了正则化如何通过调整特征分布改善模型的校准性和鲁棒性。

index: 3
Date: 2025-10-16
Title: SimULi: Real-Time LiDAR and Camera Simulation with Unscented Transforms
Title_cn: “SimULi:基于无迹变换的实时激光雷达与摄像头仿真”
Authors: Haithem Turki, Qi Wu, Xin Kang, Janick Martinez Esturo, Shengyu Huang, Ruilong Li, Zan Gojcic, Riccardo de Lutio
PDF:http://arxiv.org/pdf/2510.12901v2
Code/Contribution:SimULi通过实时渲染任意相机模型和LiDAR数据,解决了现有方法速度慢和传感器不一致问题。

多视图几何重建 (Multi-view Geometric Reconstruction)

index: 1
Date: 2025-10-16
Title: C4D: 4D Made from 3D through Dual Correspondences
Title_cn: 从三维到四维的转换:通过双重对应关系实现
Authors: Shizun Wang, Zhenxiang Jiang, Xingyi Yang, Xinchao Wang
PDF:http://arxiv.org/pdf/2510.14960v1
Code/Contribution:提出了一种利用双对应关系从3D重建扩展到4D动态场景的框架,有效解决了动态几何和相机姿态估计问题。代码

index: 2
Date: 2025-10-16
Title: Shape of Motion: 4D Reconstruction from a Single Video
Title_cn: 运动的形状:从单个视频中进行四维重建
Authors: Qianqian Wang, Vickie Ye, Hang Gao, Weijia Zeng, Jake Austin, Zhengqi Li, Angjoo Kanazawa
PDF:http://arxiv.org/pdf/2407.13764v2
Code/Contribution:提出了一种利用紧凑运动基和先验数据驱动方法,从单视频重建动态三维场景的新技术。

index: 3
Date: 2025-10-16
Title: Reasoning in Space via Grounding in the World
Title_cn: 通过在世界中定位来实现空间推理
Authors: Yiming Chen, Zekun Qi, Wenyao Zhang, Xin Jin, Li Zhang, Peidong Liu
PDF:http://arxiv.org/pdf/2510.13800v2
Code/Contribution:提出了一种统一的三维空间推理框架GS-Reasoner,通过双路径池化机制整合语义与几何信息,实现了无需外部模块的自回归三维视觉定位。

时序视觉分析 (Temporal Visual Analysis)

视频目标跟踪 (Video Object Tracking)

index: 1
Date: 2025-10-16
Title: MaskCaptioner : Learning to Jointly Segment and Caption Object Trajectories in Videos
Title_cn: 视频中的对象轨迹联合分割与标注学习:MaskCaptioner
Authors: Gabriel Fiastre, Antoine Yang, Cordelia Schmid
PDF:http://arxiv.org/pdf/2510.14904v1
Code/Contribution:提出了一种端到端模型MaskCaptioner,实现了视频中的对象轨迹检测、分割、跟踪和字幕生成的一体化处理,达到现有最佳性能。

时序建模与预测 (Temporal Modeling & Prediction)

index: 1
Date: 2025-10-16
Title: BADAS: Context Aware Collision Prediction Using Real-World Dashcam Data
Title_cn: BADAS:利用现实世界行车记录仪数据实现上下文感知的碰撞预测
Authors: Roni Goldshmidt, Hamish Scott, Lorenzo Niccolini, Shizhan Zhu, Daniel Moura, Orly Zvitia
PDF:http://arxiv.org/pdf/2510.14876v1
Code/Contribution:提出了一种基于现实世界行车记录仪数据的碰撞预测模型BADAS,有效区分了驾驶员车辆相关威胁与其他随机事故,实现了最佳性能表现。

动作识别与理解 (Action Recognition & Understanding)

index: 1
Date: 2025-10-16
Title: SVAG-Bench: A Large-Scale Benchmark for Multi-Instance Spatio-temporal Video Action Grounding
Title_cn: SVAG-Bench:多实例时空视频动作定位的大规模基准数据集
Authors: Tanveer Hannan, Shuaicong Wu, Mark Weber, Suprosanna Shit, Jindong Gu, Rajat Koner, Aljoša Ošep, Laura Leal-Taixé .etc.
PDF:http://arxiv.org/pdf/2510.13016v2
Code/Contribution:提出SVAG-Bench大规模基准,用于多实例时空视频动作定位,并设计相应模型和评估工具。

index: 2
Date: 2025-10-16
Title: MSF-Mamba: Motion-aware State Fusion Mamba for Efficient Micro-Gesture Recognition
Title_cn: MSF-Mamba:面向高效微手势识别的运动感知状态融合Mamba
Authors: Deng Li, Jun Shao, Bohao Xing, Rong Gao, Bihan Wen, Heikki Kälviäinen, Xin Liu
PDF:http://arxiv.org/pdf/2510.10478v2
Code/Contribution:提出MSF-Mamba模型,通过融合局部时空状态和引入运动感知模块,高效识别微动作。

长时序视频理解 (Long-term Video Understanding)

index: 1
Date: 2025-10-16
Title: Camera Movement Classification in Historical Footage: A Comparative Study of Deep Video Models
Title_cn: 历史影像中的摄像机运动分类:深度视频模型的比较研究
Authors: Tingyu Lin, Armin Dadras, Florian Kleber, Robert Sablatnig
PDF:http://arxiv.org/pdf/2510.14713v1
Code/Contribution:首次系统评估了深度视频模型在历史影像中的表现,发现Video Swin Transformer模型在低质量视频上具有较强泛化能力。

index: 2
Date: 2025-10-16
Title: Eyes Wide Open: Ego Proactive Video-LLM for Streaming Video
Title_cn: “睁大眼睛:面向流视频的自适应 ego 视频大模型”
Authors: Yulin Zhang, Cheng Shi, Yang Wang, Sibei Yang
PDF:http://arxiv.org/pdf/2510.14560v1
Code/Contribution:提出了一种面向第一视角视频的主动式理解和响应模型,通过同步感知与推理,提升了视频流中实时问题解答的效率和准确性。代码

index: 3
Date: 2025-10-16
Title: Real-Time Neural Video Compression with Unified Intra and Inter Coding
Title_cn: 统一 intra 和 inter 编码的实时神经视频压缩
Authors: Hui Xiang, Yifan Bian, Li Li, Jingran Wu, Xianguo Zhang, Dong Liu
PDF:http://arxiv.org/pdf/2510.14431v1
Code/Contribution:提出统一 intra 和 inter 编码的实时神经视频压缩框架,有效处理视频遮挡和新内容,减少错误传播。

自监督与表征学习 (Self-supervised & Representation Learning)

对比学习方法 (Contrastive Learning Methods)

index: 1
Date: 2025-10-16
Title: Multi-modal video data-pipelines for machine learning with minimal human supervision
Title_cn: 多模态视频数据处理管道:在最小人工监督下进行机器学习
Authors: Mihai-Cristian Pîrvu, Marius Leordeanu
PDF:http://arxiv.org/pdf/2510.14862v1
Code/Contribution:整合多模态视觉数据,实现无需或少量人工监督的自主学习,提出高效低参数模型。

index: 2
Date: 2025-10-16
Title: Watermarking for Factuality: Guiding Vision-Language Models Toward Truth via Tri-layer Contrastive Decoding
Title_cn: 水印真实性:通过三层对比解码引导视觉-语言模型趋向真实
Authors: Kyungryul Back, Seongbeom Park, Milim Kim, Mincheol Kwon, SangHyeok Lee, Hyunyoung Lee, Junhee Cho, Seunghyun Park .etc.
PDF:http://arxiv.org/pdf/2510.14304v1
Code/Contribution:提出了一种无训练需求的三角层对比解码水印方法,有效减少大型视觉语言模型中的虚构现象,提高输出真实性。

计算效率与模型优化 (Computational Efficiency & Model Optimization)

模型压缩与加速 (Model Compression & Acceleration)

index: 1
Date: 2025-10-16
Title: Agentic Design of Compositional Machines
Title_cn: 《组合机器的代理性设计》
Authors: Wenqian Zhang, Weiyang Liu, Zhen Liu
PDF:http://arxiv.org/pdf/2510.14980v1
Code/Contribution:探究大语言模型在组合机器设计中的创造力,引入BesiegeField测试床并使用强化学习提升模型性能。

index: 2
Date: 2025-10-16
Title: QDepth-VLA: Quantized Depth Prediction as Auxiliary Supervision for Vision-Language-Action Models
Title_cn: QDepth-VLA:量化深度预测作为视觉-语言-动作模型的辅助监督
Authors: Yixuan Li, Yuhui Chen, Mingcai Zhou, Haoran Li
PDF:http://arxiv.org/pdf/2510.14836v1
Code/Contribution:提出了一种通过辅助深度预测任务增强视觉语言动作模型空间感知能力的方法,有效提升了模型的精细操作性能。

index: 3
Date: 2025-10-16
Title: LightQANet: Quantized and Adaptive Feature Learning for Low-Light Image Enhancement
Title_cn: 《LightQANet:低光照图像增强的量化与自适应特征学习》
Authors: Xu Wu, Zhihui Lai, Xianxu Hou, Jie Zhou, Ya-nan Zhang, Linlin Shen
PDF:http://arxiv.org/pdf/2510.14753v1
Code/Contribution:提出了一种结合量化与自适应特征学习的低光照图像增强框架,有效提升了图像质量和光照适应性。

index: 4
Date: 2025-10-16
Title: EuroMineNet: A Multitemporal Sentinel-2 Benchmark for Spatiotemporal Mining Footprint Analysis in the European Union (2015-2024)
Title_cn: 欧洲矿网:一个用于欧盟地区2015-2024年时空开采足迹分析的多时相哨兵-2基准数据集
Authors: Weikang Yu, Vincent Nwazelibe, Xianping Ma, Xiaokang Zhang, Richard Gloaguen, Xiao Xiang Zhu, Pedram Ghamisi
PDF:http://arxiv.org/pdf/2510.14661v1
Code/Contribution:提出了EuroMineNet,一个基于Sentinel-2影像的全面多时相基准,用于监测和分析欧洲联盟 mining活动对环境的影响。代码

index: 5
Date: 2025-10-16
Title: Efficient Video Sampling: Pruning Temporally Redundant Tokens for Faster VLM Inference
Title_cn: 高效视频采样:剪枝时间冗余标记以加快视觉语言模型推理速度
Authors: Natan Bagrov, Eugene Khvedchenia, Borys Tymchenko, Shay Aharon, Lior Kadoch, Tomer Keren, Ofri Masad, Yonatan Geifman .etc.
PDF:http://arxiv.org/pdf/2510.14624v1
Code/Contribution:提出了一种简单易用的视频采样方法EVS,通过剪除非静态图像区域,有效减少语言模型处理负担,实现快速视频推理。

index: 6
Date: 2025-10-16
Title: DRBD-Mamba for Robust and Efficient Brain Tumor Segmentation with Analytical Insights
Title_cn: DRBD-Mamba:用于稳健且高效的大脑肿瘤分割及其分析洞察
Authors: Danish Ali, Ajmal Mian, Naveed Akhtar, Ghulam Mubashar Hassan
PDF:http://arxiv.org/pdf/2510.14383v1
Code/Contribution:提出了一种高效的3D脑肿瘤分割模型DRBD-Mamba,通过双分辨率和双向特征融合显著提升了准确性和效率。

index: 7
Date: 2025-10-16
Title: Group-Wise Optimization for Self-Extensible Codebooks in Vector Quantized Models
Title_cn: 分组优化用于向量量化模型中自扩展码本的构建
Authors: Hong-Kai Zheng, Piji Li
PDF:http://arxiv.org/pdf/2510.13331v2
Code/Contribution:提出Group-VQ方法,通过分组优化解决VQ-VAEs中代码本坍塌问题,提升图像重建质量。

index: 8
Date: 2025-10-16
Title: MatchAttention: Matching the Relative Positions for High-Resolution Cross-View Matching
Title_cn: 匹配注意力:匹配相对位置以实现高分辨率跨视角匹配
Authors: Tingman Yan, Tao Liu, Xilian Yang, Qunfei Zhao, Zeyang Xia
PDF:http://arxiv.org/pdf/2510.14260v1
Code/Contribution:提出MatchAttention机制,通过动态匹配相对位置实现高分辨率跨视图匹配,有效处理遮挡并提升匹配精度。代码

index: 9
Date: 2025-10-16
Title: MACE: Mixture-of-Experts Accelerated Coordinate Encoding for Large-Scale Scene Localization and Rendering
Title_cn: MACE:大规模场景定位与渲染的混合专家加速坐标编码
Authors: Mingkai Liu, Dikai Fan, Haohua Que, Haojia Gao, Xiao Liu, Shuxue Peng, Meixia Lin, Shengyu Gu .etc.
PDF:http://arxiv.org/pdf/2510.14251v1
Code/Contribution:提出MACE方法,通过混合专家网络和无需辅助损失的负载均衡策略,高效实现大规模场景的定位和渲染。

神经架构优化 (Neural Architecture Optimization)

index: 1
Date: 2025-10-16
Title: From Pixels to Words -- Towards Native Vision-Language Primitives at Scale
Title_cn: 从像素到文字——迈向大规模原生视觉语言基本单元
Authors: Haiwen Diao, Mingxuan Li, Silei Wu, Linjun Dai, Xiaohua Wang, Hanming Deng, Lewei Lu, Dahua Lin .etc.
PDF:http://arxiv.org/pdf/2510.14979v1
Code/Contribution:提出构建原则并实现NEO模型,使原生视觉语言模型在性能上比肩顶级模块化模型。代码

index: 2
Date: 2025-10-16
Title: TABSurfer: a Hybrid Deep Learning Architecture for Subcortical Segmentation
Title_cn: TABSurfer:一种用于皮层下结构分割的混合深度学习架构
Authors: Aaron Cao, Vishwanatha M. Rao, Kejia Liu, Xinrui Liu, Andrew F. Laine, Jia Guo
PDF:http://arxiv.org/pdf/2312.08267v2
Code/Contribution:提出了一种3D patch-based CNN-Transformer混合模型TABSurfer,实现了高效准确的脑部亚皮质分割。

index: 3
Date: 2025-10-16
Title: Pruning Sparse Tensor Neural Networks Enables Deep Learning for 3D Ultrasound Localization Microscopy
Title_cn: 剪枝稀疏张量神经网络使得三维超声定位显微术的深度学习成为可能
Authors: Brice Rauby, Paul Xing, Jonathan Porée, Maxime Gasse, Jean Provost
PDF:http://arxiv.org/pdf/2402.09359v2
Code/Contribution:提出稀疏张量神经网络,降低3D超声定位显微镜数据处理内存需求,提升高浓度下性能。

index: 4
Date: 2025-10-16
Title: Online Continual Learning via Spiking Neural Networks with Sleep Enhanced Latent Replay
Title_cn: 在线连续学习:通过睡眠增强潜在重放的尖峰神经网络
Authors: Erliang Lin, Wenbin Luo, Wei Jia, Yu Chen, Shaofu Yang
PDF:http://arxiv.org/pdf/2507.02901v3
Code/Contribution:提出SESZR方法,通过脉冲神经网络和睡眠增强的潜在重放策略,有效降低在线连续学习中的内存消耗并减少新类别的分类偏差。

index: 5
Date: 2025-10-16
Title: Perspective-Aware Teaching: Adapting Knowledge for Heterogeneous Distillation
Title_cn: 具有透视感知的教学:为异构蒸馏适配知识
Authors: Jhe-Hao Lin, Yi Yao, Chan-Feng Hsu, Hongxia Xie, Hong-Han Shuai, Wen-Huang Cheng
PDF:http://arxiv.org/pdf/2501.08885v3
Code/Contribution:提出了一种视角感知的教学框架,实现了不同架构间的特征蒸馏,有效提升了知识迁移的效率和准确性。代码

index: 6
Date: 2025-10-16
Title: CALM-Net: Curvature-Aware LiDAR Point Cloud-based Multi-Branch Neural Network for Vehicle Re-Identification
Title_cn: CALM-Net:基于曲率感知的LiDAR点云多分支神经网络车辆重识别
Authors: Dongwook Lee, Sol Han, Jinwhan Kim
PDF:http://arxiv.org/pdf/2510.14576v1
Code/Contribution:提出了一种基于激光雷达点云的多分支神经网络,通过融合边缘卷积、点注意力和曲率嵌入,有效提升了车辆重识别的准确性。

index: 7
Date: 2025-10-16
Title: Towards Inclusive Communication: A Unified Framework for Generating Spoken Language from Sign, Lip, and Audio
Title_cn: 迈向包容性通信:一种从手语、唇语和音频生成口语的统一框架
Authors: Jeong Hun Yeo, Hyeongseop Rha, Sungjune Park, Junil Won, Yong Man Ro
PDF:http://arxiv.org/pdf/2508.20476v2
Code/Contribution:提出首个统一框架,融合手语、唇读和音频,生成口语文本,提升了对聋哑人士的包容性通信。

资源受限视觉计算 (Resource-constrained Visual Computing)

index: 1
Date: 2025-10-16
Title: BalanceGS: Algorithm-System Co-design for Efficient 3D Gaussian Splatting Training on GPU
Title_cn: "BalanceGS:GPU上高效三维高斯散点绘制训练的算法-系统协同设计"
Authors: Junyi Wu, Jiaming Xu, Jinhao Li, Yongkang Zhou, Jiayi Pan, Xingyang Li, Guohao Dai
PDF:http://arxiv.org/pdf/2510.14564v1
Code/Contribution:BalanceGS通过算法-系统协同设计优化3D Gaussian Splatting训练,平衡计算负载和内存访问,实现1.44倍速度提升。

index: 2
Date: 2025-10-16
Title: PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model
Title_cn: PaddleOCR-VL:通过0.9B超紧凑视觉语言模型提升多语言文档解析性能
Authors: Cheng Cui, Ting Sun, Suyin Liang, Tingquan Gao, Zelun Zhang, Jiaxuan Liu, Xueqing Wang, Changda Zhou .etc.
PDF:http://arxiv.org/pdf/2510.14528v1
Code/Contribution:提出PaddleOCR-VL,一种高效的文档解析模型,通过结合视觉编码器和语言模型,实现多语言复杂元素识别。

index: 3
Date: 2025-10-16
Title: Pruning Overparameterized Multi-Task Networks for Degraded Web Image Restoration
Title_cn: 剪枝过参数化多任务网络以实现退化网络图像恢复
Authors: Thomas Katraouras, Dimitrios Rafailidis
PDF:http://arxiv.org/pdf/2510.14463v1
Code/Contribution:提出了一种压缩多任务图像修复模型的方法,通过迭代剪枝和权重重置,实现了参数减少90%而性能不减。代码

鲁棒性与可靠性 (Robustness & Reliability)

分布外泛化 (Out-of-distribution Generalization)

index: 1
Date: 2025-10-16
Title: Scaling Tumor Segmentation: Best Lessons from Real and Synthetic Data
Title_cn: 肿瘤分割的扩展:来自真实与合成数据的最佳经验教训
Authors: Qi Chen, Xinze Zhou, Chen Liu, Hao Chen, Wenxuan Li, Zekun Jiang, Ziyan Huang, Yuxuan Zhao .etc.
PDF:http://arxiv.org/pdf/2510.14831v1
Code/Contribution:利用合成数据加速肿瘤分割模型训练,创建了大规模多器官肿瘤标注数据集AbdomenAtlas 2.0。

index: 2
Date: 2025-10-16
Title: The Principle of Uncertain Maximum Entropy
Title_cn: 不确定最大熵原理
Authors: Kenneth Bogert, Matthew Kothe
PDF:http://arxiv.org/pdf/2305.09868v5
Code/Contribution:提出了一种放松最大熵原理要求的新方法,通过引入通信通道框架,提高了未知分布熵的上界估计和通信信息损失量化。

index: 3
Date: 2025-10-16
Title: CLEAR: Causal Learning Framework For Robust Histopathology Tumor Detection Under Out-Of-Distribution Shifts
Title_cn: CLEAR: 面对分布偏移的稳健病理组织学肿瘤检测的因果学习框架
Authors: Kieu-Anh Truong Thi, Huy-Hieu Pham, Duc-Trong Le
PDF:http://arxiv.org/pdf/2510.14273v1
Code/Contribution:提出了一种基于因果推断的框架,通过利用语义特征减轻混杂因素影响,有效应对病理图像领域迁移问题。

对抗鲁棒性 (Adversarial Robustness)

index: 1
Date: 2025-10-16
Title: SteeringTTA: Guiding Diffusion Trajectories for Robust Test-Time-Adaptation
Title_cn: 引导扩散轨迹以实现稳健的测试时适应:SteeringTTA
Authors: Jihyun Yu, Yoojin Oh, Wonho Bae, Mingyu Kim, Junhyug Noh
PDF:http://arxiv.org/pdf/2510.14634v1
Code/Contribution:提出了一种无模型更新需求的 SteeringTTA 方法,通过引导扩散轨迹平衡探索与置信度,有效提升了分类任务在分布偏移下的鲁棒性。

index: 2
Date: 2025-10-16
Title: The Fluorescent Veil: A Stealthy and Effective Physical Adversarial Patch Against Traffic Sign Recognition
Title_cn: 《荧光面纱:一种隐秘且有效的物理对抗贴片,对抗交通标志识别》
Authors: Shuai Yuan, Xingshuo Han, Hongwei Li, Guowen Xu, Wenbo Jiang, Tao Ni, Qingchuan Zhao, Yuguang Fang
PDF:http://arxiv.org/pdf/2409.12394v2
Code/Contribution:提出了一种使用荧光墨水设计的隐秘且有效的物理对抗性贴片,在低光条件下使交通标志识别系统误识别率达到98.31%。

index: 3
Date: 2025-10-16
Title: RADAR: A Risk-Aware Dynamic Multi-Agent Framework for LLM Safety Evaluation via Role-Specialized Collaboration
Title_cn: 雷达:一种基于角色专业化协作的面向大型语言模型安全性评估的风险感知动态多智能体框架
Authors: Xiuyuan Chen, Jian Zhao, Yuchen Yuan, Tianle Zhang, Huilin Zhou, Zheng Zhu, Ping Hu, Linghe Kong .etc.
PDF:http://arxiv.org/pdf/2509.25271v2
Code/Contribution:提出了一种风险感知的多智能体协作框架RADAR,通过角色专业化合作和动态更新机制,有效提升了大型语言模型的安全性评估准确性和稳定性。

低资源与高效学习 (Low-resource & Efficient Learning)

小样本学习 (Few-shot Learning)

index: 1
Date: 2025-10-16
Title: You May Speak Freely: Improving the Fine-Grained Visual Recognition Capabilities of Multimodal Large Language Models with Answer Extraction
Title_cn: 您可能自由发言:通过答案提取改进多模态大型语言模型的细粒度视觉识别能力
Authors: Logan Lawrence, Oindrila Saha, Megan Wei, Chen Sun, Subhransu Maji, Grant Van Horn
PDF:http://arxiv.org/pdf/2510.14885v1
Code/Contribution:提出了一种两阶段方法nlg2choice,通过开放性问题询问和多选答案预测,提升了多模态大语言模型在细粒度视觉分类任务上的性能。

index: 2
Date: 2025-10-16
Title: Backpropagation-Free Test-Time Adaptation via Probabilistic Gaussian Alignment
Title_cn: 通过概率高斯对齐的无反向传播测试时适应
Authors: Youjia Zhang, Youngeun Kim, Young-Geun Choi, Hongyeob Kim, Huiling Liu, Sungeun Hong
PDF:http://arxiv.org/pdf/2508.15568v4
Code/Contribution:提出了一种无需反向传播的测试时自适应方法,通过高斯概率推理显著提升了模型在分布偏移下的鲁棒性和可扩展性。

主动学习策略 (Active Learning Strategies)

index: 1
Date: 2025-10-16
Title: A Multi-Task Deep Learning Framework for Skin Lesion Classification, ABCDE Feature Quantification, and Evolution Simulation
Title_cn: 多任务深度学习框架:用于皮肤病变分类、ABCDE特征量化及演化模拟
Authors: Harsha Kotla, Arun Kumar Rajasekaran, Hannah Rana
PDF:http://arxiv.org/pdf/2510.14855v1
Code/Contribution:提出了一种多任务深度学习框架,实现对皮肤病变的分类和ABCDE特征的量化,助力医生将机器学习诊断与临床标准关联。

index: 2
Date: 2025-10-16
Title: Unifying Environment Perception and Route Choice Modeling for Trajectory Representation Learning
Title_cn: 统一环境感知与路径选择建模的轨迹表示学习
Authors: Ji Cao, Yu Wang, Tongya Zheng, Zujie Ren, Canghong Jin, Gang Chen, Mingli Song
PDF:http://arxiv.org/pdf/2510.14819v1
Code/Contribution:整合环境感知与路径选择建模,提出PRTraj框架,有效提升轨迹表示学习性能。

index: 3
Date: 2025-10-16
Title: High Semantic Features for the Continual Learning of Complex Emotions: a Lightweight Solution
Title_cn: 用于复杂情绪持续学习的高语义特征:一种轻量级解决方案
Authors: Thibault Geoffroy, Gauthier Gerspacher, Lionel Prevost
PDF:http://arxiv.org/pdf/2510.13534v2
Code/Contribution:提出了一种基于面部肌肉运动的高语义特征学习方法,有效解决了复杂情绪识别中的连续学习问题。

index: 4
Date: 2025-10-16
Title: DevFD: Developmental Face Forgery Detection by Learning Shared and Orthogonal LoRA Subspaces
Title_cn: DevFD:通过学习共享与正交LoRA子空间的发展性人脸伪造检测
Authors: Tianshuo Zhang, Li Gao, Siran Peng, Xiangyu Zhu, Zhen Lei
PDF:http://arxiv.org/pdf/2509.19230v2
Code/Contribution:提出了一种持续学习框架DevFD,通过分离学习真实人脸和伪造人脸的子空间,有效应对不断演变的伪造技术挑战。

index: 5
Date: 2025-10-16
Title: Learning Human-Humanoid Coordination for Collaborative Object Carrying
Title_cn: 学习人-人形机器人协同搬运的协调策略
Authors: Yushi Du, Yixuan Li, Baoxiong Jia, Yutang Lin, Pei Zhou, Wei Liang, Yanchao Yang, Siyuan Huang
PDF:http://arxiv.org/pdf/2510.14293v1
Code/Contribution:提出了一种仅依赖本体感知的强化学习方法,实现人与机器人协作搬运的平衡与高效。

具身智能与交互视觉 (Embodied Intelligence & Interactive Vision)

视觉操作与控制 (Visual Manipulation & Control)

index: 1
Date: 2025-10-16
Title: RDD: Retrieval-Based Demonstration Decomposer for Planner Alignment in Long-Horizon Tasks
Title_cn: RDD:基于检索的演示分解器,用于长周期任务中的规划器对齐
Authors: Mingxuan Yan, Yuping Wang, Zechun Liu, Jiachen Li
PDF:http://arxiv.org/pdf/2510.14968v1
Code/Contribution:提出了一种自动将长周期任务分解为子任务的RDD方法,通过视觉特征对齐提升任务性能。

视觉导航与路径规划 (Visual Navigation & Path Planning)

index: 1
Date: 2025-10-16
Title: SGAligner++: Cross-Modal Language-Aided 3D Scene Graph Alignment
Title_cn: SGAligner++:跨模态语言辅助三维场景图对齐
Authors: Binod Singh, Sayan Deb Sarkar, Iro Armeni
PDF:http://arxiv.org/pdf/2509.20401v2
Code/Contribution:提出了一种跨模态、语言辅助的3D场景图对齐框架,有效处理部分重叠和噪声环境下的场景对齐问题。

视觉-语言协同理解 (Vision-Language Joint Understanding)

跨模态检索与匹配 (Cross-modal Retrieval & Matching)

index: 1
Date: 2025-10-16
Title: ChangingGrounding: 3D Visual Grounding in Changing Scenes
Title_cn: 变化的视觉定位:动态场景中的三维视觉定位
Authors: Miao Hu, Zhiwei Huang, Tai Wang, Jiangmiao Pang, Dahua Lin, Nanning Zheng, Runsen Xu
PDF:http://arxiv.org/pdf/2510.14965v1
Code/Contribution:提出了一种记忆驱动的3D视觉定位方法,有效应对动态场景中的物体定位挑战。代码

index: 2
Date: 2025-10-16
Title: Exploring Cross-Modal Flows for Few-Shot Learning
Title_cn: 探索跨模态流以实现少样本学习
Authors: Ziqi Jiang, Yanghao Wang, Long Chen
PDF:http://arxiv.org/pdf/2510.14543v1
Code/Contribution:提出了一种多步骤调整的跨模态学习策略,有效解决了复杂数据集中模态特征纠缠问题。

index: 3
Date: 2025-10-16
Title: Training-Free Personalization via Retrieval and Reasoning on Fingerprints
Title_cn: 通过指纹检索和推理的无训练个性化
Authors: Deepayan Das, Davide Talon, Yiming Wang, Massimiliano Mancini, Elisa Ricci
PDF:http://arxiv.org/pdf/2503.18623v2
Code/Contribution:首次提出无需训练的个人化方法R2P,通过检索和推理指纹特征实现视觉语言模型的个性化理解。

多模态对话系统 (Multimodal Dialogue Systems)

index: 1
Date: 2025-10-16
Title: The Mechanistic Emergence of Symbol Grounding in Language Models
Title_cn: 语言模型中符号接地机制的出现过程
Authors: Shuyu Wu, Ziqiao Ma, Xiaoxi Luo, Yidong Huang, Josue Torres-Fonseca, Freda Shi, Joyce Chai
PDF:http://arxiv.org/pdf/2510.13796v2
Code/Contribution:提出了一种评价框架,揭示了语言模型内部如何通过注意力机制实现符号的机制性接地。

视觉问答与推理 (Visual Question Answering & Reasoning)

index: 1
Date: 2025-10-16
Title: CoT-PL: Visual Chain-of-Thought Reasoning Meets Pseudo-Labeling for Open-Vocabulary Object Detection
Title_cn: CoT-PL:视觉链式思维推理与伪标签标注相遇的开词汇对象检测
Authors: Hojun Choi, Youngsun Lim, Jaeyo Shin, Hyunjung Shim
PDF:http://arxiv.org/pdf/2510.14792v1
Code/Contribution:引入视觉链式思维推理与伪标签结合框架,提升开放词汇目标检测在复杂场景下的鲁棒性。

index: 2
Date: 2025-10-16
Title: MoCom: Motion-based Inter-MAV Visual Communication Using Event Vision and Spiking Neural Networks
Title_cn: 基于事件视觉和尖峰神经网络的多微型飞行器间运动驱动的视觉通信方法(MoCom)
Authors: Zhang Nengbo, Hann Woei Ho, Ye Zhou
PDF:http://arxiv.org/pdf/2510.14770v1
Code/Contribution:提出了一种基于视觉运动信号和脉冲神经网络的新型 MAV 群体通信方法,以解决无线电通信的局限性。

index: 3
Date: 2025-10-16
Title: VTimeCoT: Thinking by Drawing for Video Temporal Grounding and Reasoning
Title_cn: VTimeCoT:绘制思考法实现视频时间定位与推理
Authors: Jinglei Zhang, Yuanfan Guo, Rolandos Alexandros Potamias, Jiankang Deng, Hang Xu, Chao Ma
PDF:http://arxiv.org/pdf/2510.14672v1
Code/Contribution:提出VTimeCoT框架,通过模拟人类使用进度条理解视频,提升视频时序定位与推理性能。

index: 4
Date: 2025-10-16
Title: SCENEFORGE: Enhancing 3D-text alignment with Structured Scene Compositions
Title_cn: SCENEFORGE:利用结构化场景组合增强三维文本对齐
Authors: Cristian Sbrolli, Matteo Matteucci
PDF:http://arxiv.org/pdf/2509.15693v2
Code/Contribution:通过构建具有明确空间关系的多对象场景,SceneForge增强了3D点云与文本的对齐,有效解决了大规模3D文本数据集稀缺的问题。

index: 5
Date: 2025-10-16
Title: Knowledge-based Visual Question Answer with Multimodal Processing, Retrieval and Filtering
Title_cn: 基于知识的视觉问答:多模态处理、检索与过滤
Authors: Yuyang Hong, Jiaqi Gu, Qi Yang, Lubin Fan, Yue Wu, Ying Wang, Kun Ding, Shiming Xiang .etc.
PDF:http://arxiv.org/pdf/2510.14605v1
Code/Contribution:提出三阶段Wiki-PRF方法,结合视觉工具提取信息和强化学习优化知识检索,显著提升KB-VQA任务答案质量。代码

index: 6
Date: 2025-10-16
Title: Catching the Details: Self-Distilled RoI Predictors for Fine-Grained MLLM Perception
Title_cn: 捕捉细节:用于细粒度多模态感知的自蒸馏区域预测器
Authors: Yuheng Shi, Xiaohuan Pei, Minjing Dong, Chang Xu
PDF:http://arxiv.org/pdf/2509.16944v2
Code/Contribution:提出了一种无需标注数据的高效自蒸馏区域提议网络,通过优化注意力图显著提升了多模态大语言模型对细节的感知能力。代码

index: 7
Date: 2025-10-16
Title: Exploring Image Representation with Decoupled Classical Visual Descriptors
Title_cn: 探索解耦经典视觉描述符的图像表示
Authors: Chenyuan Qu, Hao Chen, Jianbo Jiao
PDF:http://arxiv.org/pdf/2510.14536v1
Code/Contribution:提出了一种将图像分解为独立经典视觉描述符的VisualSplit框架,增强了视觉任务的解释性和属性控制能力。

index: 8
Date: 2025-10-16
Title: From Easy to Hard: The MIR Benchmark for Progressive Interleaved Multi-Image Reasoning
Title_cn: 从易到难:MIR逐步交织多图像推理基准
Authors: Hang Du, Jiayang Zhang, Guoshun Nan, Wendi Deng, Zhenyan Chen, Chenyang Zhang, Wang Xiao, Shan Huang .etc.
PDF:http://arxiv.org/pdf/2509.17040v2
Code/Contribution:提出了MIR基准,通过“由易到难”的学习策略,显著提升了多模态大语言模型处理多图像交错文本推理任务的能力。

视觉内容描述 (Visual Content Description)

index: 1
Date: 2025-10-16
Title: Talking Points: Describing and Localizing Pixels
Title_cn: 谈话要点:描述和定位像素
Authors: Matan Rusanovsky, Shimon Malnick, Shai Avidan
PDF:http://arxiv.org/pdf/2510.14583v1
Code/Contribution:提出了一种像素级关键点描述与定位框架,通过自然语言实现精确的关键点理解与定位。代码

领域特定视觉应用 (Domain-specific Visual Applications)

医学影像分析 (Medical Image Analysis)

index: 1
Date: 2025-10-16
Title: Where are the Whales: A Human-in-the-loop Detection Method for Identifying Whales in High-resolution Satellite Imagery
Title_cn: 《在哪里:一种结合人工参与的检测方法用于高分辨率卫星图像中识别鲸鱼》
Authors: Caleb Robinson, Kimberly T. Goetz, Christin B. Khan, Meredith Sackett, Kathleen Leonard, Rahul Dodhia, Juan M. Lavista Ferres
PDF:http://arxiv.org/pdf/2510.14709v1
Code/Contribution:提出了一种半自动化鲸鱼检测方法,通过统计异常检测减少专家工作量,实现高效卫星图像监测。代码

index: 2
Date: 2025-10-16
Title: WeCKD: Weakly-supervised Chained Distillation Network for Efficient Multimodal Medical Imaging
Title_cn: 弱监督链式蒸馏网络WeCKD:用于高效多模态医学成像
Authors: Md. Abdur Rahman, Mohaimenul Azam Khan Raiaan, Sami Azam, Asif Karim, Jemima Beissbarth, Amanda Leach
PDF:http://arxiv.org/pdf/2510.14668v1
Code/Contribution:提出了一种弱监督链式知识蒸馏网络WeCKD,通过连续模型链优化知识传递,有效提升少量数据下的医学影像学习效果。

index: 3
Date: 2025-10-16
Title: Acquisition of interpretable domain information during brain MR image harmonization for content-based image retrieval
Title_cn: 在脑部磁共振图像 harmonization 过程中获取可解释的域信息以支持基于内容的图像检索
Authors: Keima Abe, Hayato Muraki, Shuhei Tomoshige, Kenichi Oishi, Hitoshi Iyatomi
PDF:http://arxiv.org/pdf/2510.14535v1
Code/Contribution:提出PL-SE-ADA框架,实现脑部MR图像域 harmonization及疾病相关信息保持的可解释性表示学习。

index: 4
Date: 2025-10-16
Title: Grazing Detection using Deep Learning and Sentinel-2 Time Series Data
Title_cn: 使用深度学习和Sentinel-2时间序列数据进行的放牧检测
Authors: Aleksis Pirinen, Delia Fano Yela, Smita Chakraborty, Erik Källman
PDF:http://arxiv.org/pdf/2510.14493v1
Code/Contribution:利用深度学习和Sentinel-2时序数据实现季节性放牧监测,提高土地用途合规检查效率。

index: 5
Date: 2025-10-16
Title: TinyDef-DETR: A Transformer-Based Framework for Defect Detection in Transmission Lines from UAV Imagery
Title_cn: 基于Transformer的无人机影像输电线路缺陷检测框架:TinyDef-DETR
Authors: Feng Shen, Jiaming Cui, Wenqiang Li, Shuai Zhou
PDF:http://arxiv.org/pdf/2509.06035v7
Code/Contribution:提出TinyDef-DETR框架,通过增强边界敏感性和多尺度注意力机制,有效检测输电线路中的微小缺陷。

index: 6
Date: 2025-10-16
Title: Reinforcement Learning for Unsupervised Domain Adaptation in Spatio-Temporal Echocardiography Segmentation
Title_cn: 强化学习在时空超声心动图分割的无监督领域自适应中的应用
Authors: Arnaud Judge, Nicolas Duchateau, Thierry Judge, Roman A. Sandler, Joseph Z. Sokol, Christian Desrosiers, Olivier Bernard, Pierre-Marc Jodoin
PDF:http://arxiv.org/pdf/2510.14244v1
Code/Contribution:提出了一种基于强化学习的无监督域自适应框架,用于提高心脏超声图像分割的准确性、解剖有效性和时间一致性。代码

创意媒体生成 (Creative Media Generation)

index: 1
Date: 2025-10-16
Title: WorldSplat: Gaussian-Centric Feed-Forward 4D Scene Generation for Autonomous Driving
Title_cn: 世界散点:高斯中心化的前馈4D场景生成方法用于自动驾驶
Authors: Ziyue Zhu, Zhanqian Wu, Zhenxin Zhu, Lijun Zhou, Haiyang Sun, Bing Wan, Kun Ma, Guang Chen .etc.
PDF:http://arxiv.org/pdf/2509.23402v2
Code/Contribution:提出了一种4D场景生成框架WorldSplat,通过结合4D感知模型和视频扩散模型,实现了高质量的多视角驾驶场景生成。代码

index: 2
Date: 2025-10-16
Title: PIA: Deepfake Detection Using Phoneme-Temporal and Identity-Dynamic Analysis
Title_cn: PIA:基于音素时序和身份动态分析的深度伪造检测
Authors: Soumyya Kanti Datta, Tanvi Ranga, Chengzhe Sun, Siwei Lyu
PDF:http://arxiv.org/pdf/2510.14241v1
Code/Contribution:提出了一种多模态音频-视觉框架PIA,通过融合语言、动态面部运动和面部识别线索,有效检测现代深度伪造技术的微小时序不一致性。代码

工业视觉检测 (Industrial Visual Inspection)

index: 1
Date: 2025-10-16
Title: Real-Time Surgical Instrument Defect Detection via Non-Destructive Testing
Title_cn: 通过无损检测实现实时手术器械缺陷检测
Authors: Qurrat Ul Ain, Atif Aftab Ahmed Jilani, Zunaira Shafqat, Nigar Azhar Butt
PDF:http://arxiv.org/pdf/2510.14525v1
Code/Contribution:提出SurgScan,一种基于YOLOv8的实时手术器械缺陷检测框架,提高质量控制准确性和效率。

index: 2
Date: 2025-10-16
Title: Incomplete Multimodal Industrial Anomaly Detection via Cross-Modal Distillation
Title_cn: 通过跨模态蒸馏的不完整多模态工业异常检测
Authors: Wenbo Sui, Daniel Lichau, Josselin Lefèvre, Harold Phelippeau
PDF:http://arxiv.org/pdf/2405.13571v4
Code/Contribution:提出了一种多模态工业异常检测的跨模态蒸馏框架,实现了在训练时利用多模态数据、在推理时处理不完整模态信息的有效方法。

遥感与地理信息 (Remote Sensing & Geospatial Information)

index: 1
Date: 2025-10-16
Title: Mapping Farmed Landscapes from Remote Sensing
Title_cn: 从遥感数据映射农田景观
Authors: Michelangelo Conserva, Alex Wilson, Charlotte Stanton, Vishal Batchu, Varun Gulshan
PDF:http://arxiv.org/pdf/2506.13993v2
Code/Contribution:首次创建覆盖英格兰大部分地区的高分辨率农村景观特征图,使用深度学习模型精确识别关键生态元素。

index: 2
Date: 2025-10-16
Title: TopoStreamer: Temporal Lane Segment Topology Reasoning in Autonomous Driving
Title_cn: "TopoStreamer:自动驾驶中的车道段落拓扑推理时序分析"
Authors: Yiming Yang, Yueru Luo, Bingkun He, Hongbin Lin, Suzhong Fu, Chao Zheng, Zhipeng Cao, Erlong Li .etc.
PDF:http://arxiv.org/pdf/2507.00709v3
Code/Contribution:提出TopoStreamer模型,通过动态位置编码和属性约束改进自动驾驶中的车道拓扑推理,提升感知准确性。

index: 3
Date: 2025-10-16
Title: TinyRS-R1: Compact Multimodal Language Model for Remote Sensing
Title_cn: TinyRS-R1:用于遥感的小型多模态语言模型
Authors: Aybora Koksal, A. Aydin Alatan
PDF:http://arxiv.org/pdf/2505.12099v2
Code/Contribution:首次提出针对遥感优化的2B参数小型多模态语言模型TinyRS及其推理增强版本TinyRS-R1,实现了高性能与低延迟的平衡。

index: 4
Date: 2025-10-16
Title: CVD-STORM: Cross-View Video Diffusion with Spatial-Temporal Reconstruction Model for Autonomous Driving
Title_cn: 交叉视图视频扩散与时空重建模型CVD-STORM:面向自动驾驶的应用
Authors: Tianrui Zhang, Yichen Liu, Zilin Guo, Yuxin Guo, Jingcheng Ni, Chenjing Ding, Dan Xu, Lewei Lu .etc.
PDF:http://arxiv.org/pdf/2510.07944v2
Code/Contribution:提出了一种生成多视角、长期视频的4D重建方法CVD-STORM,通过时空重建VAE显著提升了视频生成质量和场景理解能力。代码

智能交通视觉 (Intelligent Transportation Vision)

index: 1
Date: 2025-10-16
Title: BoardVision: Deployment-ready and Robust Motherboard Defect Detection with YOLO+Faster-RCNN Ensemble
Title_cn: 板视觉:部署就绪且稳健的主板缺陷检测,采用YOLO与Faster-RCNN集成方法
Authors: Brandon Hill, Kma Solaiman
PDF:http://arxiv.org/pdf/2510.14389v1
Code/Contribution:提出BoardVision框架,通过YOLO和Faster-RCNN集成及轻量级投票机制,提升主板装配缺陷检测的准确性和召回率。

新兴理论与跨学科方向 (Emerging Theory & Interdisciplinary Directions)

神经-符号视觉 (Neuro-symbolic Vision)

index: 1
Date: 2025-10-16
Title: Vision Mamba for Permeability Prediction of Porous Media
Title_cn: 孔隙介质渗透率预测的Vision Mamba方法
Authors: Ali Kashefi, Tapan Mukerji
PDF:http://arxiv.org/pdf/2510.14516v1
Code/Contribution:首次将Vision Mamba应用于预测三维多孔介质的渗透性,提升了计算和内存效率。

其他 (Others)

未分类

index: 1
Date: 2025-10-16
Title: Multi-level Reliable Guidance for Unpaired Multi-view Clustering
Title_cn: 多级别可靠引导的无配对多视角聚类
Authors: Like Xin, Wanqi Yang, Lei Wang, Ming Yang
PDF:http://arxiv.org/pdf/2407.01247v3
Code/Contribution:提出了一种多级可靠引导方法MRG-UMC,通过跨视图一致性学习,有效提升了无配对多视角聚类的一致性和置信度。

index: 2
Date: 2025-10-16
Title: Experimental Demonstration of Event-based Optical Camera Communication in Long-Range Outdoor Environment
Title_cn: 基于事件的室外长距离光相机通信实验演示
Authors: Miu Sumino, Mayu Ishii, Shun Kaizu, Daisuke Hisano, Yu Nakayama
PDF:http://arxiv.org/pdf/2510.14266v1
Code/Contribution:首次实现了在户外环境中,基于事件视觉传感器的光相机通信系统,通过结合OOK和toggle解调以及数字锁相环,达到低误码率的长距离通信。

index: 3
Date: 2025-10-16
Title: Event Interval Modulation: A Novel Scheme for Event-based Optical Camera Communication
Title_cn: 事件间隔调制:一种基于事件的 optical 相机通信新方案
Authors: Miu Sumino, Mayu Ishii, Shun Kaizu, Daisuke Hisano, Yu Nakayama
PDF:http://arxiv.org/pdf/2510.14245v1
Code/Contribution:提出事件间隔调制方案,提升基于事件的光学相机通信传输速度和距离。

index: 4
Date: 2025-10-16
Title: Leveraging Cycle-Consistent Anchor Points for Self-Supervised RGB-D Registration
Title_cn: 利用循环一致性锚点进行自监督RGB-D配准
Authors: Siddharth Tourani, Jayaram Reddy, Sarvesh Thakur, K Madhava Krishna, Muhammad Haris Khan, N Dinesh Reddy
PDF:http://arxiv.org/pdf/2510.14354v1
Code/Contribution:利用循环一致性关键点增强匹配精度,提出结合GRU和变换同步的姿姿块,提升自监督RGB-D配准性能。


【声明】内容源于网络
0
0
电商运营宝典
跨境分享汇 | 持续更新优质内容
内容 44379
粉丝 1
电商运营宝典 跨境分享汇 | 持续更新优质内容
总阅读249.8k
粉丝1
内容44.4k