大数跨境
0
0

国金学子 | 国际金融学院汪子桐同学论文被国际学术会议ACM MM2025录用

国金学子 | 国际金融学院汪子桐同学论文被国际学术会议ACM MM2025录用 Sophie外贸笔记
2025-07-15
3


       近日,中国计算机学会(CCF)推荐的A类国际学术会议ACM MM 2025论文接收结果公布。软件工程学院吴炜滨副教授一作,我院2023级本科生汪子桐二作的论文被录用。作为由ACM(Association for Computing Machinery,国际计算机学会)主办的多媒体技术领域最具影响力的国际顶级会议之一,ACM MM(ACM International Conference on Multimedia,ACM国际多媒体大会)自1993年首次举办以来,已成为该领域学术界和工业界交流的重要平台,也是中国计算机学会(CCF)推荐的计算机图形学与多媒体领域的A类国际学术会议。今年会议将于10月27日至31日在爱尔兰都柏林举行。


论文题目


Detecting Violations of Physical Common Sense in Images: A Challenge Dataset and Effective Model


论文作者


吴炜滨,汪子桐,罗政杰,陈文清,郑子彬


论文概述


      视觉语言模型在图像描述和视觉问答等多模态任务中取得了卓越进展,但其在识别明显违背物理常识的异常图像方面仍存在着显著局限性。为了解决这一问题,本研究首先构建了PhyVIB。PhyVIB是一个涵盖16,000张图像的视觉语言模型物理常识评估基准,旨在全面评估视觉语言模型对违背物理常识的异常图像的识别能力。在构建PhyVIB的过程中,本研究采用了一种基于扩散模型的迭代式微调与生成的图像合成策略,提高了合成图像的质量与多样性。接着,为了提升视觉语言模型对违背物理常识的异常图像的识别能力,本研究提出了一种双阶段模型强化框架PhyDetector。基于所构建的视觉语言模型物理常识评估基准PhyVIB,PhyDetector通过少样本监督微调和群体相对策略优化(GRPO)来强化视觉语言模型对图像中物理常识的分析与推理能力。大量实验结果表明,相比于现有最先进的视觉语言模型,经过PhyDetector强化的模型在识别违背物理常识的异常图像方面,有着显著的性能优势,验证了该框架在视觉物理常识分析与推理领域的有效性与广阔应用前景。




学生信息



       汪子桐,中山大学国际金融学院2023级本科生,曾获国家奖学金,主要研究方向为计算机视觉、多模态大模型与扩散模型。



编辑:谢欣慧

校对:谢欣慧

初审:赖艳彬

审核:朱昌平

审核发布:戴红晖 黄新飞

【声明】内容源于网络
0
0
Sophie外贸笔记
跨境分享角 | 长期更新优质内容
内容 45560
粉丝 0
Sophie外贸笔记 跨境分享角 | 长期更新优质内容
总阅读174.1k
粉丝0
内容45.6k