关注公众号,发现CV技术之美
-
教程网页:https://mllm2024.github.io/CVPR2025/ -
时间:美国纳什维尔时间 2025年6月11日星期三,下午1点到5点。对应北京时间 2025年6月12日星期四,凌晨2点到6点。 -
线下现场位置:Meeting Room 208 A, at Nashville Music City Center -
线上参会Zoom:请关注网站 https://mllm2024.github.io/CVPR2025/ 所公布的信息
多模态大语言模型(MLLMs)研究成为当前最为热门的课题之一,而如何有效的评估这些多模态基础大模型,已成为“AI的下半场”关注焦点。尽管当前已经涌现出多种用于评估多模态大语言模型(MLLMs)的新兴基准,但对于这些评估方式的有效性与科学性仍存在进一步探讨的空间。本次教程旨在回应 MLLM 发展中对全面且科学有效评估体系的迫切需求。我们将系统梳理现有的 MLLM 评估基准,深入探讨提升模型性能以实现类人通用人工智能(AGI)的必要路径。教程将介绍 MLLM 的最新研究进展,综述当前主流基准体系,并探讨多种评估方法。内容将涵盖视觉-语言理解能力、视频模态的评估方法,以及模型在多个专业领域中达到专家水平的能力要求。同时,我们将识别现有多模态通才模型评估中存在的空白,并介绍面向多模态 AGI 的更全面评估框架。最后,教程将特别聚焦于 MLLM 中普遍存在的“幻觉现象”(hallucination),并讨论如何缓解与应对,以提升模型的可靠性。
本多模态大模型教程系列已经成功在COLING 2024 (https://mllm2024.github.io/COLING2024/)、CVPR 2024(https://mllm2024.github.io/CVPR2024/) ,ACM MM 2024(https://mllm2024.github.io/ACM-MM2024/ )成功举办过,并且受到了全球社区相关参与者的大量关注。本轮教程将会延续前面系列的成功,在CVPR 2024(美国纳什维尔)继续延续展开。与前面三轮教程不同的在于,本次教程将会更强调对于MLLM的评测以及基准方面的探讨,以及本方向的最新进展,旨在面向各类相关研究群体,尤其是初学者们提供一个全面的、深入的MLLM Evaluation & Benchmark的介绍,从评测的角度来思考如何促进下一代更强大、更高效、更接近人类智能水平的MLLMs和系统。
欢迎社区所有科研工作者参与教程(现场或者线上)。访问教程网页获取所有的教程slides、视频。
本教程团队来自于新加坡国立大学、CMU、上海人工智能实验室、香港科技大学、腾讯 以及 UT Dallas的多名资深学者,其都在多模态大模型、评测和基准方向上具备丰富的研究经验。
教程内容将会覆盖当前MLLM社区针对模型评测和基准相关的几个主流板块,包括:
-
Existing MLLM Benchmark Overall Survey,现有多模态大语言模型评估基准概述 -
Vision-Language Capability Evaluation,视觉-语言能力评估 -
Video Capability Evaluation,视频模态能力评估 -
Expert-level Discipline Capability Evaluation,专家级多学科能力评估 -
Beyond Evaluation: Path to Multimodal Generalist,超越评估:迈向多模态通才模型的路径 -
MLLM Hallucination Evaluation,多模态大语言模型幻觉现象评估
时间安排表如下:
欢迎感兴趣的同学积极参与本次CVPR25线上或者线下的教程。

