CVPR 25 多模态大语言模型评测教程 | MLLM Evaluation Tutorial

我爱计算机视觉

2025-06-06

关注公众号，发现CV技术之美

教程网页：https://mllm2024.github.io/CVPR2025/
时间：美国纳什维尔时间 2025年6月11日星期三，下午1点到5点。对应北京时间 2025年6月12日星期四，凌晨2点到6点。
线下现场位置：Meeting Room 208 A, at Nashville Music City Center
线上参会Zoom：请关注网站 https://mllm2024.github.io/CVPR2025/ 所公布的信息

多模态大语言模型（MLLMs）研究成为当前最为热门的课题之一，而如何有效的评估这些多模态基础大模型，已成为“AI的下半场”关注焦点。尽管当前已经涌现出多种用于评估多模态大语言模型（MLLMs）的新兴基准，但对于这些评估方式的有效性与科学性仍存在进一步探讨的空间。本次教程旨在回应 MLLM 发展中对全面且科学有效评估体系的迫切需求。我们将系统梳理现有的 MLLM 评估基准，深入探讨提升模型性能以实现类人通用人工智能（AGI）的必要路径。教程将介绍 MLLM 的最新研究进展，综述当前主流基准体系，并探讨多种评估方法。内容将涵盖视觉-语言理解能力、视频模态的评估方法，以及模型在多个专业领域中达到专家水平的能力要求。同时，我们将识别现有多模态通才模型评估中存在的空白，并介绍面向多模态 AGI 的更全面评估框架。最后，教程将特别聚焦于 MLLM 中普遍存在的“幻觉现象”（hallucination），并讨论如何缓解与应对，以提升模型的可靠性。

本多模态大模型教程系列已经成功在COLING 2024 (https://mllm2024.github.io/COLING2024/)、CVPR 2024（https://mllm2024.github.io/CVPR2024/），ACM MM 2024（https://mllm2024.github.io/ACM-MM2024/ ）成功举办过，并且受到了全球社区相关参与者的大量关注。本轮教程将会延续前面系列的成功，在CVPR 2024（美国纳什维尔）继续延续展开。与前面三轮教程不同的在于，本次教程将会更强调对于MLLM的评测以及基准方面的探讨，以及本方向的最新进展，旨在面向各类相关研究群体，尤其是初学者们提供一个全面的、深入的MLLM Evaluation & Benchmark的介绍，从评测的角度来思考如何促进下一代更强大、更高效、更接近人类智能水平的MLLMs和系统。