近期,阿里云专有云团队基于Qwen2.5-VL-3B/7B-Instruct双基座模型,创新研发的EvoQwen2.5-VL嵌入模型,在全球顶尖开源机器学习平台Hugging Face的权威多模态检索基准ViDoRe榜单中斩获佳绩,以硬核实力刷新业界纪录。
该模型以绝对优势登顶ViDoRe V2榜单全球第一,并斩获ViDoRe V1榜单全球第二。这一成果标志着在多模态语义理解与复杂检索领域,阿里云的技术实力已达到全球领先水平,为企业在高异构、非结构化数据场景下的知识管理提供了全新范式。
ViDoRe V2榜单全球第一
ViDoRe V1榜单全球第二
-
图文表征优化:基于创新的LLM智能体驱动的进化式Embedding模型训练框架,可精准识别复杂文档的图文位置关系与语义关联。 -
跨模态深度理解:能够在跨模态语义对齐、密集查询抗干扰、复杂文档布局理解等方面实现领先性能。 -
复杂应用场景:该模型可应用于高异构、非结构化的复杂视觉文档检索、图文内容问答、多模态知识库构建等场景。
关于ViDoRe
由Google Research与卡内基梅隆大学联合推出,是全球首个聚焦长视频与长文档深度语义对齐的顶级基准测试,突破了传统短视频简单匹配局限,基于维基百科/wikiHow等权威知识库构建真实评测体系,通过私有化隐藏测试集、国际公认评估指标及动态公开的全球排行榜机制,形成兼具保密性、公平性与透明度的多维度验证体系,被国际顶尖AI研究机构广泛采用为模型性能的基准性检测工具。
/ END /


