最近生成图的模型比较火,大家都在在感叹现在模型能力太强大了。除此之外还想测试下模型对于多模态、全模态的理解能力,国内模型管理平台我经常使用百度千帆、阿里百炼、火山方舟,之前一些直播中也提到过这三种平台。今天呢,我们从百度千帆中测试下,其他平台也可以自行测试。
打开百度千帆,在模型服务菜单中可以找到百度较新的ERNIE 5.0模型,可以点击“体验”,并在线进行测试使用。
首先上传一张图片,哈哈,使用这张图如何。不一会就返回了对图片的解析效果,还不错。
再测试一段视频吧,从百度网站上可以找到一些视频。
测试下来效果不错。不过这些都只是直观感受,有没有一些客观数据呢?
还真有。
我们来看一份公开数据,文心大模型视觉理解能力评估,多数国产模型止步于视觉理解榜,而ERNIE-5.0-Preview-1120 在LMArena榜单排行榜中属于国内最高分数。其性能表现强劲,文心大模型得分:1206(国产最高),核心能力:视觉推理 + 跨模态理解 ≈ 国际一线水平。以下流程介绍了对应的技术路径。
原生多模态├─ 语言处理├─ 图像识别 → 统一训练├─ 视频理解└─ 音频分析
百度ERNIE-5.0虽然属于Tier2,但是Tier 1也只有Gemini和ChatGPT,能进入到这个表单都是挺强的视觉理解模型了。

Imarena.ai也给出了一些评分和介绍。
这样的数据已经很亮眼了,可以在百度千帆平台中测试最新的ERNIE-5.0-Preview-1120,确实挺强大的,能够满足正常使用。
欢迎一起来评测呀。

