大数跨境
0
0

全球文生视频AI模型排名洗牌!可灵2.5 Turbo vs Sora2 谁更懂你的想象?

全球文生视频AI模型排名洗牌!可灵2.5 Turbo vs Sora2 谁更懂你的想象? AGI-Eval大模型评测
2025-11-04
0
导读:AGI-Eval 权威评测多模态大模型文生视频AI模型能力!

近年来,文生视频技术持续进化,从“文字变电影”的创意实现到动态影像的真实还原,多模态大模型正以前所未有的速度重塑内容创作边界。在上一轮评测中,我们见证了全球文生视频AI模型大比拼!Seedance1.0、可灵2.0领跑,Pika2.2垫底。本次AGI-Eval社区再度发起权威测试,将焦点聚集于两款备受瞩目的新晋选手——可灵2.5 TurboSora2

作为各自阵营的新一代代表,可灵2.5 Turbo和Sora2分别在文本一致性、画质优化及运动质量上进行了显著升级。那么,它们究竟谁能更好地理解用户需求?谁能生成更加流畅且视觉震撼的视频?本次评测为大家揭晓答案。

评测结果显示,国产AI模型可灵2.5 Turbo与海外AI模型Veo3领跑, Seedance 1.0 、可灵 2.0 被反超。

△各模型整体得分和 Ranking 图

下面就一起查看文生视频模型的评测维度与规则以及这些模型的详细评测表现吧!


01. 评测结果明细


1.1 评测结论

本次评测的核心,不仅在于呈现各模型的得分排名,更在于深入剖析其背后的能力差异。综合所有维度的评测结果,我们得出以下核心结论:

  • 行业格局重塑,新王登基以 Veo3 和 可灵2.5 Turbo 为代表的新一代模型,在综合能力上已实现对上一代领先者(如Seedance 1.0、可灵2.0)的超越,展现出惊人的迭代速度和技术实力。

  • 两大技术路径分化显著作为本次评测的焦点,Sora2 与可灵2.5 Turbo 展现出两种截然不同但同样强大的技术演进路径:

      可灵2.5 Turbo:追求极致的“视觉质量”。其核心优势在于生成画面的超高清晰度和细节真实感,在视觉呈现上更接近数字艺术和顶级CG的制作水准。Sora2:追求高度的“情境真实性”。它更擅长通过模拟真实世界的物理规律、运镜手法和环境氛围,来营造一种沉浸式的“电影感”语义理解的深度和广度上表现突出。
  • 行业共同挑战依然存在尽管头部模型能力强大,但在处理复杂的物理交互、长时程的逻辑一致性以及精确的语义还原上,所有模型仍有广阔的提升空间。

这些结论为我们理解当前文生视频模型的技术现状和未来发展方向提供了关键视角。接下来,我们将通过详细的数据榜单,对这些结论进行量化支撑。


1.2 评测综合榜单

为了得到符合用户主观感受的评估结果,评测社区对各模型在人工评测黑盒数据上进行了 5 档 MOS (Mean Opinion Score) 分的人工评测(打分范围 1-5 分),各模型得分结果如下:

  • 在视频-文本一致性维度Veo3得分最高,表现突出。Sora2与海螺02得分相近,共同处于领先水平。可灵2.5 Turbo、Dreamina3.0、Seedance 1.0以及可灵2.0等模型得分差距较小,形成了竞争激烈的第二梯队。

  • 在视频质量维度各模型间的表现呈现出显著差异。可灵2.0在该维度得分排名第一,可灵2.5 Turbo与Wan 2.2得分持平,紧随其后。Veo3、可灵2.1与Seedance 1.0处于同一水平。Sora2的表现略低于上述模型,而Pika 2.2在该维度得分与其他模型差距悬殊,明显落后。

  • 在运动质量维度头部模型的表现尤为集中且优势明显。Veo3再次位列第一,得分显著领先。此外,可灵2.1、可灵2.5 Turbo、Sora2、海螺02、可灵2.0等模型的表现均在3.8分以上,共同构成了运动质量的头部阵营。Wan 2.2和Pixverse V5的表现也十分接近。


1.3 评测能力项榜单

文生视频人工评测对动作生成、物理世界真实模拟等能力项进行了详细评测,评测结果显示:

  • Veo3 在多个能力项子维度上展现出显著优势,尤其在动作生成、人像生成、常识知识、物理世界的真实模拟以及风格生成方面得分全面领先,综合能力突出。

  • 海螺 02 在常识知识与文字和符号生成维度上表现优异,其中文字和符号生成能力得分位列第一,但在风格生成方面与其他头部模型存在一定差距。

  •   Sora2 与可灵 2.5 Turbo 在多个能力项上表现出相似的竞争力。Sora2 在动作生成、人像生成和风格生成方面略有优势;而可灵 2.5 Turbo 在物理世界的真实模拟上表现更好。两者在文字和符号生成能力上得分持平。

  •   可灵 2.0 在物理世界的真实模拟维度表现出色,但其风格生成能力相较于其他头部模型稍显不足。


02. 评测框架与方法论


为了对各文生视频模型的性能进行量化与质化评估,AGI-Eval 采用人工评测的形式,构建了覆盖 40+ 细分能力项、共 500 条专业prompt的数据集。评估内容主要考察模型在视频文本一致性、视频质量、运动质量三大核心维度的表现,其中重点包含了对运动属性、镜头运动、场景转换以及物理世界的真实模拟等关键视频生成能力的评测。


03. 评测案例


决定文生视频成败有五大核心维度:生成内容与提示的“一致性”(是否精准还原想象)、“视频质量”(画面清晰度、细节、美观度)、“运动质量”(动作是否自然流畅、符合物理规律)、“音频效果”、“人像生成”。让我们通过具体 Prompt 实测,直观感受各模型在想象还原、画面细节与动作流畅性上的真实表现差异。本节将聚焦于可灵2.5 Turbo与Sora2这两款备受瞩目的模型。



Prompt1:美人鱼坐在海边的岩石上,梳理着她那长长的、飘逸的头发,看着海浪拍打着岸边。

Sora2:

可灵2.5Turbo:

对比评估

  • 一致性:可灵2.5Turbo=Sora2。两个模型都没有明确体现出“看着海浪拍打着岸边”,除此之外的其他要求体现较完整。

  • 视觉质量可灵2.5Turbo>Sora2。画质和真实性上,可灵2.5Turbo远好于Sora2,Sora2整体视频模糊、人物质感“磨皮感”严重,真实性较差;Sora2美人鱼手部、以及手持的梳子,在梳头过程中出现了畸变,头发也在梳理过程中出现了穿模现象;可灵2.5则没有出现明显形变问题。



Prompt2:情感丰富的新郎与极其理性的新娘面对面,交换誓言。视频需要捕捉新郎和新娘的面部表情和状态。

Sora2:

可灵2.5Turbo:

对比评估

  • 一致性:可灵2.5Turbo>Sora2。Sora2未明确捕捉到新娘的面部表情,可灵2.5Turbo则完整地捕捉了新郎和新娘的的面部表情,并且符合prompt要求的人物特征和情绪。



Prompt3:随着黎明临近,城市逐渐苏醒。晨光中,高楼轮廓清晰可见,街道上的流量开始涌动。
Sora2:

可灵2.5Turbo:

对比评估

  • 视觉质量:可灵2.5Turbo>Sora2。画质上,可灵2.5Turbo远好于Sora2,Sora2整体视频模糊、看不清视频内容细节;建筑群和车流排列密集且混乱,不符合客观现实,车流动态过程呈现出非常扭曲、粘黏的状态。相比之下可灵2.5Turbo视频清晰度高、细节展现明确,建筑和车流都能看出较为规则的形态,但也存在远景的汽车排列密集、粘黏、道路线条不规则的问题。

  • 运动质量:可灵2.5Turbo>Sora2。Sora2道路上车辆整体运动出现波浪形扭动,运动过程中没有清晰的衔接;可灵2.5Turbo车辆运动流畅、连贯。



Prompt4:商贩在热闹的农贸市场摆摊,展示新鲜的水果和蔬菜,人们漫步其中,挑选农产品并享受这充满活力的氛围。
Sora2:

可灵2.5Turbo:

对比评估

  • 视觉质量:可灵2.5Turbo=Sora2。画质上,可灵2.5Turbo远好于Sora2,Sora2整体视频模糊、看不清视频内容细节,且内容有马赛克的闪烁感(文字部分明显);前景的主体人物轮廓、面部正常,但手与挎包出现穿模、手部粘黏、文字错误,背景的人物几乎模糊不可见。可灵2.5Turbo近景的人物无明显异常,随着镜头推进,视觉中心多个人物的面部扭曲畸形明显,五官轮廓都不可见,背景人物畸形更明显。两个模型都有比较明显的视觉质量问题。



Prompt5:一位穿着紫色背带裤和牛仔靴的老人,在南非约翰内斯堡美丽的日落时分悠闲地散步
Sora2:

可灵2.5Turbo:

对比评估

  • 一致性:可灵2.5Turbo>Sora2。Sora2未明确体现出“牛仔靴”的要求,可灵2.5Turbo人物特征体现比较明确。另外两个模型都没有明确体现出“南非约翰内斯堡”的典型城市特征。

  • 视觉质量:可灵2.5Turbo>Sora2。画质上,可灵2.5Turbo远好于Sora2,Sora2整体视频模糊,主体人物轮廓、面部、手部粘黏等细节几乎模糊不可见。可灵2.5Turbo清晰度高,人物细节清晰可见,侧边和远景的植物略密集,文字错误。


△由于公众号视频规则限制,剩余文生视频的精彩的案例在二条和三条展示。


04. 总结和展望


通过本轮评测,可以明确看到可灵系列在国产模型中持续领跑,稳居文生视频第一梯队前列。从早期版本到最新推出的可灵2.5 Turbo,它不仅保持了一贯优秀的视频清晰度,还针对用户需求不断完善情境理解和动态渲染功能。在实际使用中,无论是广告营销还是教育培训,展现出较大的商业化潜力。

另一方面,作为海外阵营代表之一,Sora2 尽管综合表现稍逊于头部国产模型,却也展现出了自身独特竞争优势。例如它对于语义指令执行过程中的创造性解读,以及富有艺术张力的视频输出,都让人眼前一亮。如果能够解决当前技术瓶颈,如提升视频解析精确度以及优化跨帧衔接,其未来发展同样值得期待!

随着文生视频技术持续迭代升级,我们正迈向一个全新的AI驱动影视创意时代。从简单文字输入,到自动生产媲美专业水准的视频作品,这种变革不仅降低了内容制作门槛,更赋予每个人讲述故事的新可能。在这条赛道上,无论是国产品牌还是国际巨头,都将在创新竞速中共同推动行业走向辉煌新篇章!


以上就是本次评测的全部内容,AGI-Eval 评测社区将持续追踪这场通往更强AI的演进之旅,注我们,后续将带来更多模型的深度剖析,敬请期待!

点击“阅读原文”可跳转至官网玩耍~

>/ 联系AGI-Eval小助手:请添加微信 AGI-Eval001

>/ 投稿请联系邮箱agieval17@gmail.com


一键关注👇 点亮AGI-Eval 前沿进展随时看



往期回顾
1.【AGI-Eval评测报告】深度拆解Qwen3,刷榜之外,更需构建全面评测新体系
2.【AGI-Eval评测报告 NO.2】DeepSeek V3-0324抢先评测!最全报告输出
3.【AGI-Eval评测报告 NO.3】第一手实测GPT-4o文生图能力!最权威报告输出

未经「AGI-Eval大模型评测」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AGI-Eval大模型评测」后台留言取得授权,转载时需标注来源并
插入本公众号名片。

一键三连「点赞」「转发」「小心心」
 欢迎在评论区留下你的想法

【声明】内容源于网络
0
0
AGI-Eval大模型评测
AGI-Eval是上海交通大学、同济大学、华东师范大学、DataWhale等高校和机构合作发布的大模型评测社区,旨在打造公正、可信、科学、全面的评测生态以“评测助力,让AI成为人类更好的伙伴"为使命。
内容 46
粉丝 0
AGI-Eval大模型评测 AGI-Eval是上海交通大学、同济大学、华东师范大学、DataWhale等高校和机构合作发布的大模型评测社区,旨在打造公正、可信、科学、全面的评测生态以“评测助力,让AI成为人类更好的伙伴"为使命。
总阅读0
粉丝0
内容46