汇智智能体

2025-02-20

DeepSeek后时代，中外AI大模型竞赛进入新一轮白热化阶段。

XAI、OpenAI、谷歌、百度等主流AI大模型厂商先后官宣，旗下闭源高端AI模型将转向开源，而主流AI产品也计划免费向用户开放。

这意味着，AI技术正逐渐打破以往的专业壁垒，真正的走近寻常百姓。

但这些模型的真实水平究竟如何？它们的差距到底有多大？本文主要针对国内部分主流AI大模型技术特点、能力及应用场景进行梳理。

DeepSeek：国产AI最大黑马

DeepSeek成立于2023年7月，由知名量化资管巨头幻方量化创立，仅一年多，模型已然迭代多个版本，目前模型能力可比肩OpenAI o1-mini。

DeepSeek凭借其创新的混合专家(MoE)架构和多头潜在注意力(MLA)机制，在保持高性能的同时大幅降低了计算成本，R1的训练成本仅约557.6万美元，且通过开源策略和对中文的深度优化，吸引了大量开发者，推动了AI技术的普及和应用。

目前，国内外企业均已宣布适配以及上架DeepSeek模型服务，如英伟达、AMD、微软、亚马逊云科技、英特尔，华为云、腾讯云、天翼云、阿里云等。

豆包：性能超越GPT-4o

字节最新发布的豆包大模型1.5Pro，采用大规模稀疏MoE架构，性能等效7倍激活参数的稠密模型，远高于业界常规的3倍杠杆，多项基准测试更是超过GPT4o，推理成本却大幅降低。

值得注意的是，豆包大模型1.5Pro在整个训练过程中未使用任何其他模型生成的数据，保证了模型的独特性和独立性。

目前，Doubao-1.5-pro已在豆包App灰度上线，开发者也可在火山引擎直接调用API，豆包实时语音模型Doubao-1.5-realtime-voice-pro已在豆包App全量上线（需升级至7.2.0版本）。

kimi：文字生成领域王者

在DeepSeek-R1发布两小时之后，月之暗面也发布了k1.5多模态思考模型。据介绍，从基准测试成绩看，k1.5多模态思考模型实现了SOTA（state-of-the-art）级别的多模态推理和通用推理能力。

具体来看，在short-CoT模式下，Kimi k1.5的数学、代码、视觉多模态和通用能力，大幅超越了全球范围内短思考SOTA模型GPT-4o和Claude 3.5 Sonnet的水平，领先达到550%；在long-CoT模式下，Kimi k1.5的数学、代码、多模态推理能力，也达到长思考SOTA模型OpenAI o1正式版的水平。

Kimi k1.5 Benchmarks（short-CoT）

目前来说，Kimi能进行长文总结与生成、数据处理、代码编写、语言翻译，可作为个人助理管理日程等，还能用于教育辅导、商务辅助、信息检索、旅行规划等众多场景。但在响应时间、多文档的同步处理能力、图片和文档解析等方面还需进一步提高。

百度文心：将推出文心大模型4.5系列

百度目前最新的AI大模型是文心大模型4.0 Turbo，以扩展文心系列模型的丰富性。与4.0相比，Turbo设计的运行速度更快、成本更低。

此外Turbo版本在检索方面的性能得到增强，可以更高效地从海量数据中检索出准确、相关的信息，并结合检索结果进行更精准的回答和分析。

2月13日，百度宣布文心一言将于4月1日零时起，全面免费，所有PC端和APP端用户均可体验文心系列最新模型，并且同步上线深度搜索功能。

2月14日，百度再发重磅消息，将在未来几个月中陆续推出文心大模型4.5系列，以巩固在基础模型上的优势。

GLM-4-Plus：新一代基座大模型

GLM-4-Plus作为智谱全新推出的新一代基座大模型，是智谱迄今为止最强大的模型，成为智谱全模型家族坚实的能力底座。

GLM-4-Plus 在各大语言文本能力数据集上获得了与 GPT-4o 及 405B Llama3.1 相当的水平。作为智谱最新旗舰模型，在语言理解、逻辑推理、指令遵循、长文本输出方面都有较大突破。

2月10日，智谱宣布其GLM-4V-Plus-0111 beta版本上线智谱BigModel开放平台。GLM-4V-Plus-0111 beta在前两代模型优势的基础上，通过引入原生可变分辨率等创新技术，进一步提升了模型性能，为用户带来更强大的视频理解能力。

混元大模型：全系列模型开源

腾讯混元大模型的开源模型已经全面覆盖文生文、文生图、文生3D以及文生视频多个模态，是开源系列模型中较全的，其模型性能也得到了开源社区的高度认可。

腾讯混元大模型的优势在于核心能力强，具备多轮对话、内容创作、逻辑推理、知识增强、多模态等能力，训练和推理效率高，可用于图像及文本的生成。不过在处理复杂数学计算和编程任务的正确率方面有待提高，3D生成模型依赖预设模板，建模的精细度还有待进一步提升。

通义千问：全球开源模型之王

阿里开发的“通义千问”在AI大模型中表现出色，在全球最大AI开源社区Huggingface的最新开源大模型榜单中，前十名的开源大模型大多是基于阿里通义千问进行二次训练而成。

目前，Qwen2.5-Max和Qwen2.5-VL是阿里巴巴目前最新的AI大模型。Qwen2.5-Max在预训练阶段使用了超过 20 万亿 tokens 的海量数据，这些数据涵盖了互联网上的各种文本资源，包括新闻报道、学术论文、小说、博客、论坛帖子等，几乎涵盖了人类知识的各个领域。如此大规模的数据预训练，使得模型能够学习到丰富的语言知识和语义信息，从而具备处理各种复杂自然语言处理任务的能力

Qwen2.5-VL基于Vision Transformer架构，结合了SwiGLU和RMSNorm等技术，不仅擅长识别常见物体，还能够分析图像中的文本、图表、图标、图形和布局，与Qwen2.5语言模型无缝对接。

Baichuan系列：大模型通才

1月24日，百川智能发布国内首个全场景深度思考模型Baichuan-M1-preview以及行业首个开源医疗增强大模型Baichuan-M1-14B。

Baichuan-M1-preview是国内目前唯一同时具备语言、视觉和搜索三大领域推理能力的模型。在数学、代码等多个权威评测中，Baichuan-M1-preview的表现均超越了o1-preview。

Baichuan-M1-14B则是Baichuan-M1-preview的小尺寸版本，同时也是行业首个开源的医疗增强大模型，它的医疗能力超越了更大参数量的Qwen2.5-72B，与o1-mini相差无几。

Baichuan系列大模型优势在于能进行多轮对话、内容生成、文章摘要、知识问答、代码生成、指令跟随、数学与逻辑推理，可应用于智能客服、智能写作辅助、智能语音识别、翻译等领域。劣势主要是无法直接获取实时数据信息，难以对超出其训练数据范围和理解能力的专业或超复杂问题提供准确有效的答案。

Yi系列：推动AI在ToB领域的商业模式革新

零一万物目前主要的AI大模型为Yi系列，包含多个针对不同场景优化的模型，覆盖语言、视觉、编程等多模态能力，并在性能、成本和适用性上展现出显著优势。

Yi-34B是双语开源模型，支持200K超上下文窗口，可处理约40万字的文本，还支持通用聊天、问答、对话、写作、翻译等功能；Yi-34B-Chat-0205是基于开源版深度优化的版本，适用于多篇文档内容理解、海量数据分析挖掘和跨领域知识融合应用等场景；Yi-VL-Plus支持1024*1024高分辨率图片输入，具备图片问答、图表理解、视觉推理能力……Yi系列通过技术创新与开源生态，正在推动AI在ToB领域的商业模式革新。