华为在刚刚结束的第一季度新品发布会上,没有发布手机,也没有谈论汽车,而是平静地推出了一颗芯片,昇腾950 PR。
芯片的名字,不像消费电子品那样朗朗上口,甚至有些拗口。但在真正懂得这个时代的人眼中,这颗芯片像一块巨大的礁石,被投进了全球人工智能算力这条奔腾的河流里,重要的是,它可能将永久性地改变河流的走向。
人工智能,已经像水和电一样,渗透到我们生活的方方面面。而驱动这一切的,就是算力。算力是处理数据的能力,也是这个时代的“石油”,是数字世界的发动机。过去很长一段时间里,这台发动机的核心技术,几乎被一家美国公司英伟达,牢牢攥在手里。它的GPU芯片,如同工业时代的标准件,定义了AI算力的标准和边界。
然而,地缘政治的坚冰,试图阻挡技术河流的流淌。当外部的压力越来越大,当获取顶级芯片的通路被层层设卡,一个问题摆在了我们面前,我们自己的发动机在哪里?
昇腾950 PR,就是华为给出的回答。在重重围困之下,一个以我为主、自主可控的第二算力生态,已经从图纸走向了现实,并且,它开始硬碰硬地挑战那个曾经不可一世的王者。
“庖丁解牛”:这颗中国芯里有什么?
我们不妨先像一位经验老道的庖丁,剖开昇腾950 PR这头“牛”,看看它的筋骨脉络,究竟有何不同。
首先,它是一颗专门为AI推理任务量身定制的芯片。什么是推理?简单来说,就是让已经训练好的AI模型去“干活”。比如,你向一个大语言模型提问,它快速生成答案的过程,就是推理。这个过程,在今天几乎无处不在,从你手机上的智能助手,到电商平台的商品推荐,背后都是海量的推理计算。
昇腾950 PR瞄准的,是推理环节中两个最关键的场景,“Prefill”(预填充)和“推荐”。“Prefill”好比你写文章前打腹稿,AI模型需要先把你的问题和你提供的上下文全部快速“读”一遍,形成一个初步的理解,这个环节计算量极大。而“推荐”业务,更是国内互联网巨头的命脉所在。昇腾950 PR选择从这里切入,足见其对市场需求的精准洞察。
为了干好这些活,它有几件独门兵器。第一件,是对低精度数据格式的极致运用。它支持FP8、甚至FP4这样的超低精度计算。这是一个聪明的选择。对于推理任务来说,很多时候我们并不需要小数点后十几位的超高精度,就像日常买菜我们只需要算到分,不需要算到厘。降低精度,意味着在单位时间里可以处理更多的数据,计算效率大幅提升。根据发布会信息,它的FP8算力达到了惊人的1 PFLOPS,FP4算力更是翻倍至2 PFLOPS。这个数字,意味着它每秒可以进行千万亿次的计算。
第二件,也是最核心的武器,是它搭载的自研HiBL内存。内存,是芯片的数据仓库。数据从仓库被调取到计算单元的速度,直接决定了芯片的真实性能。这就像打仗,前线士兵再勇猛,后勤补给跟不上,也打不了胜仗。过去,高端芯片使用的高带宽内存(HBM)技术,一直被韩国等少数几家公司垄断。而华为这次直接拿出了自己的HiBL 1.0方案,容量高达128GB,带宽达到1.6TB/s。这是一个什么概念?它相当于在一秒钟内,可以传输超过300部高清电影的数据量。这条自主修建的“数据高速公路”,彻底摆脱了外部供应链的束缚,意义极为深远。
那么,它的实战能力如何?虽然目前还没有国际通行的MLPerf等第三方基准测试平台的完整数据公布,但根据发布会上的信息和一些前期披露的测试来看,昇腾950 PR在它所擅长的推理任务上,性能已经非常接近英伟达的次旗舰产品H200。这无疑是一个强烈的信号,在推理这个AI应用最广泛的领域,国产算力已经从“基本可用”迈向了“性能可比”的阶段。
当然,我们也要清醒地看到,关于这颗芯片,仍有一些信息是模糊的。比如,它具体采用了何种制程工艺,它的核心数量和功耗控制如何。这些关键参数的缺失,背后可能反映了我们在芯片制造环节依然面临的现实挑战。或许,它无法用上全球最先进的纳米工艺,但它通过架构设计、内存技术和软件优化的创新,在系统层面实现了性能的追赶。这本身就是一种更值得尊敬的智慧,一种在有限条件下,做到极致的工程美学。
“左右互搏”:深谋远虑的“双子星”战略
如果说昇腾950 PR是华为投向市场的一柄锋利的“矛”,那么计划于2026年底推出的另一款芯片昇腾950 DT,则更像一面厚重的“盾”。两者共用同一个核心设计,却面向完全不同的战场,构成了华为在算力棋局上深思熟虑的“双子星”布局。
DT,代表着“Decode”(解码)和“Training”(训练)。
“训练”是AI世界的源头。它需要用海量的数据去“喂养”一个模型,让它从零开始学习,这个过程对算力的消耗是天文数字,也是目前英伟达技术壁垒最高、利润最丰厚的领域。
“解码”则是大模型生成答案的后半段,一个字一个字地往外蹦。这个过程更考验芯片的低延迟响应能力。
为了应对这两个“算力巨兽”,昇腾950 DT进行了针对性的强化。最显著的变化,在于它的内存系统。它将搭载华为第二代自研高带宽内存HiZQ 2.0,容量提升至144GB,而带宽则一跃达到了恐怖的4TB/s。如果说950 PR的数据高速公路是16车道,那么950 DT直接修了一条超过40车道的超级高速。同时,芯片之间的互联带宽也提升到了2TB/s。
这些参数的背后,指向一个清晰的目标,大规模集群训练。成千上万颗950 DT芯片可以被高速连接在一起,形成一个巨大的计算生命体,去攻克那些最复杂的AI模型训练任务。
这种“PR主攻推理,DT主攻训练”的分工策略,在我看来,是华为算力战略走向成熟的标志。它表明华为不再满足于单点突破,而是试图构建一个覆盖AI开发全流程的完整工具箱。这种做法,与英伟达为不同市场提供不同产品线的思路如出一辙。它告诉世界,中国的挑战者,不仅学会了如何制造武器,更学会了如何排兵布阵,如何打一场体系化的现代战争。
“此消彼长”:一场没有硝烟的市场重构
芯片的战争,最终要到市场上见真章。昇腾950系列的问世,正以前所未有的力度,重塑着中国的AI芯片市场格局。
根据多家市场研究机构在2025年底发布的预测,战局的演变趋势惊人地一致。到2026年底,华为有望占据中国AI芯片市场50%的份额,成为绝对的领导者。而曾经在这里占据九成以上份额的英伟达,其市场占比可能会跌至个位数,估计在8%左右。
冰冷的数字背后,是地缘政治与市场规律交织作用下的必然结果。
首先,外部的出口管制,成为了国产替代最强劲的“催化剂”。这些试图锁住我们发展脚步的枷锁,反而点燃了我们自力更生的火焰。对于国内的互联网公司、科研机构和大型企业来说,供应链的稳定性和安全性,在今天已经压倒了对单一性能指标的极致追求。一颗性能略逊但能确保长期稳定供应的国产芯片,其价值远远超过一颗随时可能断供的顶尖外国芯片。这种集体共识的形成,为国产芯片提供了最宝贵的市场土壤和试错空间。
其次,华为提供的不再仅仅是一颗芯片,而是一整套“解决方案”。从底层的芯片,到服务器硬件(Atlas系列),再到上层的AI计算框架(昇思MindSpore),以及一系列的开发工具和应用软件,华为正在构建一个可以对标英伟达CUDA生态的“第二选择”。生态的价值在于锁定用户,一旦习惯了某个开发环境,迁移的成本是巨大的。CUDA之所以是英伟达最深的护城河,原因就在于此。而华为,正一砖一瓦地,在中国市场里,修建一条属于自己的护城河。
这场市场的此消彼长,影响将极为深远。它意味着在全球最大的单一AI应用市场里,一个独立于美国技术体系的算力标准和生态系统正在成型。未来,全球的AI开发者可能需要考虑一个问题,他们的算法,是否同时兼容CUDA和昇思MindSpore。全球的科技版图,将不再是铁板一块,而是出现了清晰的板块分野。
“他山之石”:给中国制造业的启示
昇腾芯片的破局之路,像一本厚重的教科书,值得我们整个制造业,特别是那些正在进行数字化转型的传统企业,去细细品读。
第一,要从“卖产品”转向“做生态”。华为的成功,不是一颗芯片的成功,而是一个体系的成功。我们很多制造企业,长期以来习惯于生产和销售单一的产品,比如一个零件、一台机床。但在万物互联的时代,产品的价值越来越多地体现在它所属的生态系统中。我们的企业,是否可以思考一下,除了产品本身,我们能否提供与之配套的软件、数据服务、乃至行业标准?能否联合上下游的企业,共同打造一个利益共享的产业联盟?
第二,要敢于进入“深水区”,进行应用牵引的定制化创新。昇腾950 PR/DT的策略,就是最好的例子。它没有盲目地追求打造一颗“万能芯片”去全方位对标英伟达,而是敏锐地抓住了国内市场最大、最迫切的需求点,推荐系统和大型语言模型,然后反向定制出最适合这些场景的芯片。我们的制造业,是否也能摆脱“大而全”的惯性思维,去深入研究某个细分行业的特定痛点,比如纺织行业的瑕疵检测、钢铁行业的能耗优化,然后为其打造出最优化的、软硬一体的解决方案?这种“小切口,深钻研”的模式,往往比盲目扩张更有生命力。
第三,要有“坐冷板凳”的战略耐性。昇腾芯片的研发,可以追溯到十多年前。这是一场马拉松式的长跑,需要持续多年的、不计短期回报的巨大投入。我们很多企业,习惯于赚快钱,对需要长期投入的基础研发望而却步。但核心技术是买不来的,市场的尊重也是等不来的。我们的企业家和政策制定者,都需要建立一种共识,那就是容忍基础研发的失败,鼓励那些敢于挑战核心技术难题的“堂吉诃德”,为他们提供长期、稳定的支持。只有当“坐冷板凳”成为一种荣耀,我们的科技树才能根深叶茂。
昇腾950 PR的发布会,没有华丽的辞藻,也没有激昂的口号,一切都显得那么平静。但正是这种平静,反而让人感受到一种穿透时间的力量。它像一位沉默的登山者,在经历了风雪的洗礼后,终于在陡峭的悬崖上,凿下了一个坚实的立足点。

