大数跨境
0
0

剖析英伟达H20被禁的原因和影响

剖析英伟达H20被禁的原因和影响 是说芯语
2025-04-18
2
申请入围“中国IC独角兽”

半导体高质量发展创新成果征集


H20还是被禁了,前几天刚刚传出老黄和川普谈好了,英伟达承诺5000亿的制造回流,相当于给川普交了保护费,就是H20还是得继续卖给中国。结果这才几天,又变卦了。

SemiAnalysis的Dylan认为这次单纯的禁掉H20是非常愚蠢的,当然他是站在老美的角度。

image-20250417201119212

这篇文章我们就来聊一聊H20为什么被禁,以及被禁后有什么影响?

根据大摩的这篇分析,英伟达H20目前库存55亿美元,相当于潜在收入损失超120亿美元,毛利率近60%。2024年,H20在中国卖出170多亿美元,占其总营收的13%左右。

image-20250417142431931

为何中国需要这么多的H20?

H20是专为中国特供,性能比H100阉割了80%,具体参数如下:

参数
H20
H100
架构
Hopper
Hopper
显存容量
96GB HBM3(部分版本141GB HBM3e)
80GB HBM3
显存带宽
4.0 TB/s
3.35 TB/s
FP16算力(Tensor Core)
296 TFLOPS(稀疏计算)
1979 TFLOPS(稀疏计算)
FP8算力
~150 TFLOPS
~989 TFLOPS
INT8算力
~300 TOPS
~1979 TOPS
FP32算力
40% of A100 (12-15 TFLOPS)
~60 TFLOPS
FP64算力
10% of A100 (1 TFLOPS)
~30 TFLOPS
NVLink带宽
900 GB/s
900 GB/s
热设计功耗(TDP)
400W
700W
多实例GPU(MIG)支持
支持7路
支持7路
性能密度(TFLOPS/Die)
2.9
19.4

虽然在训练或高算力场景下,H100还是目前最强的(考虑Blackwell还没有量产出货),但H20的显存容量(96GB,部分版本141GB)和带宽(4.0 TB/s)优于H100(80GB,3.35 TB/s)。这使得H20在显存密集型任务(如大语言模型推理阶段)表现较强。

而国内目前买的这些H20,也基本是用于推理的场景。

H20相对于产品GPU,有哪些优势?

  1. 成熟的cuda生态,中国大多数AI企业基于CUDA开发应用,H20可无缝集成,无需耗费成本和时间迁移软件;
  2. H20的显存容量和显存带宽,远超大多数国产GPU(如昇腾910B的带宽约为H20的一半)。这使得H20在显存密集型任务(如大语言模型推理)中效率极高;
  3. H20的热设计功耗(TDP)为400W,低于H100的700W,且比部分国产GPU更高效。这降低了大规摸数据中心的运营和冷却成本。
  4. H20的杀手锏并非单卡算力,而是其互连带宽(interconnect bandwidth)和低延迟通信能力。这些特性使得多GPU集群能高效协同工作,而这正是运行复杂推理任务(如多步骤逻辑推理、实时决策)的核心需求。

为什么美国非要禁掉H20?

当前美国对华芯片出口管制的核心目标是限制中国训练前沿AI模型的能力,但如今推理(Inference)的AI创新——正成为更关键的战场。而英伟达的H20 GPU恰恰暴露了现有出口管制策略的致命漏洞:它看似“合规”,却为我国提供了足以支撑大规模推理的算力,直接威胁美国技术优势。

我们在上面提到了H20的优势,华为昇腾910C等国产芯片虽在单卡性能上追赶,但互连带宽仅达H20的1/3,延迟高出2倍以上。

近期DeepSeek发布后,字节、腾讯等企业紧急加单H20芯片,计划构建超10万卡规模的推理集群,直接服务于内容审核、社交推荐等场景。

出口管制通常需要1-2年才能产生实质影响,而我国的企业正利用这一时间差疯狂囤积H20(2024年已采购超100万张)。若不立即封堵这个美国认为的漏洞,待推理成为主流计算范式时,中国将手握成熟硬件体系,美国再限制为时已晚。

其实说白了,还是老美太害怕我们在AI上超越他们,即便禁了英伟达的显卡,随着我们国产GPU的崛起,我们都有信心会追赶并超越美国。

现在禁掉H20,有哪些影响?

这次政策成出台,刚巧是在华为的CloudMatrix  384架构刚刚发布。我们昨天的文章也刚刚讲过CloudMatrix  384,有兴趣的朋友可以看下。

SemiAnalysis--关于华为CloudMatrix和910C的分析

这个架构其实主要还是为了训练,对标的也是英伟达的GB200,如果从单颗GPU的性能来看,昇腾910C只有GB200的的30%,但由于CloudMatrix  384使用了384颗昇腾910C,因此系统的计算能力是GB200的1.7倍。HBM的容量和带宽分别是GB200的3.6倍和2.1倍。

image-20250416132718674
i

华为的GPU进展能这么快,也是多亏了2022年H100/A100的禁令,迫使国内不得不慢慢转向国产GPU。而这次的H20禁令也会是同样的效果,当前的禁令对美国来说顶多算是“锦上添花”,而非决定性打击。

但由于我们目前还是有H20的需求,因此中国企业可能转向黑市或云服务获取英伟达芯片(如通过新加坡、马来西亚等中介),但成本高昂(A100黑市价格达2万美元/片,是美国市场的两倍)。有些依赖CUDA生态和H20的AI企业可能因切换国产GPU需要重构软件,面临项目延迟和开发成本增加。这些都是我们不得不面临的问题。

所以笔者认为,这次美国对H20的出口限制在短期内会对中国AI推理市场造成一定供需压力、成本上升和项目延迟,尤其影响依赖CUDA生态的中小型企业。然而,随着华为昇腾910B/C、壁仞BR100等国产GPU性能提升,政策支持和软件生态改进,禁令的长期效果显著减弱。国产GPU在推理任务中虽暂未完全媲美H20,但在训练和特定场景下已具竞争力,结合囤货、黑市和云服务,中国可有效应对禁令。禁令反而可能加速国产GPU替代,促使中国AI芯片产业自立,削弱美国的技术遏制效果,同时对英伟达造成市场损失。


加入“中国IC独角兽联盟”,请点击进入

文章内容来自网络,如侵权请联系

投稿商务合作请微信dolphinjetta



是说芯语,欢迎关注分享

图片

【声明】内容源于网络
0
0
是说芯语
关注泛集成电路行业的技术走势、热点交流、市场应用、行业分析、产业服务等信息
内容 3980
粉丝 0
是说芯语 关注泛集成电路行业的技术走势、热点交流、市场应用、行业分析、产业服务等信息
总阅读1.1k
粉丝0
内容4.0k