大数跨境

2025年主流云厂商的AI发展与规划

2025年主流云厂商的AI发展与规划 Lucas聊出海
2025-11-10
84
导读:从AI商业化变现角度,AI云业务主要包括GPU租赁、MaaS/API服务、PaaS/SaaS 服务(提供研发工具、利润率高)。测算主流云厂商AI业务2030年现金流贡献转正,2030年ROI可达10%

主流

云厂商

AI投入、算力建设与ROI预测

【摘要】

「海内外云厂商资本开支复盘」

从Capex投资节奏上,海外从23Q3开始增长,国内约晚一年。从Capex增速来看海内外仍处于50%以上同比增长。当前微软云、亚马逊云与阿里云等头部云厂商资本开支金额与全年云收入基本相当。海外云厂商与阿里云已将超100%的净利润、60%以上的经营性现金流进行资本开支投入,且增速指引依然显著高于业务收入/利润增速。为了维持增长需求,各家进行一定的AI基础设施金融化操作或加大融资租赁。从Capex投资周期来看,传统云扩张投资约持续四年、且投入到收入兑现约一年时间差。但此次AI供需错配度更高、建设周期更长、商业模式亦有所变化,导致收入兑现节奏更慢,中性预期下此次AI投资可能会持续五到六年扩张周期。

「各家算力规模与增长」

云服务提供商约贡献英伟达数据中心收入的50%。英伟达表示2025年全球数据中心投入预计6000亿美元(两年内翻倍),2030年前有望达到3-4万亿美元,其中1GW英伟达数据中心约500到600亿美元投入。测算各家算力规模与增长如下:

1. 微软:计划本年度(25Q3-26Q2)将AI总容量提升超 80%,未来两年将数据中心总规模扩大约一倍、约达10GW;

2. 谷歌:测算2023到2025三年累计投入超1700亿美元,其芯片包括GPU与TPU(算力角度约各占一半),其中TPU自用更多,GPU租外部更多。

3. 亚马逊:25Q3业绩会表示过去12个月AWS新增3.8吉瓦电力容量,第四季度预计再增1吉瓦以上,AWS目标2027年底实现算力翻倍。自研AI芯片Trainium2已发展为几十亿美元业务,相较于其他GPU选项具备30%-40%的价格性能优势。

4. 阿里巴巴:未来三年将投入至少3800亿元人民币用于AI基础设施建设。2032年,阿里云栖大会表示全球数据中心的能耗将比2022年提升10倍,测算阿里云能耗2032年将达到15GW、十年总资本开支规模累计约1.5万亿元。


云厂自研芯片布局与进展:ASIC产品预计明后年进入将密集落地期。当前测算英伟达从实际算力角度预计当前占据80%以上份额,尤其是在训练场景。ASIC等其他玩家对芯片自主可控和降本诉求强烈,测算GB200和谷歌TPU v6e性价比与能效比基本可比。


从AI商业化变现角度,AI云业务主要包括GPU租赁(主要满足训练需求、类似传统云IaaS业务)、MaaS/API服务(满足推理需求、利润率差异大)、PaaS/SaaS 服务(提供研发工具、利润率高)。测算微软云、谷歌云和阿里云AI业务2030年现金流贡献转正,2030年ROI可

达10%以上,即六到十年可收回投资周期。

云厂商

SCENIC SPOT

资本开支复盘分析

从时间点来看,国内约晚海外一年开始增加投资。海外资本开支显著加速从2023年下半年开始(ChatGPT发布半年后),其中以微软最为迅速,然后谷歌、亚马逊与META陆续加大投入。国内整体资本开支规模增长从2024年中旬开始,并且由于低基数增幅更为明显。

从节奏来看,但海外节奏更平稳、规模领先。国内则是经历22年与23年资本开支调整(负增长)后激进扩张,也由于算力限制和AI策略原因增速波动性更为明显


2025年海外厂商各家全年Capex投入均处于50%以上同比增长:

  • 微软:约1160亿美元(同比+54%); 亚马逊:1250亿美元(同比+61%);谷歌:910-930亿美元(同比+73%-77%);Meta:700-720亿美元(同比+78%-84%)

  • 国内厂商在23年低资本开支基数的基础上,连续两年实现各家全年Capex投入平均约80%同比增长

  • 阿里:约1180亿元(同比+63%);腾讯:约1000亿元(+90%)

  • 字节:约1800亿元(同比+105%);百度核心:约130亿元(+60%)。


  • 微软云、亚马逊云与阿里云等头部云厂商资本开支金额与全年云收入基本相当。相比正常发展阶段30-40%云收入比例的投入,目前显著处于加速扩张的阶段。一方显示了AI云更高的“资金壁垒”,通过大规模基建投入抢占赛道话语权,需要“重资产、长周期”投入。另一方面,当前高比例资本开支会压低短期利润率,更加强调短期投入与长期盈利的平衡博弈。

  • 谷歌:投入持续大幅上升,且占比达到了165%。一方面由于自身云业务收入体量小,另一方面除了云业务上需求外,其资本开支也用于TPU芯片研发建设、Gemini模型训练以及自身业务AI需求。

  • Oracle:此前以传统数据库业务为主,借助AI持续云服务转型,资本支出增长源于云数据中心的大规模建设以及对客户上云的支持。

  • 腾讯:投入比例波动极大,一方面由于自身云业务收入体量小,另外大起大落反映其云业务投入节奏、战略布局存在阶段性调整。


当前海外科技厂商已将约100%的净利润、60%以上的经营性现金流进行资本开支投入。过去三年,海外科技厂商的资本开支呈现持续提升趋势,且目前各家资本开支增速指引依然显著高于业务收入/利润增速,考虑到海外科技厂商(典型如微软、META等)通常还会有约30%净利润进行分红回购,因此未来各家现金流与利润将会对资本开支的持续投入形成一定制约。如我们测算按照META当前投资趋势,26年折旧摊销将同比今年增加约150亿美金(同比+80%),或导致明年净利润与今年净利润(加回159亿美元一次性非现金所得税费用)持平。

国内云厂中阿里闪购业务的补贴成本与云基建资本开支形成叠加压力。阿里同时推进“电商闪购业务”和“AI 云基建”的双线投入,计划未来三年投入3800亿元用于云计算和AI基础设施。相较而言,腾讯仍然采取投资与回报平衡策略,2024年“股息+回购”超1340亿元(是资本开支的近两倍)。百度由于主业利润压力投资偏谨慎。


在经营性现金流(净利润)约束下,我们同时看到为了维持高资本开支增长需求下的AI基础设施金融化操作以及加大融资租赁举动:

  • 2025年10月META通过与Blue Owl合资体发行270亿美元债务:用于Hyperion超级数据中心建设,通过特殊目的实体(SPV)架构实现表外运作——Meta仅持有项目20%股权,债务不计入自身资产负债表。

  • 微软持续大幅提升融资租赁占比:微软25Q3融资租赁达111亿美元,占同期资本开支(349亿美元)的31.8%,指引后续持续提升。

    • 优点:融资租赁基本为长期资产投资,资产生命周期长达15年以上,从净利润角度较长的折旧年限减少了当期折旧金额。另外,通过分期支付租金的方式减轻短期现金流压力,租金中本金部分计入“投资活动现金流”、利息部分计入“经营活动现金流”。

    • 缺点:管理层多次提到“融资租赁交付时间存在不确定性”。



海外云厂利润率:规模效应与折摊均提升,微软云OPM率先企稳:

  • 微软云:FY26Q1(25Q3)智能云营业利润率43%(同比-1pcts、环比+2pcts)。对比其他海外云厂、微软Capex加速最早最快,也率先迎来收获期。云具备典型的资本前置与规模效应,尽管仍有算力容量限制、但需求强预计可维持高增速,后续利润杠杆有望进一步释放。FY26Q2智能云收入指引同比+25%-26%,其中Azure指引+37%cc、维持高增速。

  • AWS亚马逊云:25Q3 OPM 35%(同比-3pcts、环比+2pcts)。波动的核心短期因素是AI相关资产投入带来的折旧影响。自研AI芯片 Trainium2已为几十亿美元业务,25Q3收入环比+150%,且相较于其他GPU具备30%-40%的价格性能优势。

  • 谷歌云:25Q3 OPM提升至24%(同比+7pcts、环比+3pcts)。受益于强劲的收入增长和持续的成本效率提升,核心产品和人工智能产品方面的增速远高于云业务的整体收入增长。未完成订单达155亿美元(同比+ 82%),新客户数量同比+34%。


国内云厂利润率:近期利润率持平,长期AI业务毛利率更高:

  • 近几年互联网云厂利润率持续提升,经调整OPM/EBITA口径约9%。互联网云厂商都在逐渐从“创收”向“盈利”方向上转变,主动放弃非良性项目,提升自身被集成比例,舍弃低利润业务。阿里云近4年来营业利润率已经改善了近18个百分点。24Q3,阿里财报披露阿里云经调整EBITA为9%。

  • AI GPU租赁与API调用业务平均毛利率高于传统IaaS,但短期AI相关折旧与研发运营成本提升可能带来一定压力。尽管大模型定价/毛利率水平不高,但整体上调用量会大幅提升,云厂商通过配套的高利润PaaS产品组合将整体合同利润提升,比如:知识数据库插件、联网搜索插件等。


海外云厂商资本开支与收入变化复盘:

复盘过去10年的云计算市场,传统云扩张投资约持续四年、且投入到收入兑现约一年时间差。但此次AI投资杠杆更高、供需错配度更高、建设周期更长、芯片迭代速度更快、商业模式亦有所变化,导致收入兑现节奏更慢(如微软云投资增速顶点到Azure最高增速至少1.5年),中性预期下此次AI投资可能会持续五到六年扩张周期。


复盘微软云过去两年发展过程,估值变化与资本开支和云收入显著相关。

  • 一阶段:估值与资本开支增速正相关。前期高投入阶段,资本开支加速推动估值(PE)上升,加大云基础设施、配合云收入增速的稳定性,市场会强化“投入→未来增长加速”的预期,估值上升、进而放大股价涨幅。后期投入放缓阶,资本开支增速下降带来估值调整,短期可能引发需求不足的担忧,导致估值阶段性调整、股价波动。

  • 二阶段:资本开支兑现成业绩,云收入加速成为估值核心驱动,将进一步抬升估值。证明云业务已进入“投入效率释放期”(收入段增速跑赢投入端、回报率提升、规模效应显现),为估值与股价的后续回升奠定基础。

  • 当前我们认为国产云厂商以阿里云亦处于资本开支积极以及云业务加速推动估值继续上升阶段。


云厂商

SCENIC SPOT

算力规模与建设计划

英伟达客户贡献数据中心收入占比与海外科技厂商算力保有量测算:

英伟达26FYQ2业绩会表示:2025年全球数据中心基础设施投入预计6000亿美元(两年内翻倍),2030年前有望达到3-4万亿美元。增长驱动来自于推理型AI(agenticAI)需求激增、全球主权AI与企业AI建设、物理AI(机器人/自动驾驶)兴起。

云服务提供商(CSP)约50%:25FYQ4(截至2025年1月)英伟达业绩会表示云服务商约贡献了50%的数据中心收入,包括 AWS、Azure、Google Cloud、CoreWeave、Oracle等大型云服务商。其需求主要来自于AI 基础设施建设,包括大模型训练、推理等需求。

消费互联网公司约20%:(如 Meta、字节跳动、其他社交媒体和互联网平台)约贡献了数据中心收入的20%-25%,且增速显著。25FYQ4英伟达业绩会表示消费互联网领域营收同比增长3倍,包括推荐系统、视觉语言理解、合成数据生成搜索、多模态内容处理和代理AI等。

政府与主权AI约10%:潜力巨大的新市场,2025年预计入占比数据中心收入的10%。英伟达26FYQ2业绩会(截至2025年7月)表示主权AI从2024年初的零收入到2025年主权AI收入目标200亿美元(较2024年翻倍)。全球多国正积极建设本土AI能力,为保障数据安全、技术自主性及 AI产业主导权。

企业客户与AI初创公司约20%:企业客户(如SAP、ServiceNow)与初创AI公司贡献了数据中心的剩余主要收入。企业端主要用于模型微调和代理 AI工作流,以适配垂直领域需求(如医疗影像诊断、工业质检)。优化数据库查询、数据分析等任务,提升效率。初创AI

公司后续预计成为快速增长点,NVIDIA 计划投资OpenAI 高达1000亿美元换取OpenAI将部署至少10 吉瓦的 NVIDIA 系统。

海内外科技厂商关于资本开支与算力容量的相关表述:


微软算力规模测算:过去两年新增超2GW,未来两年总规模翻倍:

FY26Q1业绩会指引FY26的资本支出增速将高于FY25(Capex 882亿美元、yoy+58%),FY26Q2资本开支将环比增加。

公司计划本年度(25Q3-26Q2)将AI总容量提升超 80%,未来两年内将数据中心总规模扩大约一倍。预计明年中旬AI数据中心容量将扩大至6.3GW,未来两年数据中心总容量将达10GW。已部署全球首个 NVIDIA GB300大规模集群,威斯康星州 Fairwater AI 数据中心(明年上线、规模2吉瓦)将成全球最强AI数据中心。


微软AI资本开支:十年规划、每年在AI基建投资超800亿美元:

25年初微软总裁BradSmith在官方博客中宣布,微软计划在2025财年(截至2025年6月30)投入约800亿美元用于AI数据中心建设(2025财年实际资本支出达882亿美元),其中超过一半将用于美国本土的数据中心建设。预计AI资本开支占比25财年总资本开支的90%。

“微软每年在AI基建上的固定投资超过800亿美元,这是"十年规划的系统性布局"而非临时投入”。微软CEO萨蒂亚・纳德拉在2025年10月9日西雅图创新峰会的发言表示,微软全球数据中心总功耗已达5GW。AI基础设施不是短跑而是马拉松。当别人还在画图纸时,微软已经让算力在全球流动了。


微软资本开支分配:短期资产(芯片)与长期资产(IDC与租赁)各一半:FY26Q1业绩会表示AI算力将优先供给内部AI应用,其中短期资产占比AI资本开支的一半。Azure算力需求再次超过现有产能,即便加速扩容,仍需按优先级分配算力,优先内部AICopilot等应用增长与内部研发。

2025年10月28日,OpenAI承诺在未来多年内向微软Azure云服务采购约2500亿美元的服务。OpenAI获得权益:微软不再拥有作为OpenAI计算服务提供商的"优先提供权",OpenAI获准与第三方开展部分产品合作(API类产品仍由Azure独家承载),架构上完成向"公共利益公司"(PBC)的转型,为未来IPO铺平道路;

微软获得权益:新增2500亿美元Azure服务签约,微软的收入分成、OpenAI API 独家授权(Azure 专属)将延续至2030年(每年能数十亿美元利润),模型与产品IP延长至2032年。微软CEO表示微软对OpenAI投资已获约10倍回报。

谷歌资本投入方向、算力规模测算:

投入规模:2025年全年Capex预计超900亿美元,自大模型发展以来,2023到2025三年累计投入超1700亿美元,展望2026年继续大幅增加。

结构方面:24Q3财报会表述,AI支出为130亿美元,其中主要用于搭建技术基础设施,其中60%是服务器(GPU/TPU服务器),40%是数据中心建设(厂房建安、冷却、电气设备配套等)和网络连接设备支出。而TPU和GPU内部结构方面,预计此前TPU和GPU投入金额、算力规模整体量级接近,后续随着TPU技术、性能和生态成熟度持续提升,预计2026年TPU投入和算力规模将超越GPU。


谷歌算力主要使用场景:

算力使用方向:用于谷歌内外部所有场景和客户,其中TPU自用更多,GPU租外部更多,预计采购TPU约70%供谷歌自用、30%租赁给第三方,而采购GPU则约30%自用、70%用于租赁,具体看:

① 谷歌内部模型训练:开发Gemini大模型新版本,目前Gemini使用TPU训练,最新模型性能居于第一梯队

② 谷歌内部应用推理:AI赋能谷歌原有产品能力,包括部署搜索算法优化与AI搜索功能、广告推荐系统改造、 Youtube、Workspace、地图、安卓生态等,提升用户体验、交互效率,同时2025Q3 Gemini独立应用产品也拥有MAU6.5亿,查询量环比增长2倍,视频Veo3增长迅速(生成超2.3亿个视频),今年以来tokens消耗增长迅速。

③ 谷歌云GCP:当前云业务高增长,盈利持续改善,后续或支持Anthropic等大模型客户TPU大规模推训。


亚马逊算力规模测算:目标2027年实现算力翻倍。本轮大模型发展以来,2023到2025三年累计AWS投入超1700亿美元。25Q3业绩会表示过去12个月AWS新增3.8吉瓦电力(供电能力并非AI数据中心算力功耗),第四季度预计再增1吉瓦以上,且新增算力正被快速投入产生收益,未出现明显的产能闲置;同时,AWS目标2027年底实现算力翻倍,持续扩大的算力规模将摊薄固定成本,提升运营效率。

投入规模:(根据财报披露各业务PPE结构测算)

  • 2023年:总Capex 481亿美元,AWS Capex预计占50%以上,约250亿美元(剩余部分主要投向电商物流);

  • 2024年:总Capex 777亿美元,AWS Capex预计占60%以上,约500亿美元;

  • 2025年:前三季度Capex 899亿美元,全年Capex预计约1250亿美元, AWS Capex预计1000亿美元左右;

亚马逊资本开支投入方向:自研AI芯片具备30%-40%的价格性能优势。AWS Capex除了传统CPU内存采购外(近年每年预计约200亿美元),主要用于NVDA芯片采购、自研ASIC芯片(Trainium/Inferentia系列)以及数据中心土建配套等,此前公司大幅押注自研芯片,但实际性能低于预期,同时NV卡采购偏少、数据中心重新调整,造成有效算力扩容偏慢,云业务增长落后竞争对手,AWS的收入和Capex本季度重新开始加速;

用途上,目前自用训练和推理较少,主要用于AWS云服务租赁,以及支持投资公司anthropic推理训练;自研AI芯片Trainium2已发展为几十亿美元业务,相较于其他GPU选项具备30%-40%的价格性能优势。25Q3业绩会公司表示自研AI芯片Trainium2 25Q3收入环比+150%,随着Trainium3(计划2025年底预览、2026年初量产)的推出与客户覆盖扩大,将进一步降低AWS AI服务的单位成本。

META 算力规模测算:23年底META表示24年底计划购买35万片英伟达H100,加上其他GPU约等效60万H100 GPU的计算能力。测算2025年底META约拥有250万H100 GPU等效计算能力。

2023年:数据中心建设成本约100亿美元,占当年Capex约35%;

2024年:数据中心建设成本约230亿美元,占当年Capex约60%;

表外融资项目:META与Blue Owl Capital于25年10宣布成立合资公司,共同开发Hyperion数据中心项目。META将与合资公司签订运营租赁协议、租期4年、可延期。总投资约270亿美元,Blue Owl现金出资约70亿美元,其他通过发行私募债券筹集剩余资金。Blue Owl持有合资公司80%股权,Meta保留20%股权并负责数据中心的建设和运营管理。

META Capex变化与业务分配:AI推荐与GenAI为主要投入环节。AI推荐系统(Al content ranking ) 累计投入Capex约600亿美元。

2025Q2财报会:目前算力完全聚焦内部需求,如支持内容推荐、模型训练以及未来AI 应用推理需求。核心AI(广告)领域回报强劲,可量化且测量体系成熟。

 从商业化角度来看,AI在五大领域广告、内容体验、商业消息传递(whatsApp)、Meta AI(搜索聊天助手)、AI设备(AI眼镜)均有巨大商业化潜力,核心AI(广告)领域回报强劲,GenAI商业化先追求规模(覆盖数十亿用户)和产品质量,需数年再盈利。

通用人工智能计算(GenAl) 累计投入Capex约430亿美元。 2025Q2财报会:生成式AI处于早期,今明两年不会成为重要收入来源,但中长期来看均有巨大商业化潜力。

X.AI算力规模测算和主要用途:X.AI融资情况:2023年以来有报道融资预计超过200亿美元,且仍在募资,包含初期股权融资约140亿美元, 2024年底股权融资约60亿美元,2025年7月股债组合融资约100亿美元,10月以来传闻进行新一轮200美元级股债组合融资

融资投入方向:主要用于算力集群建设和电力设施收购。X.AI 算力集群建设以 “超高速迭代、规模化部署、垂直整合电力” 为核心特征,核心项目包括Colossus I与Colossus II,主要聚焦 GPU 规模扩张 + 电力设施自建,目标2025年实现30万GB200芯片集群(此目标下仅GPU芯片所需资金就接近100亿美元)

用途:目前Grok在C端和B端应用用户规模目前较小,2025全年营收预计仅几亿美元,GPU集群主要用于训练,目前使用10万卡级别集群训练Grok系列,最新Grok4 性能比肩openAI处于第一梯队。

国内云厂商算力规模:加大国产算力采购与大集群建设。

云服务商通过自研AI芯片建立从底层硬件到上层应用的全链条自主技术体系。自研芯片华为云以“鲲鹏+昇腾”生态为核心,昇腾系列芯片是其全栈自主的AI芯片产品;阿里平头哥推出含光800自研的AI推理芯片;腾讯投资如燧原科技等AI芯片初创公司,也推出紫霄AI推理芯片并成功流片。

国内云厂商在芯片采购商正逐步提升国产算力占比,并与国产芯片供应商紧密合作,云服务商加大投资大型智算集群建设。如海光DCU系列GPU与阿里云异构计算平台兼容,应用于大数据分析和AI训练场景。


阿里资本开支变化与分配结构:

阿里巴巴于2025年2月24日正式宣布,未来三年将投入至少3800亿元人民币用于AI和云计算基础设施建设。

规模超前:超过阿里过去十年在云和AI基础设施上的投入总和(约3260亿元);

战略核心:CEO吴泳铭称AI是"一代人一次的机会",AGI(人工通用智能)是公司主要长期目标;

营收驱动:云业务成为阿里AI领域最清晰的收入驱动,收入连续四季度加速增长,AI相关收入已连续六个季度实现三位数增长;

测算目前阿里资本开支80%以上用于AI数据中心建设,包括AI服务器、数据中心基础设施及连接等其他业务板块。后续AI GPU采购将显著提升国产芯片与自研卡采购比例。

阿里云全球数据中心能耗十年提升十倍。到2032年,阿里云全球数据中心的能耗规模将比2022年(GenAI元年)提升10倍,以支撑超级人工智能(ASI)时代的算力需求。阿里巴巴集团CEO吴泳铭于2025年9月24日在云栖大会上正式宣布。

根据测算,阿里云能耗预计从2022年的1.5GW至2032年的15GW、十年总资本开支规模累计约1.5万亿元。


字节资本开支变化与分配结构:

字节跳动AI资本开支呈现爆发式增长,2024年投入约800多亿元,2025年总资本开支预计将达1800亿元(同比增长100%+)。相比其他云厂商,字节资本开支具备以下特点:

资本开支金额:投入量级遥遥领先,25年规模已接近百度、阿里、腾讯三家AI资本开支总和;

资本开支分配:字节资本开支基本用于AI数据中心建设,其中AI算力采购与IDC 基建约各占50%;

数据中心分布:相比国内云厂商,字节有较多海外业务,其海外数据中心建设投入金额超过国内;

芯片采购策略:国内采购与国产芯片厂商有较好的合作关系(如寒武纪、华为昇腾等),海外采购则主要通过 "算力飞地"(马来西亚、泰国等) 获取高端GPU(如Blackwell系列),同时与Oracle有一定算力租赁合作,与博通开展ASIC自研芯片开发。


云厂商

SCENIC SPOT

自研芯片布局与进展


自研ASIC进入密集量产落地期:

ASIC发展:此前英伟达供应不足,同时部分计算任务场景固定化,主要云、模型企业对芯片供应链自主可控和降本诉求强烈,普遍布局自研ASIC,此前投入研发的ASIC产品预计明后年进入将密集落地期。具体管线看,已较成熟的谷歌TPU将推出TPU v7代,而Meta、AWS推出下一代芯片,OpenAI落地首款博通合作芯片,微软等也有望后续推出自研芯片。此外老牌AI芯片厂商AMD也将推出新一代MI400系列。

NV卡和ASIC格局:目前英伟达软硬件生态、性能功耗领先较大,依旧主导,从实际算力角度预计当前占据80%以上份额,尤其是在训练场景。ASIC等其他玩家持续迭代跟进,TPU在谷歌内部已能实现复杂训练和推理,综合性能接近NVDA,近期斩获Anthropic大单,其他ASIC仍处于迭代和适配阶段,预计先替换部分公司内部固定计算业务推理需求。

海外大厂自研ASIC芯片开发合作情况:

ASIC自研芯片开发的核心环节有哪些?

  • 需求方:主要云厂/模型厂,项目的最终出资方和需求方,负责根据自身计算需求定义和设计核心单元架构,协调整体项目

  • 协作设计/流片:博通等IC厂,负责IC设计配套、IP提供、物理实现、性能优化以及与台积电实现流片封装量产

  • 软件开发生态:云厂为主,负责开发适配ASIC的软件栈,确保芯片性能释放,TPU为谷歌开发XLA,Meta芯片需适配 PyTorch Ø 机柜/AIDC方案:CLS等,负责芯片在数据中心部署(如机柜电力分配、散热设计、网络互联),实现芯片集群化、规模化应用

各家ASIC合作与技术路线的选择侧重、进展如何?

  • 谷歌:长期与博通合作,TPU围绕深度学习需求开发,已到第6代,软硬件全栈进展领先,目前TPU训推性能内部使用评价已接近NVDA,并开始逐步外供(比如通过GCP外供以及近期anthropic单独采购),明年新一代V7部分芯片或引入联发科合作;

  • Meta:入局较晚,选择与已有TPU成功经验的博通合作,将推出MTIA 3,短期产品预计以内部使用为主,替代部分社交网络推荐算法需求;

  • 亚马逊:自研能力较强,入局较早,此前与技术较弱但溢价较低的Marvell/AIchip合作,但本轮AI发展对芯片性能和集群要求显著提升,AWS AI云份额丢失,关注后续Trainium3以及与自研芯片Anthropic需求适配情况;

  • OpenAI:同样入局较晚选择博通,旨在替代部分英伟达推理和混合训练需求,此前已与博通公告10GW合作项目,关注年末回片测试情况;

  • 其他:此外微软、XAI、苹果等公司均有官宣或报道与博通等公司合作开发ASIC自研芯片,预计目前进度略慢于上文公司,关注后续进展;

谷歌TPU发展历程与进展:针对深度学习和自身业务需求,持续迭代。

ASIC(谷歌TPU为主)使用场景与英伟达GPU场景的区别:

  • 谷歌TPU:设计目标针对AI任务(尤其是深度学习训推场景),硬件架构(如脉动阵列、专用矩阵乘法单元)和软件系统(XLA)均针对神经网络优化,几乎不支持非AI场景(如图形渲染、科学计算)。

  • 英伟达GPU:偏通用并行计算,支持AI任务,也兼容科学计算、图形渲染、密码学等多场景,硬件(CUDA Core+Tensor Core)和软件(CUDA)兼顾灵活性与性能。

英伟达与谷歌TPU对比:性价比、能效比、综合生态对比

  • 性价比:GB200和TPU v6e为目前业内最领先芯片,且均强调其推理性价比出色,我们认为两者性价比基本可比。从理论值测算看,单位算力所需资金投入(TOPS/美元)Blackwell与TPU v6e接近;实际业务效果看,TPU可针对谷歌业务需求做针对性和全栈优化,谷歌内部对TPU v6e评价积极,从GCP实时租赁价格看,v6e亦可与Blackwell性价比可比。

  • 能效比:本代产品NVDA仍有优势。单位算力所需能耗(TOPS/W)理论指标看,Blackwell一定程度领先TPU v6e,而后续Rubin方案进一步强化推理性能,在目前北美电力缺口明显、各家云厂在手电力额度有限的背景下,NVDA功耗优势有望成为销售亮点。

  • 生态对比:两者都完成全栈技术积累,但英伟达生态更完善,而TPU还处于从谷歌自用逐步转向行业外部阶段。两者在芯片设计、机柜组网方案、软件开发生态、大模型训练和应用推理方面均已完成技术积累,但英伟达面向全行业、生态完善,而TPU此前主要为谷歌内部,随着Anthropic等其他客户下单逐步完善生态和技术。


国产主流芯片性能对比:



云厂商

SCENIC SPOT

AI云收入和ROI预测


海外云厂商AI云收入占比:

  • 微软云: 25Q2业绩会披露Azure年收入超过750亿美元,本季度未披露AI贡献Azure占比,上季度AI贡献Azure的16个点。2025 财年全年,Azure及其他云服务收入超过750亿美元,同比增长34%。25Q2披露M365 Copilot已有超1亿月活用户。

  • AWS (Amazon): 25Q2业绩会表示AI相关收入继续保持三位数增速,25Q1 AI的年化收入达到数十亿美元。AWS目前仍处于供应不足。原因最大的是电力限制,另外芯片和组件数量不足、芯片交付节奏延迟、服务器良率不达预期等。

  • Google Cloud :24Q4业绩会表示云AI基础设施和Gen AI解决方案年化数十亿美元的收入。AI基础设施主要是Vertex AI全托管式AI开发平台与定制化TPU芯片相关业务,为企业提供从模型训练到推理的全链路服务;而Gen AI解决方案则是以大模型为核心,包括Gemini、文生图Imagen和文生视频Veo等大模型调用的API和解决方案。


国内云厂商AI云收入占比:

  • 从AI云结构来看:GPU租赁是AI云收入主要来源,其次是配套的PaaS(数据库、插件等)与SaaS(代码助手、聊天助手等)服务,MaaS占比较小。但25Q3季度我们观察到MAAS层显著增长、GPU租赁端利润率小幅弱化。 这种变化本质反应的是AI从训练转向推理需求为主,模型性能迭代到相当的智能化水平、从而推动下游AI应用开始跑通放量,因此不管是MAAS付费客户数量还是整体调用量都增长快速。其中字节调用量与增速遥遥领先,阿里云调用量次之,然后是百度。阿里云主要因客群结构差异,后者中大型客户较多、落地与放量周期更长。

  • 从AI云利润率来看:GPU租赁毛利率高于国内传统IaaS服务,而MAAS即使不考虑训练成本、整体综合毛利也较低。除了模型层本身差距不明显外,各家更多把MaaS服务定位成AI生态的引流/获客产品,并提供较多的免费用量。根据不同的模型模态、版本以及工程优化效率,MaaS毛利率也有较大区别。


微软AI云业务投资与回报 ROI测算:

前期高折旧摊销压力下AI云OPM低于当前智能云OPM水平(25Q3为43%),现金流端ROI小于1,后伴随着AI云规模增长与算力成本下降、利润率提升,2030年现金流贡献转正。资本回报端持续提升,2030年ROIC可达到17%,即六年可收回投资周期。


谷歌AI云业务投资与回报 ROI测算:

目前AI云OPM略低于当前谷歌云OPM水平(25Q3为26%),现金流端ROI小于1,后伴随着AI云规模增长与算力成本下降、利润率提升,2030年现金流贡献转正。资本回报端持续提升,2030年ROIC可达到17%,即六年可收回投资周期。


阿里AI云业务投资与回报 ROI测算:

测算近两年AI云OPM与阿里云OPM水平相近,现金流端ROI小于1,后伴随着AI云规模增长、利润率提升,2030年现金流贡献转正。资本回报端持续提升,2030年ROIC可达到11%,即10年可收回投资周期。


海内外云厂估值与市值占比,海外云业务估值:

① 微软一般为PE估值,彭博一致预期2025年31x PE、11xPS。云业务增速更高、利润率与总业务持平,给予更高估值约40xPE,约14xPS。

② 亚马逊通常采用EV/EBITDA估值或PE估值,一致预期下2025年28xPE,分布估值法下给AWS 25年25xPE、约8xPS。

③ 谷歌云一般采用一般为PE估值,彭博一致预期2025年24x PE。其中云业务增速为广告的三倍,25年OPM提升至21%、利润低率约为广告的1/2,给与10x PS;


AI芯片

SCENIC SPOT

主要厂商RoadMap






参考链接:1.https://www.ulapia.com/reports/industry_research/haineiwaiyunchangshangfazhanyuxianzhuang-er-aitouru-suanlijiansheshuliyuroicesuan

【声明】内容源于网络
0
0
Lucas聊出海
跨境分享台 | 长期更新实用资讯
内容 0
粉丝 6
Lucas聊出海 跨境分享台 | 长期更新实用资讯
总阅读0
粉丝6
内容0