大数跨境
0
0

GMI Cloud:出海是 AI 企业释放产能、获取新生的最佳途径 | WISE 2025演讲精华

GMI Cloud:出海是 AI 企业释放产能、获取新生的最佳途径 | WISE 2025演讲精华 GMI Cloud
2025-12-11
6
导读:主题为《AI 应用的出海效能升级·算力破局与推理架构进化》的演讲实录


NEWS

摘要

11 月 27-28 日,GMI Cloud 工程 VP 钱宇靖在 36 氪举办的 WISE 2025 商业之王大会中进行主题演讲。下文是分享内容的整理。


AI 应用出海的核心挑战是,模型推理服务的及时性、扩展性以及稳定性。


11 月 27-28 日,被誉为“年度科技与商业风向标”的 36 氪 WISE2025 商业之王大会,在北京 798 艺术区传导空间落地。


此次大会上,GMI Cloud 工程 VP 钱宇靖做了主题为《AI 应用的出海效能升级·算力破局与推理架构进化》的演讲。


钱宇靖认为,对于世界用户来说,AI 应用多元化发展已经到了一个“武装到牙齿缝”的状态,出海成为了中国公司释放产能、获取新生的最佳途径。而在当前,中国的 AI 出海正在经历着一场范式的革新——从过去的单向技术输出,到围绕算力全球化、需求的全球化、价值的全球化转型。这背后,正是一场隐秘的全球价值共振。



以下为演讲实录:


大家下午好!我叫宇靖,我是 GMI Cloud 的 VP of Engineering,主要分管的是所有工程类的项目。今天给大家带来的分享是 AI 应用的出海效能升级,以及如何算力破局、完成推理框架的进化,给 AI 应用出海带来更大的效能。


GMI Cloud 还是一家比较新的公司,所以我在这里花一点时间给大家做一些简单的介绍。


我们是一家专注于出海 AI infra 的公司,我们是 NVIDIA 首批六大 Reference Cloud Partner 之一,主要 focus 的项目就是我们的 AI 硬件以及往上的推理架构。


现在整个 GMI Cloud 有三大产品线——最底层的计算硬件、集群管理、MaaS 层的推理服务。从三个不同维度给各种 AI 企业客户提供他们所需要的能力。


我们在全球多地(东亚、南亚、北美、欧洲、加拿大)建有自有机房,同时我们刚刚耗资 5 亿美金,在亚洲和英伟达一起建了一座 GB300 万卡集群的 AI Factory。


在中国,我们主要面向 AI 出海的企业用户,关注出海,帮助大家做好出海。


那我们进入正题,除了业务模式需要,GMI Cloud 在 2025 年关注到了哪些出海趋势?


在今年这个当口,有的人会觉得 AI 有很大的泡沫,有的人又会信仰 AI,认为 AI 应用接下来会有指数级的增长。从一个算力提供商或者是服务提供商的角度而言,我们所能看到的趋势是,AI 的市场的确是在一个 exponential growth 的形式往上增长。


虽然不同的企业、不同的分析师对于 2025 年下半年或者 2026 年的市场,有着不同的分析,但是整体的方向依然是一个向上走的方向。我们可以看到的是,今年中国海外 AI 应用的月活用户依然是在不断攀升的。


全球用户,尤其是北美,他们对于主动拥抱 AI 这件事情已经养成了习惯,大家对于 AI 的应用的使用已经到了一个“武装到牙齿缝”的状态,90%以上的美国知识工作者已经非常熟练的在使用 AI 工具。


大家都知道,国内的付费软件实际上是一个高同质化、高获客成本的事情,也就是说在国内做 SaaS 门槛非常高。


但在中东以及拉丁美洲,有一个比较吃惊的数据,AI 的应用也已经到了一个比较高的水位了,也就是说,出海市场我们的用户教育,其实基本上已经完成了,这给我们出海带来了一个极大的需求水位差。所以出海是释放产能、获取新生的最佳途径。



当然,很多国内的企业也已经看到这个趋势,在过去的两年中,有很多的国内企业已经在进行 AI 服务出海,随之而来的就是 AI 推理需求的指数型暴涨,这个是我们作为算力提供商能够清晰感知到的一件事。


我们总结了一下,在 AI 出海的过程中,会遇到以下几个关于推理相关的核心挑战,比如服务的及时性、扩展性以及稳定性。


我们知道 AI 产品的一个趋势是,泼天的富贵是突然到来的,很多时候,对于 AI 出海企业来讲,你没办法以传统软件的角度去对它进行常规扩容,毕竟所有的 Token 都是需要 GPU 的,尤其是全球性扩容,这是一个比较大的挑战。



此外,另外一个挑战是,整个 AI 技术栈的技术迭代实在是太快了。从今年 1 月份到今年 5 月份,由于多节点系统推理爆发,Token 价格实际上从一个比较高的水位,直接打到了一个地板价。


对于企业而言,它往往需要用自己的资源去做这件事情,所以他们也会有一个苦恼是,企业要如何跟得上现在的技术发展?


我们作为提供商,看到了这些需求和挑战。GMI Cloud 在今年做了什么事情呢?


首先作为一个算力服务商,我们当然是要建好自己的机房,现在我们在跟 NVIDIA 去做一个叫做 AI Factory 的项目,这个项目是黄仁勋 4 月份的时候给大家透露出来的,会利用最新的 GB200、GB300 这样的大型的机器,极大增加集群吞吐量。


我们是亚洲区域为数不多最先进行 AI factory 的 NCP 之一,而且是万卡集群的规模。



然后就是继续迭代我们的集群引擎和推理引擎。分别是中间层和上一层。这两个引擎目标的客户群也是不一样的——我们的集群引擎,它面对的客户是有一定工程技术能力、想要做一些比较复杂应用的客户;上层的推理引擎,是对一些更加轻量级,完全注重于终端应用的一些企业客户而设计的。



我们的集群引擎(Cluster Engine),实际上跟传统云是非常类似的,只不过作为 AI 的原生云,它更 focus 在 GPU 本身的算力。


我们的集群引擎是一个标准的 IaaS 层,基本上覆盖了底层的硬件、中间的裸金属,再往上是集群管理,并且我们会覆盖非常非常多的可监控性的一些插件,给大家提供一个比较熟悉的过程。


很多出海企业可能会习惯用一些海外大云,比如 GCP、AWS,这些云关于 GPU workload 的一些功能,我们同样会去支持。我们会有一个特殊化的 IB 组网技术,使得客户能够选择他自己想要的集群尺寸来进行训练。


另外,现在很多客户会有私有的集群,在这个过程中,往往会遇到扩容的问题,这个问题也会被我们的 Cluster Engine 所完美的解决,因为我们已经接入了一个多云的架构。客户可以在他自己的资源以及传统的大云的资源之间进行切换,来完成他的峰值扩缩容的需求。



再讲一下我们的推理引擎(Inference Engine)。推理引擎是一个更加简单的产品项目,也就是前段时间大家所讲的比较火的一个概念叫做 Serverless。


我们的推理引擎集成了全球头部的大模型,无论是开源还是闭源,在我们平台上都有得到支持,你只需要一个 API 就可以访问全球最新、最强的所有模型。


另外,我们的 GMI Cloud 推理引擎支持跨集群、跨地区的自动扩缩容。为什么要做这件事呢?这也是跟出海需求强相关的事。我们发现很多客户去训练了一套自己的模型,当他上线了以后就会发现,他的流量在峰值的时候接不住。其次,当不同地区的用户上线了以后,也会由于他集群地址一开始的选择,影响他的整个产品体验。


所以 Inference Engine2.0 的这个版本就是专门为这种场景所设计的,我们可以帮客户去解决跨地区和跨集群自动扩缩容的问题。


具体怎么做的呢?我们其实做了一个三层设计的架构,调度全球的资源。基本上所有的 Engine 的 Workload 可以被分为两种调度方式,一种是 queue based,第二种是 load balancing based。


queue based 主要适用于现在比较火的一些像视频类或者语音类的模型;load balancing based 主要适用于大家比较熟知的一些大语言模型,我们会根据不同的 Workload,来选择它的调度方式。


比如,一个 Workload 对于延时是不是足够敏感?还是说成本更加敏感?对于不同的选项,我们会调度到不同的大区,在不同的大区再把工作流进行分发,达到一个终端的 GPU 上面。



简而言之,我们的推理引擎的核心架构有五个核心的特征:


1、全球化的部署,你只需要用我们一个平台就可以解决全球化服务的部署。


2、我们帮你解决了二级调度架构的问题,当然这个跟全球部署也是息息相关的。


3、弹性。所有出海的模型公司、应用公司遇到最大的问题是弹性伸缩,因为企业刚开始的流量都具有波峰波谷的性质,它一开始目标的客户人群以及客户地区总是有限的,所以弹性是一个刚需。


4、高可用设计,我们可以保证客户的 Workload 可以在任何时刻都可以被访问。


5、所有 Workload 的统一管理。


以上五个特性是我们根据我们所看到的客户需求而提供的五大特性。


跟刚才的集群引擎一样,GMI Cloud Inference Engine 也支持混合云。无论你是自己想要自建集群,还是用 GMI Cloud 自己的集群,或者是在一些公有云上已经有了 Credit,或者是已经有了一些 Workload,都可以通过我们平台做统一的纳管。你不太需要担心资源的碎片化以及利用率,这在我们的顶层调度中已经被考虑到了。


在这边,我也打一个小小的广告。如果你有需求,需要 host 你自己的模型进行出海的话,可以试一试我们的推理引擎 2.0 的产品,叫做 Dedicated Endpoint,也就是一个独站式的节点。


你可以尝试使用一下这个产品,尝试一下想要把节点布到哪些集群、哪些地区上,以及你可以根据需求选择便宜的节点或者更便捷的节点。


另外,给大家一个小小的预告,我们即将上线一个名为“GMI Studio”的产品,一个全新打造的创作体验产品。


这个产品力,我们将原本偏模型管理以及部署的控制台,升级为一个面向创业者、用户群的产品。通过 GMI Studio,用户无需本地环境,也不需要搭建一个复杂的推理框架,就能够在云端以“拖拽”的方式,自由组合出最新的 AI 模型以及它的应用。



最后,让我们来畅想一下 2026 年吧。


2026 年的 AI 出海范式升级,是一个从旧范式——(也就是)单向的技术输出,到新范式——(也就是)全球价值共振的过程。


随着 AI 出海浪潮愈演愈热, AI 全球化正式升维,跳出 “技术单向输出” 的浅层认知,指向全球 AI 产业从 “资源割裂” 到 “价值循环” 的底层变革。它不再是 AI 应用的地理性扩张,而是算力、技术、需求在全球范围内形成的 “双向赋能生态”。


算力层,全球资源余缺互补,优质算力加速模型优化;应用层,Token 从单纯的 API 调用计量,演进为算力结算与生态激励的复合价值载体。全球 AI 创新共生,模型、应用、场景、算力正在形成新的价值正循环。



关于 GMI Cloud

由 Google X 的 AI 专家与硅谷精英共同参与创立的 GMI Cloud 是一家领先的 AI Native Cloud 服务商,是全球六大 Reference Platform NVIDIA Cloud Partner 之一,拥有遍布全球的数据中心,为企业 AI 应用提供最新、最优的 GPU 云服务,为全球新创公司、研究机构和大型企业提供稳定安全、高效经济的 AI 云服务解决方案。


GMI Cloud 凭借高稳定性的技术架构、强大的GPU供应链以及令人瞩目的 GPU 产品阵容(如能够精准平衡 AI 成本与效率的 H200、具有卓越性能的 GB200、GB300 以及未来所有全新上线的高性能芯片),确保企业客户在高度数据安全与计算效能的基础上,高效低本地完成 AI 落地。此外,通过自研“Cluster Engine”、“Inference Engine”两大平台,完成从算力原子化供给到业务级智算服务的全栈跃迁,全力构建下一代智能算力基座。


作为推动通用人工智能(AGI)未来发展的重要力量,GMI Cloud 持续在 AI 基础设施领域引领创新。选择 GMI Cloud,您不仅是选择了先进的 GPU 云服务,更是选择了一个全方位的 AI 基础设施合作伙伴。


如果您想要了解有关 GMI Cloud 的信息

请关注我们并建立联系


【声明】内容源于网络
0
0
GMI Cloud
全球智算,就选GMI Cloud
内容 96
粉丝 0
GMI Cloud 全球智算,就选GMI Cloud
总阅读31
粉丝0
内容96