这几天看到诺基亚加入SONiC Foundation的消息,映入我脑瓜子的是“这这家百年老厂怎么突然加入SONiC了,自家的RCP和RCP baremeta平台不要了?”还是说CentOS 8之后不维护、Debian系统等无法满足了?不过这事确实值得细看,因为它不是表面上那句“加入开源组织”那么简单。

根据SONiC社区的消息称,这次诺基亚以SONiC社区的Premier Member的身份加入社区,这或许是诺基亚公司从技术到战略再到生态,全都发生了变化,拥抱SONiC生态扩展诺记设备在云原生生态的战略地位。
先说个容易被忽视的细节。官方新闻里提到诺基亚从2019年起就排进SONiC全球前五贡献者。这里面有具体内容的,不是挂个名那种,比如机箱架构的实现,多ASIC分布式设计,SAI相关的大量接口贡献,还有ARM架构的适配和小体量优化。每一项都是在真实数据中心环境里折腾出来的。尤其是多ASIC和机箱,这种不是随便写点代码就能跑起来的活,里面牵涉到链路调度、容错、同步、控制面一致性,还有海量压力场景测试,不少社区项目都避着走。诺基亚敢往社区丢这类东西,是因为这些功能在我们内部产品线里本来就长期跑在高流量场景中,已经被很多运营级网络验证过。
据说SONiC基金会这次还特别点名Mirza Arifovic进入Governing Board,他是诺基亚的R&D负责人之一,这个动作等于把工程思维放进了社区最高决策层。外人可能不太清楚这个位置的含金量,因为这个委员会才是整个SONiC走什么路线、优先什么功能、资源怎么分配的中心。Mirza进去意味着以后社区在大规模网络、AI网络、硬件协同、测试标准这些方向上都会更工程化,少点纸上谈兵,多点真实落地。
说真话,现在整个行业里最缺的不是想法,而是能把想法变成能跑、能部署、能在全球规模环境里稳定跑的数据中心网络。诺基亚这几年在硬件上的积累又正好补了SONiC的短板,所以这两边一拍,社区几乎是立刻获利。Linux 开源基金会的官方表态里有一句我特别认同,原话是“Nokia has played a critical role in advancing SONiC from its early days to today’s AI-scale deployments”。意思很直接,从早年探索到现在AI规模网络普及,诺基亚一步步把硬件、软件、自动化经验塞进了社区。
大家要相信,我这并不是吹诺基亚的技术能力非常牛叉,而是客观公正的评论,比如AI相关的数据中心结构强烈依赖超大带宽,前两年大多数数据中心单节点流量已经逼近传统交换架构的极限边缘,多ASIC的好处就凸显出来了,可以通过水平扩展和板卡并行方式在同一机箱里扛起远超单芯片的吞吐量。但是这个方案的问题是多ASIC架构的协同难度指数级增长,调度、对齐、缓存、一致性,没有大量工程经验是做不稳的。SONiC社区之前只能在仿真环境或者小规模场景做验证,真正的大规模版本都是贡献厂商自己内部做。这次诺基亚把完整的多ASIC机箱架构贡献出来,等于帮社区拔了一个过去几年一直卡着的门槛。
更有意思的是SONiC的SAI模块,它是SONiC与ASIC之间的“翻译器”,用来屏蔽不同厂商的硬件API差异,让不同厂家芯片都能被统一方式调用。实际情况大家都懂,接口规范是一回事,如何跑顺、跑满、跑稳是另外一回事,诺基亚在SAI贡献上的强度,社区有公开排名,可以查到。从开发代码到接口补丁,再到兼容性验证,全都持续多年推进,只要芯片厂商的接口更新只要一动,诺基亚这边通常第一时间跟进,确保上游不会“断层”。这件事不光让诺基亚自己的设备受益,也让其它SONiC厂商跟着得利。
再说ARM架构的CPU,很多人以为数据中心里面都是x86,因为x86比较早普及DPDK技术,虽然说ARM也支持DPDK技术。其实这几年轻量交换机、边缘节点、节能场景、甚至部分控制面节点上,ARM份额一直在涨。诺基亚很早就推进了ARM enablement,把控制面和部分工具链的适配合并进上游,这件事现在看简直像提前布局,因为他们提前预测了AI规模网络正好需要不同功耗与尺寸档位的交换设备,而不是所有设备都堆旗舰处理器。
这些贡献放在内部产品线里有什么效果呢。最直接的就是研发效率提升了。以前如果是自研NOS,要兼顾硬件调试、软件功能验证、协议栈一致性、性能测试、回归测试、自动化等等,每一个环节都要自己砸研发资源搞OS。现在把SONiC作为上游,把SAI标准接口作为中间层,研发周期一下子缩短不少,尤其是现在哪怕是传统的电信客户都开始往云原生方向走,需要更快的功能迭代,不可能等一年一个大版本。因为SONiC社区的活跃度反而给我们提供了一个持续更新的节奏。
从客户角度看,这件事带来的变化也不小。很多大厂现在都不愿意被某一家NOS牢牢绑定。越是云规模和AI规模的场景,对系统的控制欲越强,都希望在硬件不变的情况下换不同的软件栈,把流量调度策略、节点管理、监控系统全都按照自己业务方式定制。诺基亚过去在硬件性能上是强项,但在NOS市场上,闭源系统的灵活度很难与云厂商对接,而诺基亚现在加入SONiC并成为Premier,意味着以后客户想在诺基亚硬件上跑社区版本、增强版版本、定制版版本都更容易,不用在兼容性上折磨半年。官方新闻里提到社区里已有的Premier成员,包括阿里巴巴、Arista、Broadcom、Cisco、Dell、Google、Intel、Marvell、Microsoft、Nvidia,这份名单本身就说明SONiC已经成了大规模网络的主流共识,而诺基亚进入这个圈层之后,在市场认知上的位势会自然发生改变。
还有个行业里不太公开,但大家都心照不宣的事。现在大模型训练集群正在疯狂扩大规模,一台机柜都顶过去十个机柜的流量压力,而且拓扑也在变,传统的闭源系统很难满足客户那种频繁定制网络调度算法的需求。云厂商要是改个ECMP算法或者加个内部调度策略,闭源NOS根本来不及跟进或者需要专线支持。SONiC的开放架构刚好给了他们一个解套方式,开发周期完全可以缩短到几周。诺基亚如果不进入这个生态,未来会慢慢失去面向AI和超大规模场景的硬件话语权。所以这次加入说是主动战略,不如说是技术现实推着我们往前走。
这么讲可能有人担心诺基亚是不是以后不做自己的NOS了?我想真实情况远没有那么简单虽然说开源的优点是灵活、生态广、开发速度快,但要在全国甚至全球规模下做到电信级的运营能力,没有一家厂商敢光靠社区,因为开源的东西在可靠性、升级窗口、SLA、长期支持、兼容性验证,这些全都需要厂商提供商业版或增强版支持。所以诺基亚加入SONiC不是放弃自研自己的RCP平台部门,而是把上游当作基线,底下继续做增强,包括自动化工具、管理平台、编排系统、优化后的驱动链路等,不再重复发明轮子,而是在现有NOS的基础上,做强自己的业务特性。
我特别喜欢新闻里的一句话,来自诺基亚IP Networks的副总裁Rudy Hoebeke,他说这次加入能让诺基亚把开放协作速度和高性能硬件结合在一起,推进下一代云和AI基础设施。这里面其实藏了一个行业节奏变化。十年前大家拼硬件规格。五年前开始拼自动化。现在是硬件、自动化、开源生态三件事一起拼。企业想要的不是一个盒子,而是整个运维体系要跑得顺、跑得快、跑得稳,对这一点看得越早,越能占住未来的位置。
所以说SONiC基金会也好,Linux Foundation也好,他们都在强调一个趋势:未来网络要更开放、更可组合、更易于自动化。而他们邀请诺基亚以Premier Member的身份加入,想必是基于诺基亚在IP固网和移动网络方面的雄厚技术积累,希望借助诺基亚的研发能力和生态体系,将SONiC的生态扩展到欧美发达国家的运营商市场领域,然后欧美芯片厂商、云厂商、系统厂商、硬件厂商之间的协同将会更快。有了诺基亚的加持,或许未来SONiC的新方向,比如AI训练流量优化、高密度链路调度、可编程管线等,诺基亚主导或深度参与的话语权将不断加大。
写到这让我突然想到一句很现实的话。开源不是慈善,开源是未来技术共建的最低门槛,谁参与得早、贡献得深、话语权大,谁就能影响整个行业的轨迹。诺基亚在SONiC上的积累已经做了六年,现在把身份升级到了Premier,这意味着未来十几年里,云、AI、电信这些领域里,只要SONiC继续做规模网络的核心引擎,诺基亚就能把硬件、软件、自动化方面的话语权全部焊接进去。
我们希望诺基亚这次技术栈对齐SONiC之后,能在生态和自身产品线积累推向新的高度,问鼎IP固网和移动网络方向的大宝。
参考链接:
https://sonicfoundation.dev/nokia-joins-sonic-foundation-as-premier-member-strengthening-open-networking-innovation-for-ai-scale-infrastructure/
全文完,感谢阅读,如果喜欢请三连。
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!

