如果你还坚持计算机系统研究是一门关于操作系统、数据库和网络的“古典艺术”,那么SOSP'25 可能会彻底颠覆你的认知。今年的AI风刮得异常猛烈,现在的系统研究只有一个大热点——人工智能(AI)。
13个Session里,几乎有三分之一(LLM Training, LLM Inference, Managing GPUs, ML and FPGA)都把AI/ML直接“贴在脸上”。从底层硬件到上层应用,AI的“引力”无处不在,重塑一切。
66篇顶会论文中揭示计算机系统研究的四大前沿热点,我们重点看看AI如何成为这场技术变革的绝对核心!
AI/LLM 是本次 SOSP'25 的绝对C位。研究者们像打造一艘星际战舰一样,从引擎(硬件)、船体(操作系统)到导航系统(应用框架),进行了一场端到端的全栈式革新。
1. 训练(Training):追求“万卡集群”的稳如泰山
“万卡”训练场景,如何让这支庞大的“舰队”高效、可靠地运行,成了工业界的头号难题。
- 工业界巨头秀肌肉:字节跳动的论文(Robust LLM Training Infrastructure)就展示了他们在万卡级别集群上的实战经验,堪称一部“大规模分布式训练避坑指南”。
- 自动化与新策略:面对五花八门的硬件(异构)和不稳定的网络(动态),Sailor 实现了训练任务的自动化调度。而 DCP 则为“长上下文”这个耗费显存的怪兽,设计了全新的并行策略。
- 要快,更要对:跑得快还不够,算得对才行。Mycroft 像一个侦探,追踪分布式训练中的通信依赖,帮你快速定位问题。TrainVerify 则更进一步,用形式化验证的“数学放大镜”,确保你的训练逻辑从一开始就是对的。
2. 推理(Inference):把每一分钱都花在刀刃上
如果说训练是“十年磨一剑”,那推理就是“一剑惊天下”。如何让LLM服务飞速响应、吞吐量爆表,同时成本还低得惊人?SOSP'25 的研究者们几乎把LLM推理的每个环节都“卷”出了新高度。
- KV Cache的“空间魔法”:LLM推理时,KV Cache就像它短暂的“工作记忆”,是性能瓶颈的重灾区。IC-Cache 通过巧妙的上下文缓存,DiffKV 则用差异化内存管理,都在想方设法为这块“记忆”瘦身提速。
- Prefill vs. Decoding,分而治之:LLM生成回复分为“读懂问题 (Prefill)” 和“逐字回答(Decoding)”两个阶段。PrefillOnly 独辟蹊径,专门为Prefill阶段设计了一个推理引擎,堪称“专科医生”,极致优化特定场景。
- 榨干每一滴算力:Jenga 和 KTransformers 教你如何优雅地利用CPU/GPU等异构资源,让超大模型也能流畅运行。而 Characterizing Mobile SoC 则把目光投向了我们口袋里的手机,探索端侧LLM的无限可能。
3. GPU 管理:给“算力心脏”装上智慧大脑
GPU是AI时代的“发动机”,但如何管理成千上万个“发动机”?这需要全新的操作系统级智慧。
- GPU也需要“云”:Aegaeon 致力于GPU池化,让GPU资源像云盘一样可以被多个用户共享,告别资源浪费和碎片化。
- 为GPU定制专属OS:LithOS石破天惊,直接为GPU设计了一个专用操作系统,让机器学习效率飙升。PhoenixOS 则实现了OS级别的GPU“存档/读档”(Checkpoint/Restore)功能,让GPU从故障中秒级恢复。
- 打通数据通路:GoFS 赋予GPU直接访问存储(Direct Storage Access)的超能力,绕开CPU,数据传输快如闪电。
4. 新兴AI应用:为RAG等“当红炸子鸡”铺路
系统研究的嗅觉总是最灵敏的。当前最火的LLM应用是什么?检索增强生成(RAG)!METIS 和 HedraRAG 两篇论文不约而同地聚焦于优化RAG系统,展示了系统研究如何为下一代AI应用构建坚实地基。
热点二:下一代数据中心——硬件搭台,软件唱戏
- CXL“池化”继续:CXL (Compute Express Link) 绝对是本届会议的“顶流”。它就像一条超级高速公路,连接了CPU、内存和各种设备。Oasis 利用CXL把昂贵的PCIe设备(如网卡、SSD)做成一个共享资源池,谁需要就给谁用,极大提升利用率。Spirit 和 Scalable Far Memory 则深入探讨了基于CXL的远程内存(Far Memory)如何实现公平和容错。
- DPU卸载进行到底:RDMA和智能网卡(SmartNICs)持续发力。Tai Chi 为云中的SmartNICs设计了高效的通用调度框架,让网络数据处理不再是CPU的负担。
热点三:操作系统现代化——经典理论的“文艺复兴”
你以为OS内核已经几十年不变了?新硬件和新应用正在倒逼这个最核心的软件层进行一场深刻的自我革命。
- OS的新物种:除了前面提到的GPU操作系统 LithOS,还有为低成本物联网设备设计的安全OS CHERIoT RTOS,以及在单地址空间OS中实现 fork 的μFork。OS正在变得越来越“专”。
- eBPF的崛起:eBPF技术允许你在不修改内核代码的情况下,安全地向内核“注入”新功能。cache_ext 就利用eBPF来定制Linux的页面缓存策略,这代表了内核“可编程化”的巨大趋势。
热点四:可靠性与安全——为复杂系统打造“金钟罩”
系统越复杂,就越脆弱。如何让庞大的云服务和AI集群在面对软硬件故障时依然稳如磐石?
- 用AI“魔法”打败“魔法”:一篇名为 KNighter 的论文脑洞大开,它利用LLM来自动合成静态代码分析器,去寻找软件中的Bug。氛围编程,效率惊人!
- 形式化验证的回潮:面对日益复杂的系统,单纯的测试已不足以保证正确性。Atmosphere 和 TickTock 等工作重新请回了“数学”大神,使用形式化方法来严格证明系统的正确性和隔离性,为我们的数字世界提供最坚实的保障。
划重点:AI系统研究的六大主流趋势
全栈协同成为共识:优化不再是单点突破,而是从算法、编译器、操作系统到硬件的全链路协同作战。性能瓶颈在哪里,研究者的手术刀就伸向哪里。
GPU的“逆袭”:从外设到系统核心,GPU不再是CPU的一个“小跟班”。为它设计专属OS (LithOS)、赋予它直接访问存储的能力 (GoFS),标志着GPU正式“升格”为与CPU平起平坐的系统核心处理器。
推理优化“卷”入深水区:推理系统的研究已经精细到了“像素级”。从宏观的GPU池化 (Aegaeon) 到微观的KV Cache算法 (DiffKV),再到特定阶段的引擎设计 (PrefillOnly),目标只有一个:在保证体验的同时,把成本降到极致。这正是上次章明星老师讲到的“价值工程”。
异构计算成为常态,管理复杂性是关键:未来的AI计算环境必然是“混合舰队”。如何自动、高效地在不同代际的GPU、CPU、AI加速器之间差异化地调度任务 (Sailor, Jenga),是决定胜负的关键。
可靠性与可验证性被推上“C位”:随着系统规模膨胀,故障成为常态。因此,如何构建鲁棒的基础设施 (ByteDance的论文)、如何从故障中快速恢复 (PhoenixOS),甚至如何用数学证明其正确性 (TrainVerify),正成为新的研究前沿。
系统研究紧跟AI应用前沿(如RAG):系统社区不仅在优化“今天”的AI模型,更在为“明天”的AI应用铺路。对RAG系统的专门优化 (METIS, HedraRAG) 表明,系统正在成为驱动AI应用创新的底层引擎。
结语
SOSP'25 一如既往地引领着计算机系统研究的未来:AI不再仅仅是系统需要支持的一种工作负载,它已经成为定义未来计算机系统形态的核心力量。
这场由AI驱动的系统革命,波澜壮阔,激动人心。虽然已经火了几年,但超级周期才刚刚开始。传统的系统研究者要克服研究方向扩展转型的阵痛,构建覆盖算法、软件和硬件的全方位视野,才能跟上这场技术浪潮,不被拍在沙滩上。
欢迎在评论区留言,一起探讨技术的未来!
喜欢这篇文章?点个“在看”,转发给更多同行吧!👍

