摘要
RDMA(远程直接内存访问)技术在提升跨数据中心服务性能方面展现出巨大潜力。然而,在广域网上部署RDMA会引发严重的拥塞控制不公平性问题,这主要源于跨数据中心流与数据中心内部流之间不对称的拥塞反馈延迟。其结果是,数据中心内部流往往需要承担全部拥塞响应负担,导致流完成时间急剧增加。
本文识别了两种关键的不公平类型——近源端不公平与近目的端不公平,其区分依据在于拥塞发生在跨数据中心流的发送端还是接收端附近。基于此发现,我们提出了THEMIS,一种针对长距离RDMA网络的公平性维护补丁方案。为缓解近源端不公平,THEMIS设计了主动通知点以缩短单个数据中心内的拥塞反馈回路;为改善近目的端不公平,THEMIS引入临时响应点,使目标跨数据中心流暂时降速直至发送端收到对应拥塞反馈。
我们实现了THEMIS的开源原型,并在真实测试平台与大规模仿真环境中进行评估。相较于DCQCN、Annulus和BiCC方案,THEMIS将数据中心内部流的完成时间分别降低达79.2%、63.6%与55.6%,整体流完成时间则分别减少达61.2%、31.9%与59.5%。

实验平台
基于可编程交换机的通用性和强大的可编程能力,研究团队在可编程交换机上实现了Themis的原型,并将代码开源。

通过Tofino可编程交换机真机实验和基于NS-3模拟器的大规模仿真,研究团队证明了Themis的有效性和可部署性。实验结果表明,与发表在CCF-A类高水平会议上的解决方案相比,Themis 可使数据中心内部流的流完成时间降低最高 79.2%,使整体网络流完成时间降低最高 61.2%。
Themis 有效解决了长距RDMA中拥塞控制导致的不公平问题,提升了网络吞吐量和稳定性,展现了良好的可部署性和性能优势。
相关文档交流移步汗牛充栋知识星球。
相关阅读:
P4可编程SDN交换机
P4教程 P4应用 P4论文
Tofino1 | Tifino 2 |国产P4交换机


