新智元报道
新智元报道
【新智元导读】香港中文大学提出全新语义分割后处理算法框架RankSEG,无需重新训练模型,仅需在推理阶段增加三行代码,即可显著提升Dice、IoU等核心指标。该方法已获NeurIPS 2025接收,并开源Python工具包。
语义分割任务中,主流做法是在推理阶段对概率图应用threshold或argmax生成预测掩码。但该范式并非最优——其优化目标是像素级准确率,而实际评估关注的是整体重合度(如Dice、IoU),二者存在本质偏差。
香港中文大学最新研究证实:传统threshold/argmax方法在分割性能上具有理论次优性,并提出RankSEG算法框架。该方法不改动模型结构与训练流程,仅通过推理阶段的后处理优化,即可显著提升分割精度。
相关成果包括已被NeurIPS 2025接收的高效算法、发表于JMLR的核心理论论文,并已开源配套Python工具包rankseg,支持无缝集成至现有分割流程。
NeurIPS论文:https://openreview.net/forum?id=4tRMm1JJhw
JMLR论文:https://www.jmlr.org/papers/v24/22-0712.html
代码仓库:https://github.com/rankseg/rankseg
从业者可直接阅读首节文档,快速完成RankSEG在现有流程中的部署。
开源软件包
研究人员提供了易用的RankSEG类,初始化时可指定优化目标(如metric='dice'或'iou')。调用predict()方法输入模型输出的概率图,即可获得优化后的预测结果。
集成方式极为简洁:仅需将原有代码中的probs.argmax(dim=1)替换为rankseg.predict(probs),无需调整模型或训练流程。
from rankseg import RankSEG
# 1. 初始化RankSEG(以Dice为优化目标)
rankseg = RankSEG(metric='dice')
# 2. 获取模型概率输出(batch_size, num_classes, *image_shape)
probs = model(images).softmax(dim=1)
# 3. 替换原有argmax,获取优化预测
preds = rankseg.predict(probs)
对比实验显示:使用同一训练模型,仅改变推理策略,RankSEG在多个复杂场景下表现更优——成功识别桌面小物体、分割被遮挡人脸、还原完整肿瘤区域。尤其在小目标检测与遮挡处理方面,优势明显。
Demo体验:https://huggingface.co/spaces/statmlben/rankseg
QuickStart(Colab):https://colab.research.google.com/drive/1c2znXP7_yt_9MrE75p-Ag82LHz-WfKq-?usp=sharing
官方文档:https://rankseg.readthedocs.io/en/latest/index.html
传统threshold/argmax的局限性
当前主流分割流程依赖逐像素分类:先估计每个像素属于各类别的概率,再用threshold或argmax生成最终掩码。该方式以像素准确率为优化目标,与Dice/IoU等全局指标并不一致。
理论分析表明,threshold/argmax是次优策略。例如在双像素简化场景中,即便某像素预测概率低于0.5,为最大化Dice分数,仍应将其判为前景——逐像素最优解未必导向全局最优分割结果。
图中右侧计算过程显示:传统方法所得Dice分数非最大值;而将第二像素也判为前景,可提升整体Dice表现。这直观揭示了传统策略在全局指标优化上的根本缺陷。
核心理论:RankSEG
RankSEG定理指出:为获得Dice最优预测,只需按像素概率排序,选取前k个作为前景——即满足“排序性质(Ranking Property)”。该性质严格证明了:若像素j的概率高于j′,则将j判为前景对Dice期望的提升更大,由此得名RankSEG。
定理进一步导出自适应阈值规则:对每张图像,根据其概率分布动态选择最优分割体积k,从而得到对应阈值。该阈值不再固定为0.5,而是随图像内容变化,实现更精准的前景判定。
尽管理论最优,但精确计算Dice期望开销巨大(涉及泊松二项分布倒数期望)。此外,在多类别单标签场景中,“无重叠”约束使全局优化更为复杂。为此,研究团队提出高效近似方案RankSEG-RMA。
倒数矩近似(RMA)
RankSEG计算瓶颈在于每个候选掩码需独立计算Dice期望,尤其是含倒数项的期望值。针对高维图像(像素数d极大)特性,研究者提出两项关键近似:
- 利用大数假设,用整体和近似去除单像素后的和,消除对像素索引j的依赖;
- 用“期望的倒数”近似“倒数的期望”,大幅降低计算量。
该倒数矩近似(Reciprocal Moment Approximation, RMA)使复杂度降至O(d log d),且误差可控。所有中间量(如前缀和)可预计算并复用,显著提升推理效率。
多类别分割
在多类别单标签分割中,每个像素只能归属一个类别,直接应用RankSEG需解决复杂匹配问题。为此,RankSEG-RMA采用四步近似策略:
- 独立二值分割:对每个类别单独运行RankSEG-RMA,生成binary mask;
- 去重叠:保留各mask无交集区域,暂未分配像素;
- 计算增益:对未分配像素j,评估其加入各类别c后对Dice期望的提升值Δj→c;
- 贪心分配:为每个未分配像素选择增益最大的类别。
该策略仅在重叠区域启用argmax机制,主体预测仍由RankSEG决定;且增益值Δj→c直接关联Dice优化目标,优于单纯概率最大化的传统做法。
实验结果
研究团队在PASCAL VOC、Cityscapes、LiTS、KiTS等多个主流数据集及多种SOTA模型(如DeepLabV3、SegFormer)上验证RankSEG效果,结果具有一致性与鲁棒性。
核心发现如下:
- 性能显著提升:RankSEG系列方法在Dice/IoU指标上稳定超越传统argmax,尤其在小目标、边界模糊、遮挡场景下优势突出;
- 高效近似无损:RankSEG-RMA在精度上几乎与原始RankSEG-BA持平,但推理速度提升数十倍;
- 开销可控:相比模型前向耗时,RankSEG-RMA引入的额外计算成本极低;而RankSEG-BA耗时接近模型前向本身,实用性受限;
- 公平可比:所有对比基于同一训练模型,RankSEG作为纯后处理模块,规避了训练随机性干扰,结果更具说服力。

