过去十多年,AI 在图像识别、面部识别、姿态估计等领域迅速发展,广泛应用于自动驾驶、智能监控、社交媒体滤镜等场景。然而,许多视觉 AI 模型在多样性方面存在明显不足,持续传递偏见,影响模型的公平性与准确性。
为解决这一问题,索尼 AI 推出公平的以人为本图像基准 FHIBE(Fair Human-centric Image Benchmark),可用于评估姿态估计、人员分割、人脸检测与验证、视觉问答等计算机视觉任务的公平性。相关研究成果以《Fair human-centric image dataset for ethical AI benchmarking》为题发表于《Nature》。
论文链接:https://www.nature.com/articles/s41586-025-09716-2
设计中的考量
传统视觉数据集多依赖网络爬虫或未经授权采集,普遍存在以下问题:
- 缺乏数据主体同意与授权
- 人口与地理多样性不足
- 缺少结构化标签(如肤色、发色、年龄、性别认同等)
- 忽视现实复杂因素(如拍摄环境、设备、背景、姿态、遮挡等)
这些问题不仅违背伦理,也导致模型性能不稳定,难以系统检测和纠正偏差。尤其在视觉问答、姿态估计等任务中,缺乏大规模公开基准数据集,加剧了偏见风险。
FHIBE 数据集基于 1,711 名主要受试者,共包含 10,318 张图像,涵盖 1,981 个独特个体,每人平均六张图像。所有图像均配备自我报告的姿态与互动标注,覆盖多样身体动作、头部姿态及人体外观特征。
图示:FHIBE 图像提供关于主体、工具和环境的详细标注。
此外,FHIBE 还衍生出两个带完整标注的人脸数据集。作为首个专为 AI 公平性评估构建的数据集,FHIBE 建立在明确授权基础上,具备更强的实用性与诊断能力。其详尽且由个体自报的人口统计信息,支持在多重交叉属性下分析模型表现,显著提升偏差识别精度。
评估与发现
FHIBE 的多样化标注体系支持对模型在多种人口统计属性及其交叉维度上的系统性公平性评估。
研究团队对多个主流模型在姿态估计、人脸检测等任务中进行测试,发现模型在不同敏感属性组合下的表现差异显著。例如,在年龄与肤色交叉维度上,年轻且浅肤色个体更易被准确识别,而年长且深肤色群体则表现较差。
图示:CLIP 在 FHIBE 上表现出明显的预测偏见。
部分模型还暴露出“意外偏差来源”,如面部识别模型对“低光照 + 远距离 + 面部遮挡 + 特定发型或胡须”的组合极为敏感,这类复合条件在传统数据集中罕见,长期未被有效测试。
不同观测数据集训练的模型常呈现冲突的偏倚趋势。除肤色、发色外,动作姿态的变化也会引发偏差。这些发现凸显了识别并缓解模型错误来源的重要性。
针对 CLIP 与 BLIP-2 两个模型的对比显示:CLIP 更倾向将主体默认为男性,对非刻板印象场景偏见更重;BLIP-2 则更倾向女性默认,并在面对负面提示时表现出更强的性别与肤色偏见。利用 FHIBE 可更高效地揭示此类未记录偏差,推动偏见缓解策略落地。
让 AI 看清世界
FHIBE 标志着 AI 向更负责任方向发展的关键一步,首次将长期倡导的伦理原则转化为实际数据实践,为未来合规、公平的数据集建设树立新标准。
构建以人为本的数据集面临诸多挑战,包括参与者成本、协商流程与合理报酬机制。尽管高质量数据采集成本高昂,但不应成为停滞的理由。
通过整合全面、共识驱动的图像与标注资源,FHIBE 旨在建立可信赖的基准体系,助力计算机视觉社区有效检测与修正模型偏见,推动更具包容性与可信度的 AI 系统发展。

