在 ISO/IEC TR 24027:2021《信息技术 人工智能 人工智能系统和人工智能辅助决策中的偏差》标准中,“数据代表性”(Representativeness)被视为消除数据偏见、确保 AI 系统公平性的第一道防线。
虽然在公开的摘要中并不容易直接看到其全貌,但通过追溯该标准的术语体系及其后续相关标准(如 ISO/IEC TS 12791:2024),我们可以清晰地还原出该标准对“数据代表性”的严谨界定和系统性要求。
以下是 ISO/IEC TR 24027 关于“数据代表性”的三个核心维度:
1. 核心定义:统计特性的近似程度
在标准的术语定义部分,“代表性”被明确地定义为一个定性评估(Qualitative Assessment)指标。
根据该标准(通过后续引用确认),代表性的核心含义是:
“给定数据集的属性逼近目标总体(Target Population)统计属性的程度。”
标准特别补充了三点关键说明:
可量化性:代表性可以通过使用一个或多个人们关于数据规模、分布或组成的指标来进行量化(Quantified)。
对测试集的意义:具有代表性的测试数据,能够验证 AI 系统是否为目标人群实现了可接受的功能正确性水平。
对训练集的意义:具有代表性的训练数据,能够使模型学习到普适的规律,从而在目标人群中实现可接受的功能正确性水平。
2. 偏见防控:警惕“选择偏差”与“覆盖偏差”
在论述数据层面的偏见(Data Bias)时,ISO/IEC TR 24027 明确指出,数据代表性不足是导致严重 AI 偏差的根源。标准特别点名了两种由代表性缺失直接引发的数据偏见:
选择偏差(Selection Bias):当数据集的样本收集方式不能代表其在现实世界中的真实分布时就会发生。例如,只在晴朗天气下采集数据的自动驾驶系统,遇到雨雪天气就会失灵。
覆盖偏差(Coverage Bias):当数据集中所包含的总体,与目标机器学习模型所要预测的总体不匹配时就会出现。例如,用人均收入较高的城市居民数据去训练一个面向全国范围的信用评估模型。
标准强调,如果在数据收集阶段(Clause 8.2)不严格把控代表性,这种底层的数据扭曲将无法在后续的算法优化中被轻易修复,最终导致 AI 系统对特定群体(At-risk groups)产生系统性歧视。
3. 工程实践:如何保障和评估代表性?
在全生命周期的治理策略中(Clause 8),ISO/IEC TR 24027 给出了确保数据代表性的实操方向:
数据采集阶段:不能依赖“方便样本(Convenience Samples)”(即哪里容易拿到数据就采集哪里的数据)。必须根据目标人群的 demographics(人口统计学特征)进行科学的分层抽样,确保少数群体和边缘群体的声音不被淹没。
静态分析阶段(验证与确认):在模型训练前,必须对训练数据进行静态分析(Static Analysis)。这包括检查不同子群(Subgroups)在数据中的比例是否与真实世界一致,从而评估其代表性是否达标。
外部有效性测试(External Validity Testing):模型不仅在实验室里表现要好,还必须通过外部测试来验证其在不同时间、不同地域、不同人群中的表现是否具有一致的代表性泛化能力。
💡 总结与启示
在 ISO/IEC TR 24027 的语境下,“数据代表性”绝不仅是“数据够不够多”的问题,而是“数据像不像真实世界”的问题。
对于企业而言,这意味着在做 AI 项目立项时,不能只盯着核心业务指标(KPI),必须把“目标人群的分布画像”作为基线,去严格审视手中的训练数据和测试数据。只有底座的数据具备了真正的“代表性”,上层建筑的人工智能才有可能达成最终的“公平性(Fairness)”。

