ISO/IEC TR 24027:2021如何描述AI系统中的“数据质量”- 大数跨境

CK共享实验室

2026-05-14

导读：ISO/IEC TR 24027:2021 并没有像 ISO 8000 或 ISO/IEC 5259 那样，开

ISO/IEC TR 24027:2021 并没有像 ISO 8000 或 ISO/IEC 5259 那样，开辟独立章节去穷尽“数据质量”的通用定义。

在这份专注于“AI偏见”的技术报告中，“数据质量”是被当作“数据偏见（Data Bias）”的最佳培养皿来探讨的。 标准隐含的逻辑是：低下的数据质量会直接催生算法偏见，进而摧毁AI系统的公平性。

透过 TR 24027 的条文框架（特别是第6章“偏见的来源”和第8章“缓解策略”），我们可以清晰地提炼出该标准对“数据质量”在偏见治理维度上的四大核心关切：

这是 TR 24027 着墨最多、最核心的数据质量诉求。

标准怎么看：标准警告，如果数据在收集时存在便利偏向（Convenience Bias）或覆盖不全，导致某些群体（如特定种族、地域或弱势群体）在数据中缺席或占比极低，数据的“代表性质量”就不达标。
导致的偏见：这会引发选择偏差（Selection Bias）和覆盖偏差（Coverage Bias）。比如用人均高收入社区的数据训练出的安防AI，在低收入社区就会频频失灵。
质量要求：数据必须像一个精密缩小的微观世界，准确映射目标总体的真实人口统计学特征（Demographics）分布。

在监督学习盛行的今天，带有标签的数据才是“好”数据。TR 24027 深刻意识到了这一点。

标准怎么看：数据不仅要是完整的（没有大量的缺失值），其标签和注释（Annotations）本身必须是客观、一致的。如果数据标注员存在主观偏好，或者不同标注员对同一事物的判断天差地别，那么数据的“内在质量”就已坏死。
导致的偏见：这会直接催生标注偏见（Label Bias）。例如，在图像识别中，如果标注员习惯性地将西装革履的人标记为“高管”，而将穿工装的人标记为“普通员工”，模型就会学到这种职业与穿着的刻板印象。
质量要求：必须建立严格的标注指南（Annotation Guidelines）和一致性检验机制（Inter-rater Reliability），确保标签反映的是客观事实，而非标注员的个人偏见。

大语言模型（LLM）时代让我们深刻理解了“垃圾进，垃圾出”的道理，但 TR 24027 早在2021年就预见了数据冗余的危害。

标准怎么看：如果训练数据中存在大量的重复样本，或者相互矛盾的样本（例如同一个人脸图片被打了两个不同的标签），数据的“逻辑一致性”就遭到了破坏。
导致的偏见：重复的多数类样本会放大模型对主流群体的偏好（种群偏见 / Population Bias），而矛盾的样本则会让模型在学习时产生混乱，导致在不同时期的表现极不稳定。
质量要求：数据必须经过严格的去重（Deduplication）和异常值检测（Outlier Detection）清洗，确保传递给模型的信息是纯净且一致的。

AI 系统往往面临着严峻的现实世界考验，数据质量也是会随时间衰减的。

标准怎么看：TR 24027 在全生命周期管理中提到，数据必须反映当前的现实。如果社会观念、法律法规或市场环境已经发生了变化，而AI系统还在用五年前的旧数据做决策，这就属于数据“时效性质量”的缺失。
导致的偏见：这会引发历史偏见（Historical Bias）的固化。例如，用过去十年男性医生占多数时的医疗数据去训练现在的AI分诊系统，可能会导致系统潜意识里低估女性医生的诊断能力。
质量要求：必须建立数据漂移（Data Drift）监测机制，定期用新鲜、符合当下社会语境的数据对模型进行重新校准（Re-calibration）或增量训练。

读完 ISO/IEC TR 24027，你会发现它传达的一个强烈信号是：不要脱离“公平性（Fairness）”去空谈数据质量。

在项目实操中，建议在数据质检环节增加一个 “偏见审计关卡（Bias Audit Gate）”：

切片分析（Slice-based Analysis）：不要只看整体的准确率（Accuracy），要把数据按性别、年龄、种族等敏感属性切片，检查各子群体的数据量占比和错误率是否均衡。
溯源检查：记录数据的来源渠道，确保没有过度依赖单一的、可能存在固有偏见的数据库。

总而言之，在 ISO/IEC TR 24027 的语境下，高质量的数据不仅是“干净的”，更应该是“多元、包容、客观”的。 只有把好这道质量关，才能在 AI 生命周期的最前端，掐断偏见的代际传递。

【声明】内容源于网络

CK共享实验室

服务3000万中小制造商企业，提供更多的国家标准及欧盟标准、美标等先进技术文章，共同学习，共同进步。建设DT科研共享实验室平台，助力科技创新成果的转化。整合更多社会闲散资源，创造更有价值的信息服务平台。

内容 1453

粉丝 0

CK共享实验室服务3000万中小制造商企业，提供更多的国家标准及欧盟标准、美标等先进技术文章，共同学习，共同进步。建设DT科研共享实验室平台，助力科技创新成果的转化。整合更多社会闲散资源，创造更有价值的信息服务平台。

总阅读3.5k

粉丝0

内容1.5k