

OpenAI 希望与组织合作构建新的 AI 训练数据集

近日点AI

2023-11-13

导读：用于训练 AI 模型的数据集存在严重缺陷，这是一个公开的秘密。图像语料库往往以美国和西方为中心，部分原因是在

用于训练 AI 模型的数据集存在严重缺陷，这是一个公开的秘密。

图像语料库往往以美国和西方为中心，部分原因是在编译数据集时，西方图像在互联网上占主导地位。正如艾伦人工智能研究所最近的一项研究所强调的那样，用于训练大型语言模型（如 Meta 的 Llama 2）的数据包含有毒的语言和偏见。

模型以有害的方式放大了这些缺陷。现在，OpenAI表示，它希望通过与外部机构合作来创建新的、希望得到改进的数据集来对抗它们。

OpenAI 宣布了数据合作伙伴关系，旨在与第三方组织合作，为 AI 模型训练构建公共和私有数据集。在一篇博客文章中，OpenAI表示，数据合作伙伴关系旨在“使更多的组织能够帮助引导人工智能的未来”，并“从更有用的模型中受益”。

OpenAI写道：“为了最终使AI对全人类安全有益，我们希望AI模型能够深入了解所有主题、行业、文化和语言，这需要尽可能广泛的训练数据集。“包括你的内容可以增加人工智能模型对你的领域的理解，从而对你更有帮助。”

作为数据合作伙伴计划的一部分，OpenAI表示，它将收集“反映人类社会”的“大规模”数据集，这些数据集目前不容易在网上获得。虽然该公司计划采用各种形式进行工作，包括图像、音频和视频，但它特别寻求跨越不同语言、主题和格式“表达人类意图”（例如长篇写作或对话）的数据。

OpenAI表示，它将在必要时与组织合作，将训练数据数字化，结合使用光学字符识别和自动语音识别工具，并在必要时删除敏感或个人信息。

一开始，OpenAI希望创建两种类型的数据集：一种是公开的开源数据集，任何人都可以在AI模型训练中使用，另一种是用于训练专有AI模型的私有数据集。OpenAI 表示，私有集适用于希望保持数据私密但希望 OpenAI 的模型更好地了解其领域的组织。到目前为止，OpenAI 与冰岛政府和 Miðeind ehf 合作，以提高 GPT-4 说冰岛语的能力，并与自由法律项目合作，以提高其模型对法律文件的理解。

“总的来说，我们正在寻找希望帮助我们教人工智能了解我们的世界的合作伙伴，以便最大限度地帮助每个人，”OpenAI写道。

那么，OpenAI 能否比之前的许多数据集构建工作做得更好？不太确定——最小化数据集偏差是一个困扰世界上许多专家的问题。至少，希望该公司对这个过程是透明的，以及它在创建这些数据集时不可避免地遇到的挑战。