用于训练 AI 模型的数据集存在严重缺陷,这是一个公开的秘密。
图像语料库往往以美国和西方为中心,部分原因是在编译数据集时,西方图像在互联网上占主导地位。正如艾伦人工智能研究所最近的一项研究所强调的那样,用于训练大型语言模型(如 Meta 的 Llama 2)的数据包含有毒的语言和偏见。
模型以有害的方式放大了这些缺陷。现在,OpenAI表示,它希望通过与外部机构合作来创建新的、希望得到改进的数据集来对抗它们。

OpenAI 宣布了数据合作伙伴关系,旨在与第三方组织合作,为 AI 模型训练构建公共和私有数据集。在一篇博客文章中,OpenAI表示,数据合作伙伴关系旨在“使更多的组织能够帮助引导人工智能的未来”,并“从更有用的模型中受益”。
OpenAI写道:“为了最终使AI对全人类安全有益,我们希望AI模型能够深入了解所有主题、行业、文化和语言,这需要尽可能广泛的训练数据集。“包括你的内容可以增加人工智能模型对你的领域的理解,从而对你更有帮助。”
作为数据合作伙伴计划的一部分,OpenAI表示,它将收集“反映人类社会”的“大规模”数据集,这些数据集目前不容易在网上获得。虽然该公司计划采用各种形式进行工作,包括图像、音频和视频,但它特别寻求跨越不同语言、主题和格式“表达人类意图”(例如长篇写作或对话)的数据。
OpenAI表示,它将在必要时与组织合作,将训练数据数字化,结合使用光学字符识别和自动语音识别工具,并在必要时删除敏感或个人信息。
一开始,OpenAI希望创建两种类型的数据集:一种是公开的开源数据集,任何人都可以在AI模型训练中使用,另一种是用于训练专有AI模型的私有数据集。OpenAI 表示,私有集适用于希望保持数据私密但希望 OpenAI 的模型更好地了解其领域的组织。到目前为止,OpenAI 与冰岛政府和 Miðeind ehf 合作,以提高 GPT-4 说冰岛语的能力,并与自由法律项目合作,以提高其模型对法律文件的理解。
“总的来说,我们正在寻找希望帮助我们教人工智能了解我们的世界的合作伙伴,以便最大限度地帮助每个人,”OpenAI写道。
那么,OpenAI 能否比之前的许多数据集构建工作做得更好?不太确定——最小化数据集偏差是一个困扰世界上许多专家的问题。至少,希望该公司对这个过程是透明的,以及它在创建这些数据集时不可避免地遇到的挑战。
END

扫描上方二维码即可进入HiAi

