产品动态｜从 Xtreme1 开始，训练你自己的 ChatGPT：RLHF 多轮对话标注功能上线- 大数跨境

产品动态｜从 Xtreme1 开始，训练你自己的 ChatGPT：RLHF 多轮对话标注功能上线

Xtreme1

2023-04-28

导读：Xtreme1 上线支持 RLHF 训练的文本标注工具集！有监督的数据标注是大模型应用成功的基础...

ChatGPT 的出现证明，人类反馈强化学习（RLHF）训练可以大幅提升机器学习模型生成内容的范围、有效性和准确度。为了帮助更多用户进行高效的 RLHF 训练、打造优质的 LLM 训练数据集，下一代开源多模态训练数据平台 Xtreme1 推出 RLHF 文本标注功能。

4 月 21 日，复旦大学自然语言处理实验室发布的 MOSS 宣布开源，自 2 月份发布以来，MOSS 就承载着 NLP 爱好者对于“国产 ChatGPT”的强烈期待。MOSS 同样具有 ChatGPT 类似的文本生成、摘要、翻译等基础功能，但由于数据质量、计算资源和参数量等问题，距离 ChatGPT 的表现仍有差距。

MOSS 通过与人类和其他大语言模型交谈来学习，而 ChatGPT 的训练则是通过人类反馈强化学习（RLHF）来进行的 [1]，在 GPT3.5 大规模语言模型的基础上， ChatGPT 依托大量有监督的文本标注数据，从而实现对人类指令的精准理解。通过在大数据预训练中增加人类反馈，并通过奖励模型使微调更加高效且有针对性，ChatGPT 生成内容的广度、有效性和准确性均得到显著提高。

Xtreme1 开放 RLHF 多轮对话标注功能

今日，为支持用户进行有监督文本标注工作，实现大语言模型的训练，下一代开源多模态训练数据平台 Xtreme1 在现有的图片、视频与点云工具基础上，上线了支持 RLHF 训练的多轮对话标注工具集。

Xtreme1 RLHF 文本标注界面

RLHF 训练过程是怎样的？

对于 ChatGPT 的训练，InstructGPT 论文 [2] 中讲述了三个步骤：

1. 收集由人类生成的高质量“提示词+回应（或 Instruction-Fulfillment）”样本；

2. 讲样本随机显示给用户，让他们从最好到最差进行排序；

3. 基于提示和奖励模型进行人类反馈强化学习（RLHF）训练阶段。

在 RLHF 阶段中，人类可以对答案进行排序、修改，或者针对上轮对话给出下轮的指令等，这样的反馈可以视为一种奖励信号，人工智能通过找到最能解释人类判断的奖励函数，使用 RL 来学习如何实现目标，逐步完善对目标的理解，建立任务目标模型。整个训练过程可以理解为“人类”、“AI 代理对于目标的理解”与“RL 训练”的三步循环 [3]。

三步反馈循环 [3]

依照上述步骤，Open Assistant 推出了数据收集任务平台，邀请用户扮演 AI 和用户（提示词工程师）完成相应的任务，帮助其建立一套自然的对话数据集，从而训练一个类 ChatGPT 的聊天 LLM。从平台面板中可以看到，Open Assistant 的训练需要人类完成“对 AI 的回复进行分类”、“对提示词工程师的回复进行分类”、“扮演 AI 来提供回复”、“扮演用户来提供回复”、“对 AI 的回复进行打分”等一系列任务。国内的智源研究院也推出了“OpenLabel 数据飞轮”公益项目，招募志愿者来打造开源数据集，类似地，OpenLabel 的任务类型包括“写出用户指令”、“作为 AI 助手回答”与“为 AI 助手判定答案”等。

通过 Xtreme1 开始 RLHF 训练！

让我们一步步通过开源 Xtreme1 平台的文本标注功能提升训练数据集的质量，打造更加强悍的大语言模型：

上传数据

用户可以主动上传多叉树结构的对话文本数据（JSON）。Xtreme1 支持对复杂的对话结构进行处理，将每一个叶子结点到根结点的路径拆分成单个数据便于进行后续的标注工作。

自定义标注选项

Xtreme1 提供了从数据集的 Ontology 中建立所需的 Classification 项的功能，用户可以根据实际需求自定义标注选项。例如，用户可以为文本数据创建“质量评分”、“幽默程度”、“帮助性”等分类标签，以便于对数据进行更细致的评估和分析。

Like / Dislike

为了让用户能够更直观地评价文本数据，Xtreme1 提供了为文本标注喜欢（Like）或不喜欢（Dislike）的功能，收集用户的偏好信息，并为未来的模型训练提供有益的参考。

长文本输入

用户可以通过“长文本”功能输入回复，形成新的数据。这使得用户可以提供更详细的信息，并有助于扩展数据集的多样性。通过收集不同类型的回复，可以提高模型的泛化能力。

数据流转

Xtreme1 支持数据状态（有效 / 无效）以及标注状态（已标注 / 未标注 / 无效）的选择与过滤。可以更方便地管理和处理数据，确保数据的质量和完整性。

数据集分割

对于文本类型的数据集，Xtreme1 同样支持数据集的分割功能。用户可以将数据集划分为训练数据集、验证数据集和测试数据集，以便于进行模型的训练、验证和最终评估。这有助于提高模型的性能，从而实现更准确的预测和推荐。

从训练到落地，Xtreme1 赋能千行百业

Xtreme1 全新的文本标注套件助力所有 NLP 爱好者在有监督文本标注任务中节省时间、提高效率，实现更精确的大语言模型训练。Xtreme1 期待看到 X 星人通过平台打造高质量的模型，在各行各业产出应用价值。比如：

培训客服机器人

通过使用 Xtreme1 的文本标注功能，标注哪些回答能更好地解决客户问题，进而为聊天 AI 创建高质量的训练数据，打造更高效、更优质的客服机器人。

情感分析和社会舆情监控

在 Xtreme1 中自定义分类标签，例如“正面情感”、“负面情感”等并进行标注，训练出更准确的情感分析模型。对于企业了解顾客对产品和服务的态度以及政府部门监测社会舆情具有重要意义。

教育和学术研究

教育工作者和研究人员可以通过 Xtreme1 文本标注工具集轻松创建、管理和分析文本数据，开展语言学、社会学、心理学等领域的研究进展。

立刻安装 Xtreme1，开始 LLM 之旅

ChatGPT 通过来自人类反馈的强化学习（RLHF）生成的 InstructGPT 模型，比 100 倍参数规模无监督的 GPT-3 模型效果更好，说明了有监督的数据标注是大模型应用成功的基础，也印证了 HITP（Human in the Loop）对于机器学习的重要性。而优质的数据又是高质量模型的前提。从图片、视频、激光雷达点云等机器视觉类的数据，到如今的文本数据支持，Xtreme1 一直致力于帮助用户建立高质量的多模态训练数据集，希望通过开源的形式，让每一个人都能接触与数据、模型相链接，真正推动惠及所有人的科技进步。接下来，Xtreme1 团队会不断完善文本标注套件，支持全链路的 RLHF 高效训练路径。