01
数据构建
挑战:
• 数据稀缺问题:在金融领域,某些特定领域的数据可能非常稀缺,例如新兴市场、特定行业或新型金融产品等。如果微调数据集中缺乏这些稀缺数据,模型可能无法准确地预测相关问题或无法处理新的场景。
• 泛化能力问题:金融行业的大模型需要有很好的泛化能力,能够适应不同的市场、产品和情景。然而,微调数据集可能无法涵盖所有的变化和复杂性,导致模型在新的情况下泛化能力不足。
• 数据质量问题:金融领域的数据通常非常复杂,可能存在错误、缺失值或不一致的情况。如语音客服对话数据,由于方言识别错误导致的数据噪声问题。这些问题可能会导致模型在微调过程中学习到错误的模式或产生不准确的预测结果。
• 数据标注问题:构建问答对数据集需要大量的人工标注工作,而金融领域的专业知识和复杂性使得标注工作更加困难和耗时,标注成本较高。标注人员可能存在理解偏差、主观判断或标注错误的情况,这会对微调数据的质量产生影响。
应对:
• 提高指令复杂度、增加话题多样性、扩大指令数量、平衡指令难度;
• 数据是金融机构构建大模型的核心竞争力,Self-instruction为金融机构提供了一种构建数据集的新思路,可以用GPT4等大模型将文本类非结构化数据生成为问答对;
02
时效性
03
输入输出数据长度限制
04
安全
挑战:
• 数据隐私。大语言模型可能获取和使用用户的历史数据 (账号、电话、地址、姓名)导致用户隐私信息的泄露或用户隐私数据被滥用。用户在使用大语言模型时会输入信息,依托于大语言模型的运行逻辑,输入的信息可能会被用作大语言模型进一步迭代的训练数据。如果一些员工使用大语言模型辅助其工作,可能会导致公司的商业秘密泄露的问题。
• 信息安全。大语言模型可以短时间内产生大量令人信服但却无信源的内容。导致其回复看起来可信度极高,但实际并无可信依据,这对判断能力不足的用户将产生极大的误导。由于ChatGPT 等大模型在短时间内已经形成了庞大的用户群体,其具备的舆论属性和社会动员能力也随之快速提升。在信息生成和传播上,可能引导大量用户思想或行为偏好向有预谋的方向发展,导致信息安全风险。
• 数据伦理。大语言模型可能输出带有偏见歧视性或违反公序良俗的内容。大语言模型的输出取决于训练数据,但训练数据中包含开发团队的主观偏见、丰富情感态度以及政治、宗教、性别等敏感议题,导致数据伦理也是大语言模 型输出需要重点关注的内容。
应对
• 如果想通过模型架构的方式解决安全问题,目前ChatGPT主要使用RLFH方式,但成本较高;
• 目前国内部分大模型如百度、智谱等,在大模型输出后通过独立安全模块的方式规避安全性问题。
* 更多研究参考:

