“ 大模型应用中的数据信任问题,并不是一个技术问题而是一个系统设计性问题。”
年底了各个项目都需要进行验收,然后作者手里有一个大模型应用的项目,功能主要包含两块,智能问答和内容生成;但是由于各种原因导致这个项目做的并不好,虽然在召回率和准确率上以及优化的还不错,但从整个系统完善度的情况下,还存在很多问题。
因此甲方说要扣我们的钱,这时老板坐不住了,就拉着我们开会把整个流程给过一遍,然后就发现了一个很重要的问题——信任问题。
大模型应用中的数据信任问题
作为一个技术开发人员,可能很多人只关心技术和功能,反而会忽视系统本身需要解决的问题,以及系统本身的合理性,这个也是大部分技术人员的通病,技术至上。
这次发现的问题,事实上也是甲方提出来的,只不过没有完全明说,所以刚开始不是很理解;直到老板给梳理了一遍之后才发现,事情好像没有那么简单。
其实甲方提出的问题也很简单,就是我怎么确定大模型回答的准确性,怎么保证数据来源的合理合规?
从用户的角度来看,大模型系统就是一个黑盒子,因为你不知道它数据怎么来的,大模型本身是怎么处理的,会不会涉及到数据安全问题,文档是否会存在问题,如文档错误,文档过期;这也就导致大模型应用的一个根本问题,用户凭什么相信大模型?你应该怎么解决用户信任问题?
简单来说就是,怎么在大模型的不确定性上,把系统做得具有确定性?
从技术的角度来说,做智能问答需要解决的是怎么更好的处理文档,更合理的切片,更好的召回,更好的生成;但从业务,系统本身以及用户的角度来说,我凭什么相信你一个黑盒子?这时需要解决的就是,数据来源的准确性,权威性,及时性,数据运转流程中的公开性和透明性;当然,这个透明并不是把敏感数据随便拿出来给别人看,而是有一套完善的机制来让用户确认你是值得信任的。
因此要解决这个问题,需要从以下几个角度出发,知识库的管理首先要保证文档来源的可靠性和准确性;其次要保证文档更新的实效性,最后再考虑技术上的切片和修改,并且要对数据完整的处理流程进行展示和可视化,以及完整的日志记录。
对我们开发人员来说,大模型也是一个黑盒子,这个是由模型本身所决定的;但作为系统开发者来说,我们需要做的是让用户觉得你的系统不是一个黑盒子,而是一个能够看到所有数据流转过程,增强用户的对系统本身的信任。
所以,我们需要从以下几个具体的角度解决问题:
1. 模型本身的安全信任问题,选择国家认证过的模型列表中的模型作为底座,因为这个是由国家背书的。
2. 其次就是数据透明化,我们可以在系统后台把我们整个数据的处理流程记录下来,并且提供增删改查的功能;当然这里的透明并不是指终端用户,而是指系统维护者或者甲方,这样数据透明,信任自然就透明了。
3. 审计日志,为了系统的安全性和稳定性,我们需要记录系统的所有操作日志,特别是对数据的操作,我们要记录数据是谁导入的,谁修改的,谁删除的,修改了哪些,删除了哪些;这样就能尽可能的保证数据安全性问题,提升数据信任问题。
总之,由于模型本身的特性,黑盒子我们是无法避免的,但我们可以通过系统设计和工程化方式,来尽可能使得数据透明,增加信任。

