一、前言
本文将介绍Grab公司基于LLM实现数据分类的实践案例,来展示LLM在数据分类中的应用场景及其对数据安全的提升效果。
二、案例背景
Grab是一家总部位于新加坡的科技公司,成立于2012年。Grab最初作为打车应用起步,现已发展为超级应用平台,提供包括网约车、外卖配送、金融服务和电子支付等多种服务。凭借广泛的业务覆盖,Grab已成为东南亚地区最大的科技公司之一。
基于如此庞大的业务,Grab需要保护和管理海量的PB级数据,以保障用户、司机及合作伙伴的敏感信息安全,同时提升数据分析效率。为此,Grab开展了数据分类的实践,并结合了LLM有效提升了数据分类的准确性和效率。
三、案例详情
在首次应对数据分类问题时,Grab通过手动流程对数据库的schema(即数据库模式,负责定义数据库中数据组织和结构,包含表、字段、关系模型等)进行了分类标记。Grab将敏感度划分为四个等级,从第1级(高度敏感)到第4级(无敏感信息)。在数百张表的schema中,如果其中一张表属于第1级,整个schema都会被划为第1级。手动分类的结果是,约一半的schema被标记为第1级,并实施了最严格的访问控制。然而,实际上真正属于第1级的表非常少,这导致大量非敏感的表格也受到了不必要的严格限制,限制了数据的灵活使用和访问效率。
基于此,Grab尝试将数据分类进一步细化到表级标记,但在实施过程中发现该方案难以有效执行,主要有两方面原因:一方面,随着数据量和种类的快速增长,表级分类比schema级分类耗时更长、成本更高;另一方面,表级手动分类存在较大的主观性差异,不同的打标人员在操作过程中可能会产生不一致的分类结果,影响了分类的准确性和一致性。
为了应对这些挑战,Grab内部开发了一项名为Gemini的服务(Grab官方宣称其Gemini的命名早于Google的Gemini聊天机器人),通过整合第三方数据分类服务,实现对数据实体的批量扫描,并自动生成列级和字段级标签,这些标签随后交由数据生产者进行审核确认。在这个过程中,Grab的数据治理团队提供分类规则,并结合正则表达式分类器和第三方工具中的机器学习分类器,自动识别敏感信息。这一自动化流程大幅提升了数据分类的效率和准确性,简化了手动分类的复杂性。
然而,在自动化标签生成模式的初期,Grab遇到了大量误报,自动化效果并不理想。Grab官方分析主要有三个原因:首先,正则表达式分类器在评估过程中导致了过多的误报;其次,第三方数据分类服务的机器学习分类器不允许进行定制化改造,也导致效果不佳;最后,构建内部分类器需要专门的数据科学团队来训练定制模型,需投入大量时间了解数据治理规则,并准备手动标记的训练数据集,这个过程反而增加了团队的工作负担。基于此,Grab公司希望寻找到一个更佳的方法去实施数据分类。
随着ChatGPT的火爆,LLM也进入到了Grab的视野中。与传统方法不同,LLM通过自然语言接口,可以让数据治理人员通过文本提示表达需求,而无需编写代码或训练模型。LLM的引入使得分类过程更加灵活且高效,能够自动处理各种复杂的数据分类任务。基于此,Grab尝试集成LLM的能力来进行数据分类。
如图1所示,在LLM的方案中,Gemini系统的架构主要包括数据平台、协调服务、消息队列和分类引擎。数据平台负责管理数据实体并发起数据分类请求到Gemini;Gemini负责与数据平台进行通信,创建数据分类任务给到消息队列;消息队列负责安排和分组数据分类任务给到分类引擎;分类引擎目前有两种(第三方分类服务和 GPT3.5),负责执行分类作业并返回结果。
图 1 Gemini架构图
在该方案中,Grab希望LLM成为列标签生成器,并为每列分配最合适的标签,基于此,Grab整理了一个标签库,供LLM进行分类,表 1 为部分示例。
表 1 标签库示例
在实际操作中,Grab发现LLM存在两大限制需要注意。首先是上下文长度限制,GPT-3.5的上下文长度为4000个令牌(约3000个单词),输入长度不能超过这一限制。其次是总体令牌限制,输入和输出不能超过设定的令牌配额(目前,所有Azure OpenAI模型部署在同一账户下,共享每分钟240K个令牌的配额)。这些限制在模型开发和部署中需要特别注意。
基于上述的方案,Grab大大降低了数据分类的人工工作量并提高了数据分类的准确率。在该方案推出的第一个月内,Grab已扫描超过2万个数据实体,平均每天处理约300-400个实体。通过自动化标记,Grab节省了工程师和分析师的大量时间,估计每年总计减少约360个人日。工程师和分析师得以专注于核心工作,而非耗时于数据治理。在准确率方面,根据Grab官方介绍,对于已确认的表格,平均更改的标签不到一个。在2023年9月进行的内部调查中,80%的数据所有者表示,新标记流程可以帮助他们更好地标记数据实体。
取得这样的准确率也不是一蹴而就, Grab通过不断实践总结出了一些能够有效提升数据分类准确率的方法:
1) 明确要求
任务的要求要尽可能明确,LLM 只会被要求做你要求它做的事情。
2) 少量学习
通过展示交互的示例,以便模型更好地了解它们应该如何响应。
3) 模式执行
利用LLM理解代码的能力,明确地向模型提供 DTO(数据传输对象)模式,以便它明白其输出必须符合它。
4) 允许混淆
专门添加了一个默认标签——当 LLM 无法做出决定或感到困惑时,指示它输出默认标签。
四、小结
通过将LLM赋能数据分类流程,Grab成功实现了从繁琐、易错的手动标记流程到高效、准确的自动化系统的飞跃。Grab的实践展示了如何通过LLM将数据治理流程智能化,增强了对敏感数据的管理能力,确保数据安全。通过对数据的精准分类,Grab实现了PB级数据的自动化管理,提升了工程师和分析师的工作效率。
通过Grab的实践可以看出,LLM在数据分类中的应用带来了显著的效率提升,尤其是在处理大量数据时,自动化分类不仅减少了人工工作量,还提高了分类的准确性。然而,这一技术也存在一定的局限性,例如上下文长度限制和令牌配额问题。
责任编辑:陈佛忠
本公众号原创文章仅代表作者观点,不代表绿盟科技立场。所有原创内容版权均属绿盟科技研究通讯。未经授权,严禁任何媒体以及微信公众号复制、转载、摘编或以其他方式使用,转载须注明来自绿盟科技研究通讯并附上本文链接。
关于我们
绿盟科技研究通讯由绿盟科技创新研究院负责运营,绿盟科技创新研究院是绿盟科技的前沿技术研究部门,包括星云实验室、天枢实验室和孵化中心。团队成员由来自清华、北大、哈工大、中科院、北邮等多所重点院校的博士和硕士组成。
绿盟科技创新研究院作为“中关村科技园区海淀园博士后工作站分站”的重要培养单位之一,与清华大学进行博士后联合培养,科研成果已涵盖各类国家课题项目、国家专利、国家标准、高水平学术论文、出版专业书籍等。
我们持续探索信息安全领域的前沿学术方向,从实践出发,结合公司资源和先进技术,实现概念级的原型系统,进而交付产品线孵化产品并创造巨大的经济价值。
长按上方二维码,即可关注我

