作者|沙丘智库研究团队
来源|沙丘社区(www.shaqiu.cn)
▎案例1:vivo利用AIGC升级数据识别能力
传统数据识别能力有三大缺点,一是人工维护规则成本高,维护工作量较大;二是弱特征分类准确率较低;三是无语义理解能力,难以支持非结构化数据识别,极大的限制了识别能力的可落地场景。
为了解决传统识别技术的短板,vivo利用大模型升级数据识别能力,在规则识别引擎之上建设大模型识别引擎,双引擎驱动分类分级的自动化、智能化。大模型擅长语义理解却有大模型幻觉问题,可能随意捏造一些数据来输出,影响识别准确率,而配合传统的规则识别引擎可以对识别结果进一步校验以规避该问题。
借助AIGC,vivo数据识别能力实现了双引擎驱动,共同构建数据分类分级系统的一体化、自动化和智能化,极大提高数据分类分级的效率。
平安壹钱包利用大模型对规则和文档强大的理解能力,将分类分级的规则作为基础知识,向量化存储在向量数据库中作为知识库,并引入Prompt工程,进行提示词的规范化编写,以便更准确地控制大模型的输出结果。
目前大模型实现数据分类分级准确率约为94%,仍在持续优化迭代中,可节省90%的人工打标工作量。
在海量的数据背景下,基于既定规则开展人工识别的方法面临效率瓶颈,同时需不断兼顾数据的变更和新增问题。常规机器学习分类算法对标注数据需求高,处理高位特征的大规模文本数据时面临挑战,难以捕捉复杂关系和深层语义,尤其在语义分析和长期依赖理解上表现不足。
国泰君安探索基于大语言模型的数据资产识别技术,通过构建统一的识别标准,对重点数据资产领域进行了系统化标注,并利用大语言模型进行微调,以实现自动化数据资产识别。实验表明,模型在集团“高价值”数据和个人信息数据领域的识别中表现出色,实现了较高的识别准确率和召回率。
* 以上内容节选自沙丘智库《大模型应用跟踪月报(2024年12月)》
更多研究:
*更多生成式AI研究可前往“沙丘智库”小程序查阅
*有任何需求可咨询客服微信:zimu738

