大数跨境
0
0

大模型赋能数据资产管理第一步:实现数据资产识别

大模型赋能数据资产管理第一步:实现数据资产识别 沙丘社区
2025-01-09
0
导读:vivo、国泰君安、平安壹钱包等企业“大模型+数据资产识别”实践案例

作者|沙丘智库研究团队

来源|沙丘社区(www.shaqiu.cn)

在数字化时代,数据已成为企业的宝贵资产,有效管理和利用数据资产,已成为企业实现创新、提升竞争力的重要途径。
大模型正在广泛渗透到各行各业,但在数据资产管理领域的应用较为缓慢。
在2024年6月发布的《“大模型+数据治理”的应用场景与实践》,沙丘智库认为大模型与数据治理的结合仍处于早期阶段,短期来看大模型对数据治理的影响较小,但企业不应忽视大模型将带来的长期影响。
而在近期,沙丘智库观察到数据资产管理领域的大模型应用开启了第一步,多家企业将大模型应用于数据资产识别,显著提升效率和准确率。
数据资产管理是企业将数据从资源转变为资产的必经之路,而数据资产识别则是数据资产管理的基础和起点。
企业过去通常基于规则人工识别数据资产,大模型通过强大的自动化处理、模式识别和多模态数据处理能力,能够高效、准确地识别和分类海量复杂数据。
沙丘智库《大模型应用跟踪月报》旨在帮助企业持续跟踪大模型技术的最新动态,以确保能够挖掘大模型技术的应用潜能,这对于企业保持竞争力、创新和适应市场变化来说至关重要。
在《大模型应用跟踪月报(2024年12月)》中,沙丘智库发现vivo、国泰君安、平安壹钱包等企业将大模型用于数据资产识别,并得到显著的应用效果。

案例1:vivo利用AIGC升级数据识别能力

传统数据识别能力有三大缺点,一是人工维护规则成本高,维护工作量较大;二是弱特征分类准确率较低;三是无语义理解能力,难以支持非结构化数据识别,极大的限制了识别能力的可落地场景。

为了解决传统识别技术的短板,vivo利用大模型升级数据识别能力,在规则识别引擎之上建设大模型识别引擎,双引擎驱动分类分级的自动化、智能化。大模型擅长语义理解却有大模型幻觉问题,可能随意捏造一些数据来输出,影响识别准确率,而配合传统的规则识别引擎可以对识别结果进一步校验以规避该问题。

借助AIGC,vivo数据识别能力实现了双引擎驱动,共同构建数据分类分级系统的一体化、自动化和智能化,极大提高数据分类分级的效率。

案例2:平安壹钱包利用大模型提高数据分类分级准确性和效率

平安壹钱包利用大模型对规则和文档强大的理解能力,将分类分级的规则作为基础知识,向量化存储在向量数据库中作为知识库,并引入Prompt工程,进行提示词的规范化编写,以便更准确地控制大模型的输出结果。

目前大模型实现数据分类分级准确率约为94%,仍在持续优化迭代中,可节省90%的人工打标工作量。

案例3:国泰君安基于大模型的数据资产识别

在海量的数据背景下,基于既定规则开展人工识别的方法面临效率瓶颈,同时需不断兼顾数据的变更和新增问题。常规机器学习分类算法对标注数据需求高,处理高位特征的大规模文本数据时面临挑战,难以捕捉复杂关系和深层语义,尤其在语义分析和长期依赖理解上表现不足。

国泰君安探索基于大语言模型的数据资产识别技术,通过构建统一的识别标准,对重点数据资产领域进行了系统化标注,并利用大语言模型进行微调,以实现自动化数据资产识别。实验表明,模型在集团“高价值”数据和个人信息数据领域的识别中表现出色,实现了较高的识别准确率和召回率。

* 以上内容节选自沙丘智库《大模型应用跟踪月报(2024年12月)》


更多研究:

2024中国大模型技术采纳现状调研报告
2024年国资央企大模型应用跟踪报告
2024年“大模型+智能客服”最佳实践报告
2024年“大模型+RAG”最佳实践报告
2024年AI Agent最佳实践报告
2024年“大模型+数据分析”最佳实践报告
...

*更多生成式AI研究可前往“沙丘智库”小程序查阅

*有任何需求可咨询客服微信:zimu738




【声明】内容源于网络
0
0
沙丘社区
数字化研究与服务机构
内容 672
粉丝 0
沙丘社区 数字化研究与服务机构
总阅读120
粉丝0
内容672