大数跨境
0
0

AI可信数据空间白皮书

AI可信数据空间白皮书 老赵外贸严选
2025-10-17
56

1 数据空间与人工智能协同发展挑战

1、数据空间发展与挑战

1.1 数据空间国内外发展趋势

国际数据空间(IDS, International Data Space)的概念最早起源于欧洲,旨在解决数据孤岛、隐私安全和权属不清等问题,推动数据的高效流通与价值释放,促进数字经济的快速发展。

2016 年,德国工业 4.0 战略率先提出工业数据空间的概念,随后欧盟推出《欧洲数据战略》,将数据空间建设提升至战略高度。美国、日本等国纷纷跟进,结合自身特点探索数据空间建设模式。截至 2024 年,全球已建成超过 200 个可信数据空间,覆盖工业、医疗、金融、能源、农业、交通等多个领域,实现了数据的安全可信流通与价值共创,成为数字经济高质量发展的关键基础设施。

欧盟是国际数据空间建设的先行者,其发展模式以联邦式去中心化为核心。欧盟通过《欧洲数据战略》、《数据治理法案》、《数据法案》等政策文件,强调数据主权、多方协同治理和标准化,GDPR(通用数据保护条例)为数据保护奠定了法律基础。

我国可信数据空间的建设可以分为四个主要阶段:

· 第一阶段:建制度(2020-2022 年):国务院陆续发布《关于构建更加完善的要素市场化配置体制机制的意见》、《关于构建数据基础制度更好发挥数据要素作用的意见》等文件,明确数据列为新型生产要素,提出“三权分置”等制度,形成基础的制度框架,明确数据要素使用规则,为数据要素市场化配置奠定基础。

· 第二阶段:立顶设(2023-2024 年):数据局负责完成发布《数字中国建设整体布局规划》,明确构建全国一体化数据资源体系,提出让数据“供得出、流得动、用得好”的顶层设计方案。

· 第三阶段:强行动(2024-2025 年):陆续发布《“数据要素 ×”三年行动计划(2024—2026 年)》、《公共数据资源授权运营实施规范(试行)》等管理要求,推动数据要素在各行业的应用与价值释放,明确从登记→授权→定价的完整链条。同时发布《可信数据空间发展行动计划 2024-2028》明确可信数据空间定义与定位,提出 100+ 可信数据空间建设目标。

· 第四阶段:促发展(2025 年 -):数据局发布《2025年可信数据空间创新发展试点名单》、数标委发布《可信数据空间技术架构》,进一步加强牵引各类数据空间的加快建设。

1.2 可信数据空间主要挑战

可信数据空间作为国家数据基础设施的重要组成部分,作为全域数字化转型的新型底座通过构建安全可信的数据流通利用环境,促进数据资源的共享共用,进而释放数据要素价值。国家数据局发布行动计划明确推进企业、行业、城市、个人、跨境五类可信数据空间建设,可信数据空间建设目前还处于发展初期面临诸多堵点问题与挑战:

· 挑战一、数据供给意愿不足

①权属不清与价值分配难:数据产权界定模糊,数据供给方担心共享后失去控制权或收益被稀释。例如,担忧数据泄露导致核心竞争力丧失;

②合规成本高:数据分级分类标准不统一,敏感数据(如医疗、金融)脱敏处理需专业团队,数据供给方难以承担人力与资金成本。

· 挑战二、数据流通效率低

①跨域系统数据协议不统一:政府、企业、行业数据分散在异构应用系统中,数据结构、接口标准不统一,跨域流通效率低;

②安全与实时性矛盾:为满足“数据不出域、可用不可见”安全要求,隐私计算(如多方计算、同态加密、联合分析)导致计算性能延迟增加 50% 以上,难以支撑高价值场景(金融、物流、交通)等低时延响应要求。

· 挑战三、高质量语料稀缺

政府、金融、医疗、制造等行业大模型专业语料稀缺,海量多模态数据(文本、图像、传感器)待标注数据占比高,高质量语料转化率低(语义缺失、时效滞后等),无法满足行业大模型训练推理阶段对行业标注数据的诉求。

· 挑战四、安全能力参差不齐

数据流通涉及数据提供方、使用方、服务运营方等众多参与主体,不同主体的网络安全、传输安全、数据安全等防护水平差异较大,容易成为攻击者突破的薄弱环节,无法满足全链路数据安全防护要求。

2、人工智能大模型语料发展与挑战

2.1 人工智能大模型语料发展趋势

1. 从大语言模型到多模态 / 具身智能大模型的语料演进

当前大模型技术正经历从弱人工智能(机器学习、神经网络、大语言模型)向通用人工智能(Agent、多模态、具身智能)的范式跃迁。这不仅对于模型架构的设计理念进行了重构,同时也对大模型各阶段的训练语料提出全新要求。

2. 从通用模型到行业大模型的语料深化

随着通用模型发展从试点到落地,具有行业属性的行业大模型也逐步成为模型能力提升的重要转变,意味着 AI 技术从广度覆盖转向行业深度赋能,而行业大模型的性能则更是高度依赖领域的高质量语料。

3、数据空间与 AI 协同发展的关键挑战

在当前数智化转型加速的时代,数据与人工智能的协同创新成为推动各行业数字化、智能化升级的引擎。然而,这一融合过程中面临多重挑战,“数据壁垒、隐私合规、技术异构性、信任机制不透明”成为数据驱动 AI 创新的关键瓶颈,Data+AI 协同创新存在“三不可”的核心挑战。

3.1 挑战一、数据 AI 不可见

在过去的数十年时间内,各行业客户建设了大量的数据库、数据仓库、大数据等系统,形成了非常复杂的数据架构和庞大的数据资源体系。但由于上一阶段的数据建设通常是围绕交易、分析等特定目标建设的系统,从而逐步形成了大量的数据烟囱(Data Silos)架构,数据的协同共享面临诸多断点和壁垒,无法满足AI 大模型时代对全量用数、高质量供数等新要求,因此 Data For AI 用数核心诉求是让全量数据“AI 看得见” 。

3.2 挑战二、数据 AI 不好用

语料数据是大模型训练的重要“燃料”,但大模型语料因为“数据分散、质量参差不齐、多样性不足、过拟合风险”等问题存在数据 AI 不好用困境。基于私域行业数据加工高质量语料供给大模型训练与推理,需系统性解决清洗、标注及优化等高质量语料要求的核心问题。

3.3 挑战三、数据 AI 不可信

由于多方协作对全链路、全过程的数据安全要求高,在数据语料供给方与行业大模型消费方会存在多方身份不可信、数据来源不可信、数据使用过程不可信、数据传输不可信、数据 AI 不可控等关键挑战。

02 AI 可信数据空间顶层设计

围绕数据空间与 AI 协同发展的“三不可”关键挑战,应对数据、人工智能产业需求、场景、技术快速变化的不确定性,迫切需要一揽子迭代升级的顶层架构和体系设计来应对未来的不确定性。全新升级的“三位一体”的顶层设计包括新体系、新架构、新生态三大部分:

1、新体系:数模协同

在数智融合创新发展进入新时期,可信数据空间与大模型的协同治理,正在从技术耦合升级为数字生态的范式革命。制度协同锚定监管共识,通过跨主体权责契约与动态合规框架,破解数据主权与模型效能的两难;技术协同贯穿全链路防控体系,以隐私计算为盾、区块链为链、AI 治理为眼,实现从数据开发流通到模型价值释放的可信穿透;同时,价值协同激活要素功能,在安全可控的底座上,推动数据资产化、数据知识化与模型智能化的双向赋能,让流动的数据成为大模型创新的引擎,而非沉睡的资源 --- 以制度为纲、技术为脉、价值为魂,构建数模协同新体系。

一、制度协同:建立“权责明晰、动态确权与授权、健全授权运营”的治理机制

“数据二十条”以解决市场主体遇到的实际问题为导向,创新数据产权观念,淡化所有权、强调使用权,聚焦数据使用权流通,创造性提出建立数据资源持有权、数据加工使用权和数据产品经营权“三权分置”的数据产权制度框架,构建中国特色数据产权制度体系,旨在破解数据确权难题、激活要素市场。但在实际落地中,面临以下三大现实挑战:

二、技术协同:建立“可信供给 - 可控训练 - 合规推理”的全生命周期的防控体系

数据要素与大模型的技术协同,需要融合“可信数据空间”与“AI 安全防控”双轨能力,构建覆盖数据加工与流通 -> 模型训练 -> 推理部署 -> 应用监控等系统性防护框架。

三、价值协同:建立“数据驱动模型进化,模型释放数据价值”可持续双向闭环

数据要素与大模型的协同发展构成了双向赋能的闭环价值体系,数据作为核心生产资料驱动大模型的能力进化,大模型通过智能化释放数据的深层次价值。

2、新架构:AI 可信数据空间

2.1 “三可”架构原则

可信数据空间作为“人工智能 +”行动的数据基座,旨在构建“数据高质量供给 -> 模型深度赋能行业 -> 模型释放数据价值”的闭环。当前行业大模型语料质量差、资源结构单一、流通成本高“等制约人工智能 + 的深度发展。高质量数据集供给与流通作为系统性复杂的软件工程,涉及多模态数据工程、隐私计算、区块链、向量数据库、RAG等创新技术组件的统一集成、统一管控、统一监控与运维。

2.2 “一湖一链一中枢”架构蓝图

“一湖一链一中枢”架构通过对传统数据平台的系统性升级,不仅解决了“全域数据可见”的多源异构数据整合难题,更通过数据血缘追溯、统一权限控制、跨域流通策略控制确保“全链路数据可信”,同时依托智能数据工具链赋能供给复杂智能用数场景真正实现全模态 AI 好用。

2.3 创新技术方向

2.3.1 数字护照

数字护照(Digital Passport)是基于数字身份(Digital Identity, DID)和相关技术构建的一种新型身份凭证,旨在以安全、隐私保护且可验证的方式,将个人或实体的身份信息数字化,并支持跨平台、跨国家的可信交互。

2.3.2 轻量 AI 机密计算

随着大语言模型的广泛应用,一系列新旧交织的安全威胁接踵而至,给 AI 产业生态的健康发展带来严峻的挑战。

当代的大型语言模型是海量算力、宝贵的训练数据与创新算法的汇聚的精华,是数字时代的高价值资产,自然成为攻击者觊觎的目标。用户提交给模型进行训练和推理处理的数据中,常常包含个人隐私、商业机密等敏感信息,一旦泄露,后果不堪设想。在缺乏有效防护的应用环境里,无论是心怀不轨的系统运维人员,还是利用漏洞、恶意软件非法获取访问权限的黑客,都可能对模型安全构成威胁。

3、新生态:数智共生

3.1 培育多元数据生态主体

数据生态是指数据空间参与各方依据既定规则,围绕数据资源的流通、共享、开发、利用开展价值共创的生态系统,包括数据提供方、数据使用方、数据服务方、可信数据空间运营者等生态主体。针对本地优势产业和典型场景,制定生态主体培育政策,形成“政府引导、企业参与、科研支撑、行业协同”的生态体系。通过数据互通、资源共享、协同创新,推动数据空间可持续发展。各个生态主体定义和培育措施如下:

数据提供方:在可信数据空间中提供数据资源的主体,有权决定其他参与方对其数据的访问、共享和使用权限,并有权在数据创造价值后,根据约定分享相应权益。支持企业依法依规对其合法获取的数据进行开发利用,培育一批贴近业务需求的行业性数据资源企业。鼓励企业间按照市场化方式授权使用数据、共同分享收益,推动企业跨行业发展。

数据使用方:在可信数据空间中使用数据资源的主体,依据与可信数据空间运营者、数据提供方等签订的协议,按约加工使用数据资源、数据产品和服务。支持企业面向数据要素 X 典型应用、AI 场景、新兴产业和全域数字化转型需要,创新应用模式,更好发挥数据要素价值,赋能产业发展,培育一批深刻理解行业特征、高度匹配产业需求的数据应用企业。

数据服务方:在可信数据空间中提供各类服务的主体,包括数据开发、数据中介、数据托管等类型,提供数据开发应用、供需撮合、托管运营等服务。支持企业面向数据流通交易提供专业化服务,重点围绕数据业务咨询、数据供需对接,交易撮合、合规服务、数据资产服务等方面,培育一批数据服务企业,发展数据流通交易新模式新业态。

可信数据空间运营方:在可信数据空间中负责日常运营和管理的主体,制定并执行空间运营规则与管理规范,促进参与各方共建、共享、共用可信数据空间,保障可信数据空间的稳定运行与安全合规。可信数据空间运营方可以是独立的第三方,也可以由数据提供方、数据服务方等主体承担。支持企业面向数据接入、数据加工、数据流通、数据运营和数据安全,聚焦数据流通利用基础设施和多元生态主体协同机制,重点培育一批具有公信力、竞争力的数据运营商。

可信数据空间监管方:指履行可信数据空间监管责任的政府主管部门或授权监管的第三方主体,负责对可信数据空间的各项活动进行指导、监督和规范,确保可信数据空间运营的合规性。

3.2 制定多元生态主体协同标准和机制

当前各个生态主体间存在信任顾虑,担心数据安全等问题,导致跨主体数据 “不敢共享、不会共享、不愿共享”。通过制定统一的数据资源管理标准、认证与信任机制、数据共享规则、技术标准体系、利益分配机制等,以破除当前数据流通难题。

3.3 搭建数据生态服务中心

建立可信数据空间的数据市场,应用市场,需求大厅等,以需求导向进行场景挖掘,供需对接,数据供给;同时通过“揭榜挂帅”机制吸引多方参与场景开发,定期发布行业白皮书及优秀场景案例;定期举办数据生态研讨会、项目对接会等活动,加强各主体之间的面对面交流与合作。每季度举办一次数据生态研讨会,邀请各主体代表分享经验、探讨合作机会。激发多方主体参与,增强数据空间生态活力。

3.4 探索数据生态运营模式

构建可信数据空间推广策略,第一探索商业模式,包括免费试用、先用后付、应用分成、会员制、供需撮合佣金等多元商业模式,提升各个生态主体的参与积极性,形成可持续发展的路径。第二分层培育行业主体,引导龙头企业牵头,要求链主企业开发核心数据接口,带动上下游中小企业接入;扶持中小企业,提供普惠性工具和服务补贴,降低参与门槛和成本,激发创新活力;设立专项基金孵化第三方服务机构,包括数据开发、数据经纪、数据托管、审计清算、合规审查等机构接入数据空间,形成数据全生命周期的服务体系。

第三定期举办产业沙龙活动,行业数据空间峰会,创新场景大赛等活动,牵引产学研协同发展。

03 最佳实践案例

1、贵州大数据集团公共数据授权运营空间实践

1.1 项目背景

在全球数字文明演进与数据成为关键生产要素的时代背景下,贵州作为全国首个国家级大数据综合试验区,承担着为国家探索数据要素市场化改革路径的战略使命。以建设国家数据要素综合试验区为抓手,贵州着力构建可信数据空间体系,破解数据“不敢流通、不愿流通、不会流通”的难题,为全国推动数据资源转化为现实生产力提供实践样本。

1.2 解决方案

作为贵州省首个公共数据授权运营空间,是一级授权运营机构承接公共数据授权运营工作的重要载体,以“1+7+2+N”为总体框架,打造授权运营体系,该体系以《贵州省公共数据授权运营实施方案》为核心指导,围绕七大体系机制与两项规范制度展开建设,最终落地 N 个主题应用。“7”具体包括数据归集治理体系、数据产品体系、AI 数据集体系、数据流通体系、数据运营体系、数据安全体系以及数据工具体系;“2”是指运营生态制度和技术标准规范。通过多层级、全流程的机制设计与技术保障,该体系构建了安全可信、高效协同的数据运营环境,全面促进公共数据要素的有序流通、深度融合与创新应用,为贵州省数字经济发展提供坚实支撑。

1.3 项目成果

基于贵州省公共数据服务平台已经归集的 14.7 亿条公共数据资源,通过授权运营空间已形成 80 个公共数据产品。贵州将持续探索“政府 + 授权运营机构 +开发利用机构”的公共数据授权运营协同机制,加大力度开展大模型与空间融合等技术攻关,培育带动一批数据技术和产品服务商,将平台打造成支撑构建全国一体化数据市场的重要载体。

3、上海数据集团城市数据空间实践

3.1 项目背景

作为全球数据汇聚流通的重要节点,上海在探索数据要素市场化的过程中,提出了自己的“上海方案”。为此,上海率先于 2022 年成立数据集团,打造数据要素市场化配置的核心载体,加速公共数据和国企数据的要素化。上海数据集团是以数据为核心业务的具有功能保障属性的市场竞争类市属一级国企。作为上海市公共数据授权运营主体和城市一体化大数据资源基础治理的支撑主体,以推进数据要素市场建设、激发数据要素潜能、保障数据安全为战略使命,以促进公共数据、社会数据、个人数据融合开发利用为主责主业,聚焦数字产业化、产业数字化和推动数据产业生态发展,践行“数据治理体系共建者、数据资源体系开拓者、数字经济发展引领者、数字政府建设推动者、国际数据合作先行者”的责任担当,致力于成为世界一流的数据要素型企业。通过整合公共数据空间、企业数据空间和个人数据空间,利用创新的技术寻找数据要素的价值场景,释放数据要素的生产力,帮助上海各政府机构、本地企业、民众挖掘和赋能数据要素的价值,为此联合华为云 Stack 打造“城市数据空间”新范式。

3.2 解决方案

3.3 项目成果

当前,以普惠金融场景为例,上海数据集团已经成功开放超过 3000 项公共数据,向 33 家金融机构提供数据标准化服务,帮助金融机构优化信贷评估模型,提升评估效率,为中小微企业完成了超过 6800 亿元的信贷评估发放,缓解中小微企业融资难,融资慢的问题。对于政府来说,也改善了区域营商环境,为社会经济长效发展注入动力。

面向未来,上海数据集团将持续推进城市数据空间创新,以驱动城市数字经济高速增长。以全上海的城市数据授权运营为目标,实现公共数据、企业数据及其他数据的汇聚、供给、授权、运营及市场化开发利用,服务更多城市应用场景。


如需报告请联系客服或扫码获取更多报告


【声明】内容源于网络
0
0
老赵外贸严选
跨境分享馆 | 持续分享跨境资讯
内容 39488
粉丝 0
老赵外贸严选 跨境分享馆 | 持续分享跨境资讯
总阅读219.4k
粉丝0
内容39.5k