数据集(五)
菲利信研究院
打造数据集之目的不外乎两个:满足自身使用的需要、用于外部市场的交易。满足自身需要的主客体是统一的,相对容易地便能在内部实现数据集的价值,因此这里不必讨论。当进行外部交易时,就涉及到内外部各个要素的规约化整合,必须经过市场化的过程才能达成交易,因此是一个更为复杂的动态过程,值得探讨。
所谓数据集交易,就是数据持有方通过市场化的方式,将数据资产的所有权、使用权或收益权转移给需求方的过程。随着数据要素市场化配置的大力推进,交易方式也从早期的原始数据打包售卖逐步发展为多元化、合规化的交易模式。下面,讨论当前主流的数据集交易方式、及其特点。
按交易模式分类:从直接买卖到生态服务
1.直接交易:数据持有方与需求方直接对接,完成数据集的定价、交付和结算,无第三方的中介参与。其交易周期短、流程灵活、成本低,可根据双方需求定制数据格式、交付时间和付款方式。只是信任成本较高,供需双方往往须通过前期调研、资质审核等过程才能建立起信任关系,还需单独签订合法的《数据交易合同》,明确数据权属、使用范围、保密义务和违约赔偿,避免法律纠纷。
直接交易的方式适合于售卖数据包,也就是将预处理了的标准化数据集打包为文件形式,一次性交付给买方。适合静态、低频需求(如市场调研、学术研究)。
这种方式也适合于授权使用,即不直接转移数据所有权,而是通过合同约定享有使用权,如限定使用场景、时间、范围、方式等。例如,某机构向数据服务商购买某方面数据的查询权限,而非获取完整的数据。这种方式比较适于数据需求明确、双方信任度高的数据交易。
2.平台交易:通过专业数据交易平台进行的交易,如通过数据交易所、电商平台、各类工具平台开展的交易。平台提供信息撮合、合规审核、安全交付、资金监管等服务。因为平台可通过技术手段解决信任问题、收取交易佣金,买卖双方无需直接对接,降低了合规风险和谈判成本。
目前,数据交易所都是由政府主导而设立,强调合规性、标准化。交易需通过挂牌、竞价、签约等流程,数据需通过数据资产登记予以确权。交易所提供交易撮合、合规审核、数据交付、资金结算等服务。适用的是标准化、大规模、高价值、通用性强的数据交易,比如行业宏观数据、公共服务数据、通用用户画像数据。
类似阿里、京东等电商平台也提供数据集搜索、比价、API 接入等交易服务,比较适合中小微企业的标准化数据需求。对于聚焦特定行业,如医疗数据平台、金融数据平台等垂直领域的数据平台,其数据经过行业合规处理,更叫贴切地满足了专业场景(如药物研发、风险评估)对数据的需求。
3. 定制化交易:也就是按需服务的交易方式,数据需求方提出具体的需求,数据提供方通过采集、清洗、分析后予以交付,本质是数据服务而非单纯数据集的买卖。适合于需求方缺乏数据处理能力,或数据需结合业务场景进行深度加工的情况。
包括定制化数据采集服务,即根据需求方的要求,从公开渠道、或授权渠道采集数据,加工后予以交付。包括提供分析报告,也就是基于数据集提供有深度的分析报告、趋势预测等,数据本身可能并不直接交付。也包括联合建模、算法服务,数据提供方与需求方合作,在脱敏数据上共同训练模型,把模型输出的结果作为交易标的,而非原始数据。
输出的是可直接落地的结论、或解决方案,本质是数据价值的深度变现。适用于需求方有明确业务痛点,但缺乏数据处理能力的情况。核心特点是:价值含量更高,交易核心不是数据本身、而是数据背后的价值和解决方案,溢价空间比单纯的数据集交易更高。但需求对齐是关键,供给方需深入理解需求方的业务逻辑(如品牌的目标客群、销售渠道),避免输出通用化、无实际意义的报告。不过,因为交付周期较长,往往需要数据分析和报告撰写,并不适合需求紧急的场景。
4.生态绑定交易:把单一的数据交易嵌入到生态合作之中,通过数据+服务+工具的组合形成长期的价值交换,而非单次的数据买卖。强调数据价值释放的持续性,适合需要动态数据的场景,如实时风控、精准营销等。
具体的形式有:数据订阅,即买方按一定时间周期付费,持续获取更新的数据集,如实时行为数据、行业动态数据。数据换服务,就是数据持有方以数据换取需求方的服务,如技术支持、渠道资源。例如,中小数据公司与大型云厂商合作,用自有行业数据换取云存储和算力支持。数据资产质押,也就是企业将数据集作为资产质押,向金融机构融资。
按数据交付形态分类:从静态文件到实时能力
1.静态数据集交付:一次性交付固定时间范围内的数据,通常为文件或数据库备份,包括历史数据分析、离线建模,如用户生命周期价值预测。
2.实时数据交付:通过流处理技术实时推送数据,买方可以毫秒级获得更新数据,如实时在线人数、商品点击量。当然,这就需要保障低延迟、高并发的技术支持,往往通过API 接口或专用数据通道予以交付。
3.API 接口调用:数据以 API 形式开放,买方按需调用,按调用次数或流量付费。这种方式可以实现动态更新、即用即走,适合高频、小批量数据需求。
4.模型化数据交付:将数据集训练成某种模型,交付模型权重或推理服务,而非原始数据。这样既保护了数据隐私,还输出可直接应用的结果。
按参与主体分类:B2B、B2G、G2B 等差异化方式
1.企业间交易:以直接交易、平台交易为主,如品牌方从第三方数据公司购买消费者行为数据,用于精准营销;制造企业向工业互联网平台购买设备运行数据,优化产能。可以实现降本增效、提升竞争力,合规要求也集中在数据来源合法性和脱敏处理之上。
2.企业对政府:企业向政府提供行业数据,如电商平台消费数据、物流企业货运数据等,政府通过数据交易所购买,用于发展规划、政策制定等。数据需符合政务数据的安全标准,交易需通过指定平台,确保数据可用不可见。
3.政府对企业:政府开放公共数据,如交通、气象、人口数据,企业通过数据开放平台免费或付费获取,用于技术开发应用。数据多为脱敏后的公共资源,交易成本低,突出的是社会价值。
4. 数据联盟/共享交易:多方共建共享数据的价值——由多个行业的相关主体(如同一产业链的上下游企业、同一区域的同类机构)组建数据联盟,共同贡献数据、共享数据权益,按约定比例分配交易收益,实现数据资源的聚合变现。
这适用于单一主体数据量不足,需聚合多方数据才能产生价值的场景,比如多家医院组建医疗数据联盟,共同提供多中心临床数据;多家商场组建消费数据联盟,共同提供商圈整体消费趋势数据。通过聚合多方数据,解决单一数据维度窄、样本量小的问题,形成更全面的数据集。
新兴交易方式:技术驱动的合规与效率创新
1.隐私计算:通过联邦学习、安全多方计算等技术,在数据不出域的前提下完成联合分析,实现数据可用不可见。例如,医院之间通过隐私计算共享疾病诊疗数据,联合训练AI 模型,但并不直接交换患者的信息。适于高敏感数据交易,解决数据孤岛与隐私保护的矛盾。
2.数据信托:由第三方机构(信托方)托管数据,根据委托人(数据持有方)的授权,向受托人(需求方)提供数据服务,收益按约定分配给数据提供方。可通过信托机制解决数据权属不清的问题,适合个人数据或分散数据的集合交易。
综上,数据集的交易方式选择须结合数据类型、需求场景、合规要求等要素予以综合运用。简单需求可以直接交易(数据包售卖)或平台交易(标准化数据集);高频/实时需求可考虑 API 接口调用或订阅制;敏感数据则需隐私计算交易或模型化交付;而数据订阅、联合建模或数据信托比较适合生态合作的模式。
往期推荐

