文章来源《元宇宙十大技术》
计算是元宇宙的太阳,是能量;
而存储则是元宇宙的大地,是土壤。
存储不仅把能量转化成各种各样的物种,并记录和保存这些物种的状态、属性等信息,还能繁衍新物种,生生不息。
本章将介绍元宇宙存放的物种(如数字藏品等)的特点和重要性、为什么需要存储,以及需要什么样的存储。
如同计算一样,存储的分类也非常复杂。
如图 4-1 所示,为了便于理解,我们把存储分类简化如下。

图 4-1 存储分类图
因为计算无处不在,所以存储也无处不在。
中心化的计算需要中心化的存储,终端计算催生适合端计算的存储,如云服务商的超大规模数据中心的 Data Center as a Server(数据中心即计算机),形成了存储硬件设备从单个服务器剥离出来进行池化的趋势,例如当前存储的前沿技术 NVMe Over Fabric(NVMe 协议的网络),能将 NVMe(非易失性内存主机控制器接口规范)协议的低时延和高并发等特性,从服务器级别,扩展到数据中心级别,从而满足元宇宙十倍、百倍的存储性能需求。
除此之外,在应对元宇宙存储需求的挑战过程中,超大规模数据中心还有 CXL(一种超高速、低时延的开放标准)、SDM(软件定义内存)和跨域容错、跨数据中心纠删码等前沿技术值得研究,而 VR 头显作为一种终端设备,所需存储的特征应该是轻量化、适中的存储容量和可靠性(相较数据中心级的存储,终端存储对可靠性的要求没那么高)。
存储的常见形态是 Micro SD 卡或内嵌 SSD。例如国内市场销量排名第一的 Pico,其产品 Neo 3 就包含了 UFS(通用闪存存储)3.0,规格包括 128GB、256GB 不等;
国内空陆视觉公司用于矿山三维重建的方案“吊舱即计算机”,用到了 m.2 接口的 SSD,从 256GB 到 1TB 不等。
类似的场景还有移动应用,如车载设备、穿戴设备等智能体(即一切皆计算机的某种场景的实践)。
区块链很重要的一个特点就是去中心化,由此衍生出许多去中心化计算的区块链项目,如以太坊、波卡、Difinity(蒂凡尼)等。
需要注意的是,链上的数据需要在区块链的全部节点中同步全账本数据,并且通常只能存放一些占用存储空间很小的结构化数据,如交易数据、索引信息、哈希值、备注等。
而非结构化数据,特别是超过 10 兆以上的数据,存在链上就不太合适了,更不用说 GB、TB 甚至 PB 级别的数据了。
原因如下:
(1)大量的数据在区块链的全部节点中同步,给系统开销、性能延迟造成了巨大的挑战。
(2)操作方式非常复杂。以存放一个 44K 的图片为例,先将图片转化成 base64(一种基于 64 个可打印 ASCII 字符对任意字节数据进行编码的算法)的字符串,并分割成每个 5K 的字符串片段,然后再以区块链某笔交易记录的注释的方式存放;
操作这个图片就需要做 9 次类似操作,还需记录这些操作的先后顺序和信息。
读取图片又需要一系列复杂的操作。
(3)成本昂贵。2018 年 7 月,不到 8K 的文件存到以太坊链上,就花费了十多元。
另外曾出现过有人存储 44K 的文件花费约 900 元。
因此,非结构化数据,例如文档、图片、照片、音频、视频等,最好以链下方式存放,这往往需要去中心化的云存储,即下一代云存储来承载,而这种新形态的存储就是区块链存储。
第一节 区块链存储:数字资产的保险箱
元宇宙里最重要的物种就是数字资产,它包括数字藏品/NFT/NFR(Non-Fungible Rights,非同质化权益)、数字版权、游戏道具、积分等。近几年来,NFT 逐渐走红。
例如冬奥会期间,国际奥委会官方授权的冰墩墩数字盲盒于 2022 年 2 月 12 日上线 Flow 链上交易市场 nWayPlay,供广大用户选购,以涨幅较大的吉祥物别针为例,原价 99 美元的产品,最高报价曾高达 88888 美元,涨了近 1000 倍。
那么,如何存放类似 NFT 的数字资产呢?
一、数权与物权的不同
物权,是指权利人依法对特定的物享有直接支配和排他的权利,包括所有权、用益物权和担保物权。
通俗一点说,物体通常具有独占性、排他性的特点,另外还有消耗性等特点。
但数据不同于传统的物体,它具有可复制性、非消耗性和特殊公共性等特征;
而且数据要充分地流动、共享,才能产生更多的价值。
北京国际城市发展研究院院长连玉明教授在《数权法 1.0》一书中指出:“未来数权将是人格权和财产权的综合体,主体一定是特定权利人,客体则是特定数据集。
在突破物权局限时,虽然会逐渐变成‘一数多权’,但多权背景下,相关的数权法定制度、数据所有权制度、用益数权制度、公益数权制度和数权共享制度都必须非常完善。”
从数据到数据资产,再到数字资产,还有较远的距离;通往数据资产的道路,可以视为数据资产化或资产数字化。
一般而言,数据作为一种无形之物,不同于传统物权可以被直接或完全支配,数权在数据的全生命周期中有不同的支配主体,所有权并不一定完全属于某个经济主体。
因此数据确权和定价比较困难,另外在安全和隐私方面面临挑战,数据标准化远远不足,数据多元且混杂、交易困难且成本高。
在国内,除了贵州大数据交易所之外,还相继成立了北京、上海、深圳等数据交易所,相信随着深入探索和实践,数据确权、定价、利益分配、隐私保护等挑战会逐一得到解决。
图片、音频、视频,以及观点、理论、文章、书籍或创意,经过不同的人使用、学习、吸收,甚至再创作,期间包含多个人结合新事实、新观点的新修改,或者经过再创作进行迭代,最终可能形成了一整套艺术或知识体系。
这个体系(是数据,或者说是数据集)的权属该如何分配?
这其实是一件很难界定的事情。
是否有可能构建出一个动态扩展的数权体系,对应到多次再创作或加工的数字产品呢?
例如,可否把每个 NFT 的标的物视为一家“虚拟公司”,借鉴股权结构的增发股份等机制来构建数权体系?
实际上,通过区块链这种具有不可篡改、可溯源等特点的技术,能够较好地追踪数据集动态变化的记录,并通过 NFT 体系呈现数据资产的唯一 ID 和市场上的相对价值。
随着区块链的发展以及 DeFi、NFT、GameFi、SocialFi(边交友边赚),未来可能还有 SportFi(边运动边赚)、ReadFi(边阅读边赚)、EduFi(边学习边赚)等新技术、新概念的涌现,大家将逐渐发现,数据也能成为资产。
二、以使用权为中心的平台
数字资产如此重要,如何利用和管理数据,值得更深入的思考和实践。
早在 2009 年 5 月,著名经济学家张曙光在其《使用权是一种独立产权》一文中就提出:
现代的财产制度,应当是一种以所有权为基础、以使用权为中心的财产关系。
所有权解决的是财产的归属问题,使用权解决的是财富的创造问题。
在传统农业社会中,虽然物质不是很丰富,但地球上的人口也不多,靠着自然资源和农业生产,绝大多数人过着自给自足的生活。
此时,争夺和使用资源最有效的办法就是拥有它,成为它的所有人,当时所有权和使用权的统一是主要的和基本的形态。
即便如此,仍然会有一些所有权和使用权分离的情况,例如 A 找 B 借东西,A 顺带送一些农产品或记着欠了 B 的人情将来再还;
再如,地主拥有土地的所有权,佃农取得土地的使用权,佃农将来需要交租给地主。
随着社会分工的深化和经济的发展,尤其到了工业社会,所有权和使用权的分离越来越普遍。
所有者通常不是直接使用自己的财产,而是将其交给专家去经营。
这是由于社会财富的增加和社会生产力的发展并不主要取决于财产的归属,而是取决于财产的使用,尤其是给适合的人充分地利用,使其尽可能增值。
2010 年后,随着 Uber(优步)、Airbnb(爱彼迎)、众创空间的共享办公室租赁模式、滴滴顺风车的出现,共享经济逐渐普及。
而这种经济形态,其本质就是物理世界中,所有权、运营权、使用权分离的程度不断深化。
历史证明,在物权领域,三权分置的每一次深化,都会推动资源配置进一步优化,极大地提升社会生产力。
物权如此,数权更是如此,在数权领域,使用权的地位将更为重要。
张曙光谈及以使用权为中心时提到,“移动互联网信息技术和数字经济发展起来以后,由于数字信息资源和原来的物质资源有两个重要的区别,一是全覆盖,一切社会和自然现象都可以数字化;
二是数字信息资源可以无限复制,而且是零成本无限复制,可以非排他性使用,就是说,你用并不影响我用,大家都可以用。
所以,新经济的发展出现了一个很重要的经济现象,就是从所有权中心向使用权中心转变”。
元宇宙里,财产绝大多数以数据的形式呈现。除了虚实结合的物品以及成形后不再改变的数字产品,绝大多数数据或数据集的所有权难以清晰界定。
而且,数据越用越值钱,因此以使用权为中心的制度思考和设计是必然趋势。
有些数字资产仍能考虑所有权,但所有权和使用权分离将成为主要形态和基本形态。
因此,若想进一步探索元宇宙产业经济制度,可以从“以使用权为中心”的角度展开。
三、区块链存储:下一代云存储
管理和充分利用数字资产,需要“以使用权为中心”,那么保存数字资产呢?
目前看到的可行方案是采用区块链存储。
区块链存储是下一代云存储,是一种分散式存储。
市场上还有其他叫法,如分布式云存储、去中心化存储。
下一节我们将剖析区块链存储是什么?
为什么采用区块链存储?
如何存储?
本节先重点解释为什么需要使用区块链存储来存放 NFT?
其实,NFT 如何存放是数字资产安全可靠与否的核心问题,但在当下普遍被忽视。
NFT 通常包含两部分:
一部分是存储在链上的智能合约或 ERC-721 标准规范的账本,
另一部分是数字藏品的原始数据,如图像或视频。
原始数据在链上存储成本非常高,链上能够使用的存储空间也非常狭小(通常小于 10 兆),所以,智能合约目前通常只会用 URL(Uniform Resource Locator,统一资源定位符,又称网络地址)来指向该作品的实际存放位置,目前对应的多是中心化服务器,偶有中心化的存储。
在 NFT 领域里,大家可能听说过著名的加密朋克(CryptoPunk)头像,曾有 9 个 NFT 头像卖了超过一亿元人民币!
加密朋克是最古老的 NFT,编号“CryptoPunk #3100”的交易价格高达 544.68 万美元。
在智能合约中,我们会发现加密朋克只存储了图片的哈希值。
而 NFT 对应的原始数据,实际上位于 Lava Labs 的中心化服务器上。
Lava Labs 网址对应的图片包含所有加密朋克头像,由编号来决定每个 NFT 对应哪个头像。
类似地,作为全球最大的 NFT 交易平台的 OpenSea,会默认将用户铸造的 NFT 图片存放在谷歌服务器上。
根据 yournfts.org 在 2022 年 4 月的统计,NFT 对应的原始数据有 55%在 HTTP 上,即中心化服务器上。
无论是中心化的服务器,还是中心化的存储,都有风险。黑客攻击或内部超级管理员修改或删除数据,都会导致 NFT 对应的原始数据出问题,这样 NFT 就变成了无体之魂了,就像一本书,正文被撕掉了,只剩下目录。
2021 年 3 月,在加密艺术 NFT 平台 NiftyGateway 上,音乐家 3LAU 出售了一张 NFT 专辑,价格为 900 万美元。
通过 HTTP URL,可以发现其 NFT 对应的原始数据得放在中心化服务器上,后来不知何故,中心化服务器清除了原始数据,但指向它的索引,即 NFT 还在。
虽然我们依然可以在 NiftyGateway 上找到 3LAU 专辑的副本,但 NFT 对应的原始数字资产已经消失了,好比你虽然有保险箱的钥匙,但保险箱里的字画因为环境潮湿已经损坏了。
如果这类事件多次发生,服务提供商将陷入信任危机,甚至面临倒闭。
如果需要持久、可靠、安全地存储 NFT 对应的原始数据,区块链存储可能是当前唯一的方案。
除了 NFT 之外,许多行业或场景,都需要存放隐私数据,例如医疗影像、专利文档、学术论文等,或者寻求能够避免数据被恶意控制或管理的地方,区块链存储对它们来说是一个很好的选择。
第二节 区块链存储的定义和分类
什么是区块链存储?
简而言之,区块链存储就是以去中心化方式组织的,为公链或联盟链的应用提供数据服务的存储。
接下来我们详细介绍两类存储:公链存储和联盟链存储。
一、公链存储和联盟链存储
公链存储
公链存储指的是去中心化的存储+公链,例如 IPFS(星际文件系统)+Filecoin(文件币);
它通常采用跨越全球的存储池+Token(通证)激励机制。一个去中心化的公链存储需要满足以下条件:
(1)自治。
即没有任何实体能够控制整个服务。
项目成熟后,即使创始人和创始团队离开,项目也应该能继续运行。
例如比特币,中本聪离开了比特币之后,比特币还能稳定可靠地不断壮大。
当然在早期平台建设的时候,项目不能脱离核心团队的呵护和迭代,但是完善后,就应进入自行扩展、自我管理的阶段。
(2)开放。
例如代码开源,设计理念公开。
(3)共享。
共享机制必须设置好激励措施,促进个人或者团体愿意共同分享自己剩余的存储资源,从而提高整个社会的存储利用率。
IPFS Filecoin 是全球公链存储中影响力和生态最广泛的项目。
它是一个基于内容寻址的分布式的新型超媒体传输协议,整合了 BitTorrent、DHT(Distributed Hash Table,分布式哈希表)、SFS(Self-Certifying File System,自我认证文件系统)和 Git(版本控制系统)等技术。
IPFS 是一个能跨地域的分布式文件系统,它的目标是将所有设备连接到同一个文件系统,从而成为一个全球统一的存储系统。
跟 HTTP 相比,IPFS 将中心化的传输方式变为点对点的传输,避免了中心化设备宕机所导致的风险,并使数据访问更加快速、安全和持久。
IPFS 也是一个网络协议,而 Filecoin 则是一个基于 IPFS 的区块链存储项目。
简单而言,IPFS 与 Filecoin 之间的关系,类似于区块链和比特币的关系,或者类似于淘宝和支付宝的关系。
换句话说,Filecoin 是 IPFS 的激励层,这个激励很重要,否则只是依靠 IPFS 原来的志愿者来提供存储空间,可能遭遇志愿者的存储节点下线,导致用户数据丢失的情况。
2.联盟链存储
联盟链存储指的是去中心化的存储+许可链。由于许可链中私有链极为罕见,为了简单易懂,本章只讨论联盟链,实际上,私有链可以看成是在一个公司或机构内,不同部门组成的小型“联盟链”。如图 4-2 所示,联盟链存储早期多用本地 NAS,或者私有化部署搭建的 IPFS;它通常包含如下特征:分布式、跨数据中心冗余、不可篡改、加密安全性、集体维护等。

图 4-2 为联盟链服务的区块链存储
截至目前,全球区块链存储项目超过三十个,其中绝大多数都属于第一类,即公链存储。
本文除非特别说明,后面提到的区块链存储都主要指“去中心化的存储+公链”。
在图 4-1 中,标识区块链存储的方框,跨越了横轴的上下方,代表着当前公链存储主要服务于 To C(C 代表 Customer,个人客户)的场景,联盟链存储主要服务于 To B(B 代表 Business,企业客户)的场景。
不过在较远的未来,公链存储也能服务于 To B 的业务。
区块链存储也属于软件定义存储的一种。软件定义存储分为三个阶段:抽象、池化和自动化。
抽象,即解耦,因为如果硬件被锁定,存储资源无法被灵活调用;
池化,即虚拟化,这样才能资源共享、随需分配和动态扩展;
自动化,存储资源由软件来自动分配和管理。
在区块链存储出现之前,第二个阶段,即池化阶段,通常是在一个存储阵列内,或者一个机柜、机房内实现。
区块链存储其实是跨越全球各个国家的存储资源在超大范围内池化,难度很大,但具有广阔的前景。
早在 2000 年,全球就出现了区块链存储的雏形。
加州大学伯克利分校 OceanStore 团队的领军人物约翰·库比亚托维奇(John Kubiatowicz)在全球计算机顶级会议 ASPLOS(Architectural Support for Programming Languages and Operating Systems 的简称)上指出,OceanStore 先于 Bram Cohen 在 2001 年 7 月第一次发布 BitTorrent P2P(对等网络)软件时就提出了 P2P 存储系统的设想。
OceanStore 的目标是打造一个跨越全球的持久化存储,希望用户可以在任何时候、任何地点、通过任何设备接入 Internet,并访问存储在 OceanStore 中的数据。
可惜的是,OceanStore 在其官方网页的最后一次更新时间是 2011 年 3 月 22 日,在笔者看来这个项目没有成功至少有两个原因:
(1)经济补偿(即激励体系)难以落地,彼时还没有像 Paypal 这样便捷的即时支付系统;
(2)IT 硬件条件较差,比如网络,致使存储服务等级难以保障。
进入 21 世纪,比特币诞生之后,StorJ(一种去中心化网盘)和 IPFS 等相继出现,使得区块链存储进入更多人的眼帘。
如图 4-3 所示,2018 年,全球权威咨询机构 Gartner 在其著名的技术成熟度曲线中,就将区块链存储列入其中,位于五个阶段中的第一阶段,即创新触发点。
区块链是组合创新,不只是 IT 技术的集合,还包括经济、社区等方面的创新。区块链的基础设施包括 IT、经济、法律、组织(如社区)等不同方面。
其中,区块链 IT 基础设施其实就是去中心化的云计算平台,其重要组成部分包括区块链存储,它的目标是在全球范围内实现存储资源的共享。
区块链要发展,区块链 IT 基础设施必须先行,但目前,区块链还处于非常早期的阶段,区块链 IT 基础设施刚刚萌芽,区块链存储作为其中一部分,离成熟商用还较远,也因此制约了公链 DApp(去中心化应用)的发展,包括元宇宙的发展。
早期,有些 DApp 迫不得已将链下数据放在自己的数据中心内,或者放在 AWS 或阿里云等公有云存储之上,但这只是权宜之计,属于过渡期的无奈选择,因为支撑去中心化应用的 IT 基础设施最终必须是端到端的去中心化结构。

图 4-3 Gartner 2019 区块链技术成熟度曲线图
二、区块链 IT 基础设施的三权分置
为什么在区块链 IT 基础设施里,包括区块链存储里,单一个体无法控制整个存储系统?
为什么这种方式能保护数据的隐私,确保数据不被泄露?
为了回答这两个问题,我们首先把传统的信息化系统粗略地分成三个层次:硬件系统(如服务器、存储、网络)、软件系统和业务数据。
实际上软件系统还分为:基础架构层,如操作系统;中间层,如中间件 WebLogic、WebSphere、JBoss 等,以及数据库 Oracle、DB2、MySQL 等;
应用层,如 CRM 客户关系管理、ERP 企业资源规划、OA 办公自动化等。
为了更好理解,我们接下来的讨论仅围绕硬件系统展开。
IT 基础设施的三权分别指所有权、运营权(或叫经营权)和使用权。
其中运营权指的是运维、管理、升级、扩容等权利。
如表 4-1 所示,IT 基础设施的三权分置的发展分为三个阶段。
表 4-1 IT 基础设施的三权分置

阶段一:传统数据中心。
例如某家银行,其 IT 部门是成本中心,不是利润中心,所有权、运营权和使用权都是三合一。
这种方式有个问题,假设以年为单位,必须按预期最高峰的性能负载和容量负载来购买硬件,例如应对双十一的交易需求。
但这样一来,如果平时负载远低于高峰时期,很多 IT 资源就闲置了。
阶段二:公有云提供商。
云计算出现之后,实现了部分系统所有权和使用权的分离,仅此一点,就引发了全球 IT 的大变革,IT 资源按需分配,按用付费,实现可弹性扩展。
不使用资源的时候,可以释放资源,节省了成本。
阶段三:区块链 IT 基础设施,即去中心化的云平台。
目前比较知名的有以太坊希望成为一台“世界计算机”、
Dfinity(类似以太坊,欲打造分散式“互联网计算机”)、
IPFS Filecoin(区块链存储,分布式的全球文件系统)
GridCoin(GridCoin 是与志愿计算 BONIC[插图]结合的项目),
另外还有 Arweave(类似 FileCoin 的新的去中心化存储平台,有一些 NFT 存放在上面)、
Handshake(去中心化域名系统,提供去中心化互联网和 Web 资源的映射)、
SmartMesh MeshBox(SmartMesh 是基于区块链的物联网底层协议,MeshBox 是分布式路由存储设备)、
AirWaive(基于区块链的去中心无线宽带平台)等。
需要注意的是,列出这些项目,仅仅是为了在探索未来演进的可能路径时方便举例,并不代表我推荐这些项目。
当运营权和所有权、使用权分离后,就新增了一个角色——Miner(矿工),这个角色是在区块链 IT 基础设施中特有的,也是基础性公链中不可或缺的。
矿工是 IT 硬件系统的所有者,贡献了 IT 资源,形成了区块链 IT 基础设施的资源池。
区块链 IT 基础设施其实就是一种去中心化的云,辅助以 Coin(币)或者 Token 的激励机制。具有重大意义的进步是,继所有权和使用权相分离后,运营权和所有权也分离了。
无论是硬件系统,还是软件系统(公链),区块链项目方没有所有权,只有运营权!正因如此,它才赢得更多的信任,生态可能进一步壮大。
当权利分成更细的颗粒度,并且每个粒度给予不同的角色时,物尽其用才成为可能,并有机会发挥到极致。
例如按部分租赁的共创空间,一栋高楼如果按照桌位出租,远比按照楼层出租,更能提高空间利用率。
我们不妨思考一下,在软件系统,如基础架构层的操作系统、中间件层,有没有三权分置的可行性?
它的利弊如何?
也许深入探索有助于催生不同层次的元宇宙 IT 基础设施软件提供商。
三、案例分析
我们在前文举例并分析了目前 NFT 存放在中心化服务器或存储的潜在风险。其实,类似的例子屡见不鲜。
2021 年 3 月 9 日,加密艺术家 Neitherconfirm 发现,在 NFT 交易网站 OpenSea 上,即使图像对应的 NFT 处于拍卖状态,他也能修改,比如将最初以彩色玻璃风格描绘人物和动物脸部的图像,改成地毯照片,也就是说 NFT 指向的原始数据已经变化。
这意味着原始数据资产很容易被修改、重定向或删除,但类似索引数据的 NFT 却依然如故。
因此,Neitherconfirm 感到困惑,NFT 存储资产的可靠性何在?2021 年 3 月 9 日,协议实验室(IPFS 和 Filecoin 的项目方)创始人胡安(Juan Benet)在 Twitter 上转发艺术家 Neitherconfirm 这个困惑的时候,评论道:“Not on IPFS,not your NFT.”即“不在 IPFS 上的 NFT,不是你的 NFT”。
胡安说的有一定道理,不过,如果这句话换成“不在区块链存储上的 NFT,不是你的 NFT”就更准确了。
第三节 区块链存储如何发展
我们在前文分析了为什么需要区块链存储、什么是区块链存储以及区块链存储的分类。
本节我们先从一个反例开始,来探讨区块链存储发展的注意事项。
2017 年 8 月,迅雷公司推出新一代智能硬件(共享计算)玩客云。
玩客云号称是“会赚钱的私人云盘”,提供畅快下载、随存随取、文件管理、远程操控、多媒体娱乐等功能。
除此之外,借助玩客云,无数个人用户还可以将家中闲置带宽、计算、存储等资源分享出来,并最终被转化共享计算服务,可以大大降低互联网企业的运营成本。
2018 年 5 月 23 日,央视《经济信息联播》报道,用户通过手机玩客云 App 互联,将家里的闲置带宽通过迅雷云计算技术的转化,把其中上行带宽、下行带宽、存储空间等提供给有需要的企业。
而这些用户也会根据自己带宽的不同、贡献出的量的不同,获得相应的“链克”奖励。
这些奖励可兑换迅雷、爱奇艺、优酷等会员。
《2018 年中国区块链产业发展白皮书》中也提到,迅雷通过其技术为社会节约了价值近 15 亿元人民币的带宽资源,相当于节省了 6000 万度电,减少了 50250 吨二氧化碳排放。
截至 2018 年 4 月 16 日,迅雷通过玩客云为全社会提供了 150 多万个加速节点、超过 1500PB 的海量存储空间和 30Tb/s 的储备带宽。
客观地说,这个项目的模式值得借鉴,基于“链克”的激励,将成千上万个用户的闲置带宽和存储空间汇聚起来,形成分布式 CDN(内容分发网络),出租给互联网视频厂商,能够促进物尽其用,并有利于环保和降低碳排放。
令人可惜的是,项目的设计有瑕疵,其发展也失控了。
在投机风最盛之时,“玩客云”矿机堪称一货难求,上千万人在官网上拿号排队等候,每逢出货便被用户扫荡一空。
在这种疯狂的市场需求下,“玩客云”矿机的现货价格从官方指导价每台 399 元,一路暴涨至每台 3000 多元。
虽然项目失败,但其经验教训,以及这个模式值得进一步思考,也给我们带来一些启发,用于指导未来的设计。
如何维持志愿者的使命感,保持他们对全球科研的情怀,同时又激励更多的人参与到项目中来,让协作在全球范围内不断扩大?
BOINC 与 Gridcoin 的结合(类似 IPFS 与 Filecoin 的结合)就是一个值得借鉴的正面例子。
据报道,截至 2021 年 4 月,BOINC 在全世界拥有 76297 名活跃志愿者、302152 台活跃主机,24 小时平均算力为 28.357 Peta(千万亿)FLOPS(每秒浮点运算次数),相当于全球排行第九名的单台超级计算机。
在 2020 年 3 月的巅峰期,受新冠肺炎疫情影响而引发的公众对科研项目的热情,使得 BOINC 的 24 小时平均算力达到 41.548 Peta FLOPS。
一、设计原则
去中心化的公链存储需要满足以下条件:自治、开放、公开、共享。
不但区块链存储如此,所有区块链 IT 基础设施的组成部分,如区块链网络、区块链计算,都应满足上述条件。
自治、自愈
“自治、自愈”意味着去项目方。
项目方在早期设计的时候,就要思考“如果项目方不在了,这个系统如何能实现出故障后自我愈合、自行扩展、自我管理?”
这就意味着,在 Token 激励机制中,要事先考虑没有项目方运维和管理的情况下,如何保障整个系统的安全、稳定、高效和高性价比,并符合市场的动态变化,进行资源的合理配置。
这就需要项目方在早期设计的时候,按照三权分置的原则,充分考虑包含运营、开发、社区、用户等相关利益者的需求,精心设计出一套分权制衡但能持续发展的体系。
唯有如此,才能真正做到获得包括矿工、用户等在内最广泛相关者的信任,用户才真正愿意为保护隐私(数据不泄露)付出额外的费用,生态才能良性扩大。
2.开放、开源
代码开源,设计理念公开。
当项目方试图牢牢地将控制权抓在手里的时候,往往事与愿违,愿意加入到这个项目方生态的人就难以增加,因为项目方难以自证清白,获得程序员、矿工、用户等生态全部相关人员的信任。
公链项目长期来看无法偏居一隅,通过全球协助才能将生态做大。
传统巨头只有极少数能够超越自己的,即愿意遵循开放开源的区块链精神,让渡控制权,通过壮大生态的方式来获利。
因为这意味着将成长壮大的空间留给了初创公司或项目方,然而项目方的公信力的建立是极具挑战性的,除了顶尖团队的人才和技术能力之外,能够以更大的格局和包容的心态吸引大家参与也非常重要。
例如,迅雷玩客云除了投机导致的剧烈波动之外,还有一个软肋——只允许项目方自己生产的硬件设备去获得 Token,这使得玩客云的用户群体难以拓展。
假设某传统巨头有 1000 万用户,真正认可且有勇气和能力尝鲜的用户毕竟是少数,假设有 1%的用户参与到其公链项目中,即 10 万用户,但 10 万松耦合用户所构建的经济体,不足以支撑一个产业持续发展。
如果公链项目方以经营平台的心态,愿意在早期之后,通过让渡硬件的获利,转而允许更多提供商加入到生态中,这样将有机会吸引更多的供方和需方(因为匹配需求的概率,随着供方的增加而加大,如滴滴),形成更大的平台,从而获得更多的获利渠道。
例如构建起百万甚至数千万用户的庞大经济体,新增的供方和需方带来了资金和流动性,Token 也能有更高的价值。
换句话说,在区块链思维里,不只是通过产品或服务来获利,还要考虑通过生态的壮大,提升 Token 的价值,使得利益相关者都能从中获利,获得参与感和成就感。
另外,开源还会使你的错误无处遁形,换句话说,通过全世界感兴趣的极客,来帮助项目方快速迭代,反而能够使得系统更加健壮和稳定。
而且程序员、矿工、用户、投资者等整个社区或生态里面的人,会因为尊重感(公开透明所蕴含的信任)、参与感和获得感,想方设法来维护系统的稳定和发展,这也是区块链精神(平等、协作)的一种体现。
3.激励、共享
共识机制必须设置好激励措施,在不断迭代过程中,最终一定要尽可能降低门槛,让个人或者团体愿意并利用自己剩余的存储资源,通过提高全人类的存储利用率,使得去中心化的云存储(也即公链存储)能和中心化云存储并肩发展,获得属于自己的生存和发展的空间。
在项目早期,存储空间的贡献者可能大部分来自“非正规军”,如那些为了投资获利的非专业人士;
随着需求的增加(从 C 端用户到 B 端用户),以及用户对可靠性(如 12 个 9 的可用性)、性能(如低于 0.1 毫秒的访问时延)等要求的提升,贡献者中逐渐出现 IT 厂商、IDC(互联网数据中心)、云服务商甚至 IT 巨头等“正规军”。
因此,设计更细颗粒度的 SLA(存储服务等级)价格体系,就变得很重要了。
贡献者中除了商业组织之外,还有公益组织及许多有情怀的人,如前所述的 BOINC 计算的志愿者。
可以考虑先树立好项目的长期愿景,为人类做贡献,包括但不限于航空航天、生命科学、医疗健康、普惠教育等领域,如 BOINC 为抗疫的科研项目提供算力服务,以及建立良好的反馈机制,这样做都是有价值的。
例如,国内有一位高三的学生曾表示,看到有科学家使用 BOINC 发表了文献,为人类造福,他感到很自豪,并不是特别在意获得了多少 Gridcoin。
因此,可以思考更多的合理手段,鼓励志愿者参与。
在设计新的区块链存储时,也可以讲好故事,例如结合全球或者国家重大科技项目如脑科学和类脑研究,或者大科学装置如 FAST 等。
另外,设计激励的时候,除了物质(Token、商品或服务)奖励,不要忘了精神奖励,例如排名、科学家的感谢信、参加科研讲座或分享活动享有优先权,等等。
当然,需要注意的是,任何没有商业利益、形成闭环的项目,都难以持久。例如,BOINC 将算力租给科学家使用,是不是全都是免费的?
如果是,其实可以考虑适当收费,一是避免算力的浪费,二是能够结合运营手段,让提供算力服务的人群享有更多的物质或精神奖励,促进良性循环,进一步壮大生态。
我们相信,在数字化转型、数字化大迁徙的过程中,个体或组织为了隐私、更强的信任和更安全可靠的存放,付费的意愿会逐渐增加,这就是区块链存储的发展空间以及数字资产发展的必然趋势。
4.安全、可靠
由于存储存放的数据已经逐渐成为数字资产、数据要素,区块链存储的安全性、可靠性成为重中之重。
我们先来看一下数据要素如何起作用。
如表 4-2 所示,数据作为生产力新要素,通过与 AI 的结合,还可以成为生产资料或生活资料(数字化身的)。
表 4-2 数据要素如何起作用

无论是个人、企业,还是政府,当意识到数据,尤其是隐私数据如此重要的时候,是不会轻易分享数据的,因为这意味着将这一权利、资产拱手相让。
然而数据如果不共享,它的价值就大大地减弱,那么如何既能促进数据共享,又能够保护数据的隐私,让用户觉得这一行为安全、可靠呢?
除了信赖平台方或项目方的信用之外,在区块链领域,有一个很重要的相关技术:
零知识证明(Zero-Knowledge Proof),其背后的数学原理涉及同态加密,比如用来帮助数据共享的联邦学习就是同态加密在 AI 领域的应用之一。
零知识证明是由莎菲·戈德瓦瑟(Shafi Goldwasser)、西尔维奥·米卡利(Silvio Micali)及查尔斯·拉科夫(Charles Rackoff)在 20 世纪 80 年代初提出的。
它指的是证明者能够在不向验证者提供任何有用的信息的情况下,使验证者相信某个论断是正确的。
零知识证明实质上是一种涉及两方或更多方的协议,即两方或更多方完成一项任务所需采取的一系列步骤。
证明者向验证者证明并使其相信自己知道或拥有某一消息,但证明过程不能向验证者泄漏任何关于被证明消息的信息。
大量事实证明,零知识证明在密码学中非常有用。
如果能够将零知识证明用于验证,将有效解决许多问题。
下面我用一个比较夸张的钱包失而复得的故事来解释:
有一天,小郑在火车站丢了钱包,里面有钱和身份证,他记得身份证号码,但不记得有多少钱了;
火车站的工作人员小陶拿到了钱包,通过广播请失主来认领;
但是去了五六个人,大家都围着小陶,都说那是自己的钱包。
小陶如何在公共场所提问,才能够不暴露身份证号码,又尽可能判断出回答者是否是真正的失主呢?
使用零知识证明技术,可以这么提问(如果身份证号码最后一位数是 X,就当作 0):
(1)18 位数的身份证号,从前到后分成 6 组,每组有 3 位数,请告诉我每 1 组的第 1 位,即 6 个数的总和除以 7,余数是多少?
(2)18 位数的身份证号,从前到后分成 3 组,每组有 6 位数,请告诉我第 2 组的 6 个数的总和除以 3,余数是多少?
(3)18 位数的身份证号,选取第 2、7、10、13、17 位上的数,总和除以 5,余数是多少?
以此类推,不同的人提不同的问题,每一轮问题都会筛选掉一些人,这样只有极小的概率能够猜对。
几轮问题下来,能猜对的概率几乎为 0。
零知识证明并不是数学意义上的证明,因为它存在小概率的误差,欺骗者有可能通过虚假陈述骗过证明者。
换句话来说,零知识证明是概率证明而不是确定性证明。
但是也存在技术能将误差降低到可以忽略的值。
不过,零知识证明可以使概率逼近到 0,同时又不泄露隐私,关键是使用它的成本极低,因此可以广泛应用于区块链存储的设计当中,增加安全可靠的程度。
当然,安全可靠的设计仅利用零知识证明技术是不够的。
大部分区块链存储的潜在用户关注的是避免隐私泄露,还有部分用户关注的是数据不丢失,并且能随时访问数据。
这样,确保矿工在其按合约提供数据服务的期间,不能轻易下线就变得很重要了。
那么设计之初,是不是要考虑针对轻易下线的严重惩罚?
以及如何补救?
结合前面提到的自治、自愈,我们将在下一节探讨在演进过程中,如何通过设计来提升可靠性。
二、挑战和建议
无论是区块链 IT 基础设施,还是区块链存储,在全球都处于前沿探索领域,当下并没有哪个项目的设计、实践是放之四海而皆准的。本文也只是笔者结合一些项目、经验和思考提出建设性的观点,希望对读者有所启发。
面临挑战
前文提到,区块链存储现在还处于非常早期的阶段,目前大多仅能用于在线归档、云盘等,主要受限于当下的软硬件条件、系统架构、所处阶段(区块链存储应先解决什么痛点)。
刚开始的时候,百花齐放,各有千秋,每一个区块链存储项目自成生态。
但是,随着各自的演进,尤其是 Token 获益或者项目收益的高低不同,存储矿工基于天然的逐利特性,会不断重现节点加入或退出不同存储公链的现象,频繁的节点退出容易导致用户数据丢失或者系统不稳定,一旦发生多次丢失用户真实数据的事件,可能给这个区块链存储项目带来毁灭性的灾难,例如 Token 很快归零或者几乎为零,后续东山再起就很难了。
因此在早期架构设计的时候,就需要考虑以下几个方面:
(1)是否需要建设或以租用的方式,构建项目方自己的数据中心,确保数据至少有一份完整的副本存放在可靠的位置?
(2)如何设置抵押机制,并权衡好矿工加入的门槛,以及退出的代价?
如何设置自动化的市场动态调整机制,能够快速响应存储供需市场的变化,使得资源最优化配置,降低项目方生态的 TCO(总体拥有成本)?
(3)无论机制的设计如何深思熟虑,也难以避免实际运行过程中用户数据的丢失或不可访问,那么应该如何补偿?
2.建议方案
矿工节点的下线是无法避免的。
如何保证数据不丢失和可持续访问呢?
首先,项目方早期需要构建或者租用 IDC,确保数据至少有一份完整的副本存放在高可靠的数据中心环境里。
其次,类似 Filecoin,通过抵押机制,采用扣减抵押 Token 的方式,极大减少矿工退出的意愿。
再次,可以设计一种按需动态调整全球存储池大小及单 TB 价格的激励机制。
可以考虑预留一部分(例如 5%)Token 作为跨全球存储池的“保险基金”。
这个保险基金并非是只出不进的,会随着供需关系的变化有所增减。
全网存储空间供过于求的时候,一段时间后,单 TB 价格需要自动降低,促使矿工自主有序地退出,避免浪费社会资源;
此时可能因矿工退出导致用户数据不可用,需要从保险基金支出作为补偿,基金池变小。
随着矿工的逐渐退出,全网存储空间逐渐呈现供不应求的态势,单 TB 价格需要自动升高,额外收益可纳入保险基金,基金池变大。
如果不是因为用户自身的原因导致数据丢失,或者不可访问,区块链存储运营系统则从保险基金池里进行赔付。
早期的实现可以按照一个绝对数进行赔付;
迭代多次的话,结合实际运营经验,可通过算法能力的增强,根据数据的读写频次、数字资产的标价等情况进行综合考虑,采用相对于市场在某个时间段内单 TB 价格的某个比例进行赔付。
3.建设模式
除了类似 IPFS Filecoin 这种跨越全球的存储池+Token 激励机制这种建设模式之外,结合中国实际,或许还有如下两种可能:
(1)政府先行+集资建设
为了把数据主权把握在国家手里,或许可以由央企、国企,或者各部门、省地市政府立项,完成初始阶段一定规模(如 100PB)的早期建设,然后再由多家企业共同建设和获取收益,如同已有的区块链“国家队”:
●BSN:Blockchain-based Service Network,基于区块链的服务网络,由国家信息中心、中国移动、中国银联、红枣科技在 2019 年 10 月发起。
●星火·链网:中国信通院于 2020 年 8 月推出。
●长安链:科学技术部、工业和信息化部、国务院国有资产监督管理委员会等各部门及北京市政府在 2021 年 1 月发布。
(2)云厂商先行+三权分置
做好架构设计及部署后,以自己的品牌和实力作为初始信用背书,吸引不少需求端的加入,继而愿意放弃自己的中心化控制权。
这点很难做到,需要学习中本聪、维塔利克·布特林(Vitalik Buterin)的观点和实践,将所有权和运营权一步步剥离,或者允许资源池中自己所有权的占比逐步下降,换取更多供给端(甚至包括竞争友商)和需求端的加入,以及用户的信任,从而壮大分布式云存储的生态。
4.演化步骤
受限于使用习惯,To B 接受新存储会非常谨慎,尤其是当数据上升为数字资产的情况下。
另外,当下区块链链下数据大多还是围绕着非结构化数据,需要以保护隐私的方式做长期存储;
而且受限于网络等硬件条件,预期区块链存储服务的用户会先从 To C,再到 To C 和 To B 并存。
(1)先 To C
区块链存储最终是要为更多的个体和组织(包括企业、政府等机构)服务的。
刚开始,为 To C,即消费者提供存储服务。
例如目前的区块链存储明星 IPFS Filecoin,当下适合存放个人消费者的非结构化数据,如文档、图像、音频、视频等。
IPFS 系统并未主动实现数据的冗余备份,只有当上次数据的用户主动将数据的哈希值(可以理解为数据存放位置的钥匙)分享给他人,并且他人真正访问了这份数据后,才会在他人机器上缓存这份数据;
而且如果该用户和其朋友同时离线,这份数据很可能会丢失。
新版本的 Filecoin 会解决这个问题。在非中心化云存储 StorJ 和 IPFS 目前的设计机制中,都没有将企业级存储高度关注的可靠性、可用性、稳定性、时延、性能等指标考虑到区块链的共识机制当中。
从其奖励数字货币的激励机制也能看出端倪,激励机制针对检索、存储空间和时间;
因此当下作为矿工节点的设备主要关注的是单 TB 的成本,尚未考虑单 IOPS(每秒输入输出个数,即性能)。
由于对可靠性要求不高,存储服务器就能满足要求。
(2)再 To B
我相信未来有一天,区块链存储除了承载非结构化数据之外,也能承载类似数据库对应的结构化数据,即能用于 To B 用户。
To B 用户首要考虑的是数据的安全性,通常愿意为数据的隐私额外付费;其次,用户会对 SLA(存储服务等级)提出一定要求,例如可靠性、性能、时延等。
这就意味着,存储区块链的共识机制中,必须还考虑这些因素,安排奖惩机制,例如设备离线不但不积累 Token,可能还会受到严厉惩罚;
时延在 1 毫秒以内的,比在 10 毫秒以内的能获取更多的 Token。
这样,作为矿工节点的设备,要提供高性能并且低时延,配置 SSD 是不错的选择。
当硬盘故障可能招致 Token 被扣除时,具有高可靠性(使用硬盘的冗余技术、副本或纠删码等方法)的存储系统(双控制器甚至多控制器)可能会成为必须。

