
大数据的一大特征就是海量数据。
数据量大,就对数据库的性能有了更高的要求。
首先是能够存储足够多的数据,其次是保证数据稳定不能被篡改,还要保证数据质量高、可使用,不是无效数据。
现在大数据技术的核心思想仍是集中式的数据库技术。
这种数据库要想能够存储足够多的数据,就需要大量的硬盘空间,这对计算机有较高的要求。
即使能够存储海量数据,为了满足保证数据稳定不被篡改,集中式数据库就需要有快速查找数据并进行验证的能力,这在数据量过多的情况下是很难做到的。
另外,集中式数据库由于没有办法确认写入数据的来源,自然也就没有办法达到保证数据质量的要求。
这些不足是由集中式数据库本身的特征决定的,如果不改变数据库“集中式”的特征,就没有办法解决这些问题。
区块链技术作为分布式数据库的典型代表,正好能够为这些不足做出弥补。
要想理解区块链的存储优势,还要从分布式存储技术开始介绍。
顾名思义,分布式存储依旧是数据存储技术的一种。
分布式数据库和普通集中式数据库的不同之处在于前者的数据并不存储于某一孤立的数据库,它可以通过网络使用每台计算机上的磁盘空间来存储数据。
在分布式存储技术中,系统内的所有计算机共同构成了一个虚拟的存储设备,数据被分散地存储在网络的各个角落。
如果把数据资源比作鸡蛋,分布式存储技术的做法就是把鸡蛋(数据资源)分开放入不同的篮子(硬盘空间)中,降低了因为鸡蛋(数据资源)日益增多带来的篮子(硬盘空间)容量不足的风险。
分布式存储技术虽然将数据资源分割存储,但是并没有影响数据之间的联系。
相反,由于分布式存储技术中的每个节点(计算机)都是互相验证互相联系的,每一个节点的数据资源信息都会在其他节点处有所反映。
一旦有某个节点的数据和其他节点处不同,就能够迅速被查出。
由于这些节点设备成千上万,拥有者几乎互不认识,也就不存在通过篡改全网节点数据来修改某一数据的可能。
基于这种共识,以分布式数据存储技术为核心的区块链技术成为了数据库的强信任背书。
下面以最火的虚拟货币比特币为例具体说明区块链的数据存储能力。
比特币是基于去中心化的思想的,所以新的比特币的产生和发生的交易记录就不能够集中存储在一个数据库中,只能存储在世界上所有的电脑中。
看起来这种方式极为简单粗暴,每一台电脑似乎都有资格存储比特币的所有交易记录,但是实际上只有赢得了区块链系统中算力竞赛的电脑才有资格获得比特币和比特币交易记录,也就是说能够参与到写入数据中的电脑都是有着优秀的数据处理能力的,这样就保证了系统中不会出现性能不好的电脑,避免了后期的隐患。
算力竞赛限制了进入区块链系统的性能门槛,但却没有限制能够进入其中的电脑的数量。
只要电脑的数据处理能力够强大,就可以得到参与记账的机会。
因此,区块链中能够容纳的电脑数量并没有上限,也就是说,区块链系统拥有存储海量数据的潜能。
随着比特币发行数目的增多,参与比特币交易的电脑数目也在增多,这样比特币的每一笔交易记录都有足够空间来存储。
如果对某一笔交易有疑问,可以通过数据追踪,一直查到该比特币的产生记录。
由于区块链分布式记账的特点,没有一个唯一的中心系统来记录所有交易,相反,所有的计算机互相验证保证某次比特币交易是首次出现,那么世界上每一笔比特币的交易都会由区块链中所有电脑进行记录。
在这种情形下,交易记录几乎不可能被篡改,交易数据的可信任程度也就大大提高。
从首批比特币发行到至今,在没有第三方平台扶持的情况下,比特币系统已经平稳运营了10年,区块链中数据的可信任性得到了强有力的事例支持。
除了区块链的交易,实际生活中的金融交易也应用了区块链技术来加强数据库的可信任程度。
LINUX基金会曾联合IBM开发了一款叫作HyperledgerFabric的分布式账本平台方案,并升级发行为1.1版本。
该平台以区块链为底层架构,开发了新式的背书共识分离的多链条多通道架构,能够将交易的合约执行、区块验证和成功交易数据写入账本操作互相分离,用以提高业务适应性和速度。
在该平台中,数据可以实现私有化,交易信息仅有交易的参与方才能够看到。
而且由于支持各种状态的数据库和文件类型,系统的协同程度也大大提升,从而加快了交易速度,一般状态下交易数目可达300笔/秒,最佳状态甚至可达1,000笔/秒。
由于数据基于区块链具有可追溯的特点,可信任度高,且交易速度够快,该系统已成功在资产托管等中低频次金融场景获得了应用。
无论是起源于比特币的基础区块链技术,还是后期更新改进应用于金融的区块链技术,都是基于其分布式账本的特点的。
在分布式账本中,数据由全网验证通过后写入,拥有着整个系统中的信任支持。
基于分布式账本理念的区块链数据不可篡改、来源可查,数据质量也就有了保证。
区块链技术能够为大数据的存储提供强有力的信任背书,将会使数据库的发展进入一个新时代。


