本文由:实盈集团Edward推荐。
实盈财富管理:大型机构和客户的财富管理专家,独享高端的资产管理服务。如果您喜欢我们的内容,请点击右上角分享之您的朋友圈。
大数据技术的发展,使量化投资突破以往瓶颈、紧跟时代创新成为可能。如何深刻理解大数据的内涵,又怎样在大数据背景下重新定位量化投资、把握两者的关系从而展望未来,成为当下的一个重要课题。
大数据有4个V
若要谈及大数据与量化投资的关系,那么首先我们要理解什么是大数据。大数据(Big Data)是指“无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合。”业界通常用4个V(即Volume、Variety、Value、Velocity)来概括大数据的特征:
1.数据体量巨大(Volume)。截至目前,人类生产的所有印刷材料的数据量是200PB,而历史上全人类说过的所有的话的数据量大约是5EB(1EB=210PB)。
2.数据类型繁多(Variety)。相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高要求。
3.价值密度低(Value)。价值密度的高低与数据总量的大小成反比。如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。
4.处理速度快(Velocity)。这是大数据区分于传统数据挖掘的最显著特征。根据IDC的“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2ZB。在如此海量的数据面前,处理数据的效率就显得尤为重要。
大数据,不止是量还是技术
大数据包括两层含义:
第一层含义是指数据量,如上文所指,是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助决策者进行决策的的资讯。在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中指出: 大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据的方法。
同样的,大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。因此大数据有这样的第二层含义:大数据是一个与解决过去因技术限制和/或过高的成本而无法解决的业务问题所需的新型工作负载和基本技术相关的术语。
大数据不仅仅与数据量有关。它可能是数据量中等但数据种类(数据和分析复杂性)极高的数据。大数据分析的主旨在于:与数据量、数据速度和数据种类(可能包含复杂的分析和复杂的数据类型)的某种组合相关的分析工作负载。因此,大数据可能与结构化和多结构化数据相关,而不仅限于后者 。正因如此,大数据分析可能包含传统数据仓库环境,因为某些分析工作负载可能需要同时使用传统平台和针对工作负载优化的平台来解决业务问题。大数据不能取代数据仓库。实际上,数据仓库是扩展分析环境的一个组成部分。
从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘,但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。
大数据发展,量化投资新机遇
大数据按照来源的类型大致可分为三类:
1.传统企业数据(Traditional enterprise data):包括 CRM systems的消费者数据,传统的ERP数据,库存数据以及账目数据等。
2.机器和传感器数据(Machine-generated /sensor data):包括呼叫记录(Call Detail Records),智能仪表,工业设备传感器,设备日志(通常是Digital exhaust),交易数据等。
3.社交数据(Social data):包括用户行为记录,反馈数据等。如Twitter,Facebook这样的社交媒体平台。
在以上分类中,金融数据属于最为重要也是相对传统的第一类,包括了交易数据和投资行为数据。一般而言,传统上我们进行量化投资,使用的是这一类数据,但是随着大数据技术的发展,越来越多的交易者和研究员开始使用以上三种类型数据中的一种或多种。这些数据反映了交易的参与者和相关者在交易行为之前的动机和交易过程中的行为,利用海量的数据基础,使用概率论来进行分析,并进一步做出投资决策,是量化投资的一个发展趋势。大量的实证表明,我们日常行为通过大数据技术处理可以被预测准确的概率达到93%一样,人们的参与投资与交易的行为同样可以被高度预测,过去的几十年中,预测准确率无法有突破性的进展的一个重要原因,不是研究者的理论基础缺乏,而是缺乏足够的试验数据材料。
这就好比航空工业中,虽然有发动机的理论基础及设计图纸,但是缺乏符合其强度要求的材料和适合的加工工艺一样,量化投资作为一种方法论,虽然逐渐被人们所认可,但是缺乏足够的数据来完全实证解释相应的经济及金融现象。同时采用抽样统计的方法,也不能全面的反映市场轮廓,直到大数据技术的发展,使这一切都成为可能。
大数据之于量化投资的核心价值
那么,大数据在量化投资中的核心价值又是什么呢?考虑到量化投资的一般步骤是:1.事件数据化;2.描述建模;3.实证分析;4.分析预测;5.策略建模。我们认为大数据在以上的过程中,最大帮助是分析与预测行情发展的走势。
有分析才能精准
我们先看分析方面,随着计算机设备的小型化和无线网络技术的发展,人们已经可以随时随地进行信息获取。然而不便之处在于,在获取信息的同时,我们往往要去考虑所筛选的信息是否真正有用。大数据的发展将会解决这一问题,系统将会按照量化交易者的需求对信息进行筛选整合,将有用的信息精准呈现到交易者眼前。因此,数据分析已经渗透到证券和期货行业与相应的业务职能领域,成为重要的生产因素。
大数据被认为是继云计算、物联网之后的又一大颠覆性的技术性革命,不过相对于云计算对数据资产的保管功能,大数据才是真正对于投资基金有价值的资产。投资及交易领域的发展天生就依赖于大量的数据分析来做决策,而如今正处于数据大爆发的时代,如何获取这些数据并对这些数据进行有效分析就显得尤为重要。特别是随着移动互联网的发展,信息的传输日益便利,端到端的需求也日益突出,对于整个量化投资领域而言,大数据市场是等待挖掘的金矿,作为量化投资基金而言,可以说谁能掌握和合理运用大数据的核心资源,谁就能在接下来的技术变革中进一步发展壮大。
量化投资的大数据优势:
虽然在最近的几十年中,数据分析已经渗透到了量化投资领域,应用也越来越多样化,但是单一的数据存储和分析已经远远不能满足交易者的发展需求,特别是处在高速发展中的衍生品交易领域。相较于传统的共同基金,量化投资基金在数据资源、基础资源、平台资源以及专业技术支撑上拥有先天性优势,所以在大数据价值的挖掘方面将会更有优势。
量化投资的挑战与尝试:
凭借着对于市场的敏锐感知,一些量化投资基金早已在数据资源的积累和挖掘方面有所部署,他们通过蜘蛛程序抓取网页上人们的注册和身份信息来构建人群的基本数据形态,同时还可以及时将人群的上网行为信息补充进去,构建全方位多角度的数据模型。使用计算机根据这些已经获得的信息做出相应分析,智能的分析市场中某一群体对当下经济形势的看法,实现数据的价值。特别是对于一些互联网巨头所主动提供的数据而言,涉及电子商务、地图、游戏、社交、搜索等各个方面(如阿里目前的大数据分享计划),所获得的用户信息用户轨迹资料就会相当的完整,分析的结果也更加准确。
但是就目前而言,在大多数量化投资基金中,所有的这些数据还没有真正形成合力,还没有充分发挥其真正的价值。有观察者认为,数据的价值不在于数据的大小而在于数据的分析。要实现数据的真正价值,第一步就是将分散的数据信息进行整合,按照基础信息、位置信息、社交信息、行为信息进行归纳,这些信息最终会成为人群在经济活动和金融行为上的详尽解释,因为每一块的数据不可能是一个孤立的整体,它必将是结构化的,这些数据之间有着千丝万缕的联系,只有充分理清后进行精确的应用,才能充分挖掘其中蕴藏着的巨大价值,供量化投资基金的决策者使用。
随着大数据的发展,一些量化基金也越来越重视与那些掌握着大量数据相关的开发和应用的互联网巨头的合作,从而获取更多的市场机会。对于掌握庞大数据资源的互联网企业而言,对于大数据价值的挖掘,最根本的就是探索出大数据价值所对应的商业模式,并为此找到愿意为大数据买单的使用者,量化投资基金正是这一类理想的客户群体。量化投资基金和互联网企业对于大数据资源的挖掘不是简单地充当数据存储和搬运的角色,而是要在保证用户数据信息安全的前提下通过这些数据对用户的行为和需求进行分析,以海量数据为基础 ,提供高附加值的数据分析服务,形成核心能力,挖掘出大数据其中的真正价值。因此我们有理由认为大数据的核心价值在于分析,移动互联网时代给了我们获取海量数据的机会,有了完整数据资源的宝库,量化投资基金可以通过高效的数据资源分析和利用,在复杂的交易市场环境中做出精准的投资决策,提高投资收益率。
用预测看破未来
大数据对于量化投资的第二个核心价值就是预测,我们知道世界杯期间各家科技巨头利用大数据预测比赛结果,再现“章鱼保罗”雄风。世界杯结束了但大数据预测还会继续。从夜观天象到气象预报,从童话里的水晶球到今日的科技预言家,从地震云的传说再到科学家猛攻的地震预测,人类一直希望能够更早突破局限看穿未来。随着信息革命的深入,大数据时代的预测更加容易,人类的生活正在被大数据预测深刻改变。因此人们在谈论大数据的采集、存储和挖掘时,最常见的应用案例便是“预测股市”“预测市场行为”。
因此,大数据还拥有数据可视化和大数据挖掘的功能,对已发生的信息价值进行挖掘并辅助交易决策。传统的量化投资基金的数据分析挖掘在做相似的事情,只不过效率会低一些或者说挖掘 的深度、广度和精度不够。大数据预测则是基于大数据和预测模型去预测未来某件事情的概率。让分析从“面向已经发生的过去”转向“面向即将发生的未来”是大数据与传统数据分析在量化投资领域的最大不同。
大数据预测行情的逻辑基础是,金融市场每一种非常规的变化事前一定有征兆,每一件事情都有迹可循,如果找到了征兆与变化之间的规律,就可以进行预测。但是请注意,同传统的数据挖掘一样,大数据预测无法确定某件事情必然会发生,它更多是给出一个概率。
大数据在预测金融市场中具备以下几个特性:
1、数据预测的时效性。预报粒度从天缩短到小时,有严苛的时效要求,基于海量数据通过传统方式进行计算,得出结论时明天早已到来,预测并无价值。大数据预测应用特征对“时效性”有更高要求,譬如股市、实时定价,而云计算、分布式计算和超级计算机的发展则提供了这样的高速计算能力。
2、大数据预测的数据源。金融市场价格预测需要收集海量交易数据,交易所承担着收集,和整理这些数据的作用,但整套系统的部署和运维耗资巨大。即使是这样,能够收集到全市场数据和参与人的行为数据也是不可能的事情,在大数据之前鲜有具备这样的数据收集能力。而互联网则是随时随地、社会化和多设备的数据上传,每一次演化数据收集的成本都大幅降低,范围和规模则大幅扩大。交易所不再是数据收集的中心,客户端及作为载体的移动终端(诸如手机)将把人群的信息发送给采集中心,大数据被引爆的同时,大数据预测所需数据源不再是问题。
3、大数据预测的动态性。不同时点的计算因子动态变化,任何变量都会引发整个系统变化,甚至产生蝴蝶效应。如果某个变量对结果起决定性作用且难以捕捉,预测难上加难,譬如人为因素。大数据预测的金融市场恰恰是极不稳定的但有固定规律,诸如股市及衍生品市场。这需要预测系统对每一个变量数据的精准捕捉,并接近实时地调整预测。发达的终端网络外加大数据计算能力让上述两点更加容易。
4、大数据预测的规律性。大数据预测金融市场与传统的基于抽样的预测不同之处在于,其基于海量历史数据和实时动态数据,发现数据与结果之间的规律,并假设此规律会延续,捕捉到变量之后进行预测。投资领域本身便有相对稳定的规律,大数据预测才有机会得到应用。
畅想大数据未来
我们可以通过下面几个应用来看到大数据的未来:
股票市场预测:英国华威商学院和美国波士顿大学物理系的研究发现,用户通过谷歌搜索的金融关键词或许可以金融市场的走向,相应的投资战略收益高达326%。此前则有专家尝试通过Twitter博文情绪来预测股市波动。
理论上来讲股市预测更加适合美国。传统上中国股票市场无法做到双向盈利,只有股票涨才能盈利,但是目前已经有融券业务和股指期货业务,可以允许部分有资格的投资者从事做空交易,这会改变一些游资利用信息不对称等情况人为改变股票市场的规律,因此中国股市不再是没有相对稳定的规律而很难被预测,从而结束了一个对结果产生决定性影响的变量数据根本无法被监控的年代。
黄金价格的预测:我们可以通过下面的一个实例来看一下大数据在量化投资领域的另一个应用,就是通过KRR回归分析,来预测黄金未来的价格走势。在过去的年代,因为缺乏高质量和海量的数据,人们无法预测某一个交易标的物的涨跌趋势就波动率情况,这就意味着,仅仅透过过时的市场信息,使用传统的分析方法和传播途径进行交易,和在赌场里猜测下一张扑克是A还是K一样不可靠和危险,进一步的是,既是你预测出某一范围,比如是数字而不是花色,你也不可能将该结果推进到数字几或者是花色几。
首先,KRR回归分析的解需要全部的训练集样本。我们采用2003年1月1日到2013年6月29日的纽约黄金交易数据,建立一个约4000个训练点的训练集,每一个点都对应每日的黄金收盘价格,然后,我们再另外建立一个数组,里面包含我们要预测的下一个交易日的预测点。随后我们创建训练核矩阵,KRR会随机的将数据拆解成若干个大小相同的子集,然后对每一个子集进行独立的KRR估计,最后去的局部解的均值,进而进行全局预测。实际上,我们惊喜的发现。2013年6月30日的黄金的收盘价格,观测值为1234.8,而观测值(月均)为1192,预测值则分别是1230.2与1186(月均)。两者的差距非常接近。这为量化交易者制定交易策略提供了有力的预测。
有关大数据与量化投资领域方面的畅想还有很多。综上,我们已经能够大致的描述出两者之间的联系及发展前景的轮廓。更为进一步的探讨则欢迎到我们的恒生量化社区中与众多的大数据与量化投资爱好者一同分享这一方面的前沿进展。
实盈SUPWIN官方微信平台:最新最全最Pro的量化资讯,最成熟的量化策略IT团队,创新的信息通讯平台,您的财富管理顾问。
扫描二维码快速关注
公众微信帐号:SUPWIN888

实盈32%年化收益——选择实盈,尊享跨区域非凡礼遇
理财热线:020-23388388
香港总部:香港中环德辅道中141号中保集团大厦26楼2601室
广州分部:广州市珠江新城广州国际金融中心5303室

