导语
我们知道,资产价格的波动受到非常多因素的影响,比如上一个交易日的价格,交易量,国家经济走势,交易者的心理预期,各种技术指标,财务指标,甚至还可以是交易日的天气情况等等。每个人都可以总结出非常多影响资产价格的特征(也可以叫因子,变量)。但是如何在这些特征中,选取出真正有效的特征呢?这时候就可以用到本文中要介绍的信息增益了。
本文由JoinQuant量化课堂推出,本文属于进阶内容,了解深度为level-0
熵
简言之,即下一个交易日的涨跌的不确定性


条件熵

信息增益-特征中包含的信息度量
熵是变量不确定性的度量,条件熵就是在已知某些特征信息的情况下,对变量的不确定性的度量。那么这些已知的特征信息做了多少贡献呢?这就得引入信息增益的概念了。特征X对于变量Y的信息增益g(X,Y)的计算公式如下:
g(Y|X)=H(Y)-H(Y|X)
信息增益也被称为“互信息”,表示知道特征X的信息时,变量Y的信息不确定性减少程度。信息增益越大,表示特征提供的信息越多,这个特征也越重要。
下面通过一个小例子,具体展示下信息增益的计算过程:



小结
上面给大家介绍了信息论中的信息增益的计算方法。通俗而言,利用信息增益可以衡量在引入一个变量之后,原有变量不确定性减少的程度。信息增益越高,表示新引入的变量效果越好。信息增益可以帮助我们了解各个因子是否有效,也可以用来衡量机器学习中的各个特征的重要性。还有更多的用法,大家可以自己去探索。
本文由JoinQuant量化课堂推出,版权归JoinQuant所有,商业转载请联系我们获得授权,非商业转载请注明出处。
微信对公式支持不是很好,推荐到原文查看。

