
1.关于随机抽样和整体数据
随机抽样(Random Sampling),是我们日常分析数据一个很重要的步骤。为什么呢?因为随机是消除主观偏倚(subjective bias)的一个好方法。有很多朋友认为,随着样本的增多,数据的精确性(accuracy)会增高,其实不然。因为选择数据有主观成分在内,举例吧,假如您想做一个关于所有人群中乳腺癌的研究,有10亿个样本,但都是男性,得出的结论无疑很有问题,所谓缺乏代表性(representative)。随机抽样,则在基于一个随机的机制上,希望最小化抽样的主观成分,以达到研究的相对客观。
当然,现今在研究上,有会出现全体取样的情况,即是(population based survey)。比较准确的定义以及详情可见 Moyses Szklo et al. "Population-based Cohort Studies" , Johns Hopkins University School of Hygiene and Public Health, Vol. 20, No. 1, 1998.
全体取样,是Big Data 的一个核心内容,在分析数据上,无疑,用全体数据分析,比用部分数据分析要来得更加有说服力,也是此书力推的一种研究方法。
2. 关于因果关系和相关关系
因果关系(causal relationship)关于因果关系,早在亚里士多德时代,就有关于因果的4种分类(source from wikipedia):To answer various Why? questions, Aristotle identified four types of causation, the four causes:
Material cause, whereby the material composing a thing determines its behaviors, as a rock falls by its heaviness.
Formal cause, whereby a thing's form determines the thing's nature or role, as a human differs from a statue of a human.
Efficient cause, which imparts the first notable change, as a human lifts a rock or raises a statue.
Final cause, the ultimate end for which a thing exists, although the thing, even a human, might not know that end.
至今,较准确的关于因果的定义为(also from wikipedia lol):causality is also the relation between a set of factors (causes) and a phenomenon (the effect). Anything that affects an effect is a factor of that effect. A direct factor is a factor that affects an effect directly, that is, without any intervening factors. (Intervening factors are sometimes called "intermediate factors".) The connection between a cause(s) and an effect in this way can also be referred to as a causal nexus.
所以,在研究影响因素和结果之间的关系时,因果是他们之间一个可以证明的最强烈的联系。
但是,相对来说,能过接近证明因果关系的研究,都是前瞻性研究(prospective study),因为通过时间的推移,影响因素和结果之间的前后联系可以更客观地反映出来。例如:在作因果分析时,回顾性研究(retrospective study):一般采取把影响因素和最终的结果数据收集回来,再分析影响因素和要观察的结果是否有相关,因这样分析的结论只能是发现两者之间有无相关,不能得出因果关系(因缺乏时效性)。而前瞻性研究,可以从一开始的影响因素入手,观察一段足够长的时间,看最终的结果,从而得出的关系即具有一定的因果性。因为先有影响因素,继而发生了以后的结果。
所以,对于大数据(Big Data)的应用,并不是他不想证明因果关系,而是并不能证明因果关系。由于大数据的收集方法和分析方法,在于把所有能收集的数据都收集,再集中分析,这种研究方法是缺乏时效性(temporality)的,所以,他并不能证明因果关系,只可以说明两者的相关关系。
可是,对于事物发展的预测,有时,影响因素成千上万,解释的理论更加是多如牛毛,强找因果关系,对要求快速反应的事件(如股票预测和流感趋势),我们更迫切的是想知道接下来要怎么做,而并非要找因果关系。
从这个角度来说,大数据确有其实用的地方,从09,10年流感危机的应对(应用Google Flu Trend分析),大数据的分析,得出结论、预测趋势的速度确实比以前快多了,在严重的传染病面前,早一天应对,可以挽救数以百万计的人命啊。


