
作者|韩柯
3. 案例2 伦敦瘟疫爆发
这是1854年8月的普通一天。百老街400号的刘易斯太太正在水中为她的孩子洗尿布。接下来她把水倒在屋前的污水坑里,全然没有意识到这个小小举动会引发水坑周边方圆250码内700条生命的消失,因为她的孩子感染了霍乱。
3.1 背景
霍乱最早发现于1817年。1831年8月,霍乱使圣彼得堡44万中的1万人死亡,1853年到1854年,英格兰和威尔士超过2万人死于霍乱。尽管人们已经对早前发生在印度的霍乱流行进行了大量研究,但是没有人对霍乱有真正了解。当时人们普遍认为霍乱通过空气传染,有意思的是尽管传播理论是错误的,但是人们却能够通过统计发病率和死亡率说明如何和到哪里去寻找病因。Jakob Henle在1840年认为霍乱由微生物引起,其理论也得到其他研究的支持,但是直到1865年Louis Pasteur的实验才建立了流行病学。Snow曾怀疑是水的质量问题,但是经过一些显微研究,他并没有发现霍乱微生物。
3.2 如果是我们处于那样的情况该怎么办?
Snow非常重视分析,他也是分析流行病学的先驱者之一。William Farr也是当时的一位流行病学者,他注意到霍乱死亡案例不仅源自27种不同类型,而且死亡者教区、年龄和职业也各不相同。
如果是我们,则可以开发一些包含所有变量的逻辑模型,看看是否可以支持或否定当时流行的理论。但是很难开发一种综合性的模型,因为不能直接测试传染和毒气假说。根据医生的说法,器官问题并不直接引起霍乱,而在传染过程中空气存在的霍乱扰动对生冷材料会产生作用。当时毒气学研究的重要成果可能源自虚假的关联,根据这种关联可以导出的模型显示,贫困是霍乱的最重要因素。
3.3 结局
Snow把每个死亡案例都标绘在地图上,发现第一,所有死亡案例与水泵的距离都很近;第二,死亡案例距离百老街水泵更近,第三,他从多个水泵处采集水样,百老街水泵的水看起来最干净。另外他还有两个“负面”支持数据:喝啤酒的工人聚集区没有死亡案例,有高墙的囚犯囚禁地没有死亡案例。
Snow假设的成功在于关注点集中,他的预测只有少量不符的案例。Snow亲自到现查调查预测不符案例,直到取得满意的解释。他坚持认为,霍乱使消化系统疾病,所有征兆都可以通过消化道长期失液解释。从而他得出结论,霍乱的感染源是口腔,而不是呼吸道。
对于数据科学家来说这一点非常重要,因为我们的结论必须与所有其他信息一致,包括模型内和模型外的信息。结论不仅要在统计意义和逻辑上成立,还必须观察结果一致。如果发现有与常识矛盾的地方,更常见的是你犯了错误,而不是你发现了新大陆。
Henry Whitehead试图通过调查否定Snow的结论,但是结果却与Snow的分析一致。喝了百老街水泵水的人,58%都得了霍乱,没有喝的人,只有7%得了霍乱。另一项工程调查发现,污水坑一直存在向百老街水泵轴漏水的现象。
3.4 商业应用
谷歌地图开通了数据与地理信息结合的很多可能性,从餐馆导引到海地大地震的能量释放。绝不能低估将信息显示到地图上带来的影响。这就是数据创新的力量:以创新的方式采集、使用和展示数据。
谷歌、微软和苹果都在紧盯快速增长着的空间信息市场。我们预计,随着基础设施能够支持随时随地的大数据采集、存储和分析,空间分析和数据可视化将会保持持续增长势头。
但是数据可视化只提供解决方案线索,并不能提供解决方案本身。拿到几乎一样的调查数据,甚至类似的地图,Board和Snow却得出完全不同的结论。为什么?因为Board通过传统方法进行分析。他们都是杰出学者,他们是把事实往模型里套,而不是修改模型以适应事实。Snow的成功在于他特别关注异常案例。人们往往轻视异常案例的重要性,往往不去深究出现这些异常的根源。我们往往责怪客户没有按我们模型预测的那样行事,而不是反思模型的局限性。
运用空间分析和数据可视化时,需要注意的是我们是在说服客户,而不是困惑客户。正如《纽约时报》一篇文章解释的那样,一位陆军团长在伊拉克战争时会花大部分时间制作PowerPoint幻灯片。(《纽约时报》:“我们遇到了敌人,他就是PowerPoint“)


