2016年11月9日,唐纳德·特朗普在传统主流媒体、华尔街精英和知识分子的反对声中拿下274张选举人投票,成为美国新一任总统。

这个结果让硅谷科技界绝大多数人感到失望至极。在他们眼里,川普是个 “科技盲” ,很多荒唐的言论都让他成为了硅谷科技创新的绊脚石。
例如,特朗普曾因为苹果拒绝帮助 FBI 解锁圣伯蒂诺恐怖袭击嫌疑犯手机,放言要让民众抵制购买苹果产品;特朗普还曾扬言,恐怖组织通过网络进行招募,希望比尔盖茨帮他“关闭部分互联网”。
还有一系列种族歧视、排斥外来移民的做法都让崇尚平等开放的硅谷科技界失望透顶。甚至有部分硅谷知名的天使投资人表示,如果特朗普入主白宫,他们希望能将加州独出来成为一个独立国家,加州也将成为世界上第六大经济体。

大选结束后加州奥克兰居民上街游行抗议
此前两周,大部分民调公司和媒体,包括 The Economist 、New Yorker和纽约时报等媒体的预测都是希拉里将轻松获取胜利。

纽约时报综合各大民调机构报告取平均值

北京时间11月6日realclearpolitics.com的预测
著名数据分析网站 FiveThirtyEight (538)曾在2008年大选中预测准49个州的大选结果;在2012年,他又预测对全部50个州,准确预测奥巴马胜出,由此被称为“大选章鱼保罗”。
“538”的是统计学者、畅销书《信号与噪声》作者纳特·西尔弗(Nate Silver)的匿名网络博客,名字由来是因为美国大选共有538张选举人票。随着接连预测准确08年大选、12年大选,这位数学天才也收获了越来越多的信徒,538邪教“的影响力也逐渐扩大。
和绝大部分政治、新闻专业出身的预测者不同,Nate Silver对于选举结果的基础并不是传统意义的“经验与直觉”,而是通过搜集整理大范围的数据和各种层面的民意调查,通过数学算法得到直观真实的大选胜率。
这一次选举之前,538 的分析模型给出希拉里的胜率是71.4%。

FiveThirtyEight11月8日预测
然而,最终的投票结果却是特朗普取胜。不仅是传统民调,连大数据预测也好像失灵了!
但数据专家却否认这一观点。他们说,民调和像FiveThirtyEight这样的预测者的问题出在了数据收集上,而不是数据解读。
在接受IDG旗下科技媒体PC World采访时,CRM研究小组创始人CRM分析师DenisPombriant说,数据分析在棒球比赛中成功率极高。但是棒球统计与选举投票不同,统计学家已经收集了“高度可靠”的棒球数据一个多世纪,而投票数据的数量和质量都不牢靠。
虽然传统媒体的民意调查貌似给了正火热的大数据一盆冷水。然而,除了传统主流媒体的预测和民意调查之外,我们还看到了另外一些预测,他们站在了大数据的支持面,给出了不一样的答案。
MogIA是一家来自印度新创科技公司 Genic.ai 研发而生的 AI 系统。这一系统诞生于2004年,仅仅从2013年到2015年,MogIA便从谷歌、Facebook、Twitter、YouTube等多个社交平台采集了2000多万个数据,甚至包括Facebook上的视频资料,进而分析预测今年美国大选结果。根据创始人Sanjiv Rai说在10月份接受CNBC采访时说:“如果特朗普输掉了大选,那将与过去12年里互联网所产生的数据给出的结果相悖。”

他们的预测结果最终与11月8日的投票结果完全一致。
MogIA不会考虑它检测的用户活动的语气或意图,而是单纯地检查热度。因此,如果有人在 Twitter 上发表对特朗普的负面态度,AI 也将其简单地标注为「参与」,认为是积极的量度。这正应了特朗普所擅长的:任何宣传都可以是好的宣传。
另外,从特朗普备选的数据团队来看,今年9月,特朗普竞选团队支付了500万美元给一家英国大数据公司,帮助川普深度分析美国选民的行为大数据。这家公司就是大数据分析应用公司Cambridge Analytica。

Cambridge Analytica首席数据官接受天空电视台采访
这家公司拥有2.3亿名美国人大约4000个数据标签。特别是利用慈善捐款、会员卡的交易数据,可以洞察个人在政治倾向性方面是如何潜意识地改变他们的想法和决策。
Cambridge Analytica产品总监Matt Oczkowski和他的团队几个星期前就知道特朗普会一击制胜。“这不是政治直觉告诉你的”他说,“但我们的模型正确地预测了大多数这些状态。”
在投票日前10天两位候选人的竞选结果都是非常接近的。当缺席投票和早期投票开始进入时,他的团队注意到黑人投票率下降,西班牙裔投票率增加,55岁以上的投票率增加。“当我们明白了他们的投票行为模式,以及他们的选项之后,我们相信,传统的政治假设可能是不正确的”Matt Oczkowski说。
选举不满已经激发了关于「数据已死」的头条新闻。特朗普毕竟拒绝了对数据的需求,只有在夏季,在敲定提名后才雇用了这个团队。但Oczkowski认为,这样的表征就像投票本身一样误解了情况。 “数据没有死,”他说, “数据是鲜活的。这只是你如何使用它,以及你如何避免被传统的政治观点来影响解读你的数据。”
企业战略集团高级分析师Nik Rouda认为:投票不是真正的大数据。“他们所采取的样本量对于投票肯定是足够好的,但其数据量不能满足机器学习和其他高级分析,更无法实现历史深度的定义与实时即时性。
“我认为更多的大数据技术的应用会有更好的预测。”虽然两个总统团队的数据都来源于选民简介,但是更广泛的数据采样和“按行为分析会有更清晰的结论,”Rouda说,“这是传统方法的失败,而不是数据失败或大数据失败。”
------------------------------------------
人工智能、大数据的前沿资讯
深度的商业内容解析
更 多 精 彩
请 先 关 注
⏬
海致网络技术(北京)有限公司是国内领先的大数据技术与服务公司。自成立以来为招商银行、青岛银行、康佳集团、中国联通、华联集团等二千多家企业提供了知识图谱、智能营销、用户画像及智能运维等大数据技术及解决方案,并获得了 “2016年中国人工智能领军企业” 称号。

