剥开伪科学的外衣，让机器学习回归到造福人类的应用- 大数跨境

海致星图

2017-05-11

导读：罪犯真的是一种“类型”吗？

【导读】不久前，上海交通大学的两位研究者发布了一项题为“利用脸部照片自动推断犯罪性”的研究，利用基于有监督的机器学习的方法，根据人的脸部特征预测一个人是否有犯罪倾向，“准确率接近90%”。该研究在国内外引起了广泛的争议。近日，谷歌的几名研究员撰文两万字对这一研究进行了批驳。

计算机算法不应该成为伪科学的新外衣，它们应该被用于造福人类的、更良好的应用——包括基于数据更快更公平地做出判断。

机器学习或成相面术的新外衣？

自古以来，各个文化中都有类似“相由心生”的说法。就连亚里士多德都认为，由外部特征可以推断人的秉性。这种使用人的外观推断其内在特征的做法被称为相面（physiognomy）。虽然在今天相面被认为是伪科学，但在民间一直流传着，可以从某个人的面部和身体特征识别出较差的“类型”的人，这一观点也在不同时期被编入国家法律，为很多行为提供了基础，比如购买土地、禁止移民、证明奴隶制合理，以及将种族灭绝正当化。在实践中，相面的伪科学成为科学种族主义（scientific racism）的伪科学。

人工智能和机器学习的快速发展使科学种族主义进入了一个新的时代。其中，人类行为中存在的偏见也被带入了机器学习模型的开发过程中。无论是有意还是无意，这种通过计算机算法对人类偏见的“洗白”可能会使这些偏见看来是客观的。

最近的一个例子便是，上海交通大学 Xiaolin Wu 和 Xi Zhang 在 2016 年 11 月传到 arXiv 上的论文《使用脸部图像自动推断罪犯》（Automated Inference on Criminality Using Face Images）。虽然该论文没有经过同行评议，但其调查结果激发了一系列新闻报道。

首先吴和张准备了一组含有 1,856 张 80x80 像素的中国男性面孔近照，并利用其中的 90%来训练 AI 算法。这些男性年龄介于 18 至 55 岁之间，图像中没有面部毛发，也没有疤痕或其他明显痕迹。在学习完成后，团队使用另外 10%的照片来对结果进行检验。他们发现，经过图像学习的神经网络可以正确地通过照片识别出一个人是否是犯罪分子，准确率高达 89.5%。

「这些高度一致的判断结果表明，通过自动面部识别来推断一个人是否是犯罪分子是可行的，即便在历史上这种说法在伦理上存在着争议。」吴和张表示。

研究界的许多人都认为吴和张的分析在道德和科学上都是有问题的。

机器学习是一个前所未有的窗口，可以窥见自然和人类行为，可以让我们反思及系统地分析所谓的直觉和群体智慧。但人类社会的一些歧视和偏见，作为训练模型嵌入机器学习后，可能使得一些说法看上去有了新的可信度。

鉴于社会越来越多地依赖机器学习实现常规认知任务的自动化，开发人员、评论家和用户都迫切需要了解人工智能技术的局限和相面这一伪科学的历史。在实践层面上，机器学习技术将越来越多地成为我们生活的一部分，像许多强大的工具一样，它们可以而且常常用于良好的应用——包括基于数据更快更公平地做出判断。

机器学习在多领域的典型应用

随着计算能力的提高以及机器学习技术方法的普及，越来越多的领域出现了很多机器学习的应用场景：

■ 垃圾邮件检测：垃圾邮件探测系统利用一组示例邮件来识别出垃圾邮件——通过检测特定的词语、发件人以及其他特征判定是否是垃圾邮件。一旦设定好，系统就可以直接将相关邮件放进特定的文件夹中。随着用户标注邮件或者在文件夹间移动邮件，该系统持续学习。

■ 数字识别：根据信封上手写的邮编，识别出每一个手写字符所代表的数字，帮助程序阅读和理解手写邮编，并根据地利位置分类信件。

■ 语音识别：从一个用户的话语，确定用户提出的具体要求，帮助程序能够并尝试自动填充用户需求。如虚拟人工助理，Siri、Alexa、Cortana 或者 Google Assistant，能够处理人类语言，匹配相关指令并以越来越自然的方式做出反应。

■ 人脸识别：根据相册中的众多数码照片，识别出那些包含某一个人的照片，帮助程序根据人脸管理照片。某些相机或软件，如iPhoto。

■ 产品推荐：通过分析消费者的购物历史数据以及消费者所表现出来的消费喜好，推荐系统可以在购物历史中总结出规律，从而预测出消费者可能喜欢的产品。这样的决策模型，可以帮助程序为客户提供建议并鼓励产品消费。回想一下在线超市提醒你购买东西的场景，或者Amazon向你推荐你可能喜欢的书的场景。

■ 医学分析：根据病人的症状和一个匿名的病人资料数据库，预测该病人可能患了什么病。比如发现癌症和眼疾，通过学习医生标记过的图片，计算机可以分析鉴别新的病人视网膜图、皮肤斑点或者显微镜下的细胞图，发现提示疾病存在的视觉线索。

■ 客户细分：根据用户在试用期的的行为模式和所有用户过去的行为，识别出哪些用户会转变成该产品的付款用户，哪些不会。这样的决策模型，可以帮助程序进行用户干预，以说服用户早些付款使用或更好的参与产品试用。

■ 形状鉴定：根据用户在触摸屏幕上的手绘和一个已知的形状资料库，判断用户想描绘的形状。这样的决策模型，可以帮助程序显示该形状的理想版本，以绘制清晰的图像。如iPhone中的Instaviz。

机器学习在金融

由于交易量庞大，交易历史数据精确完备，以及金融领域的量化分析特点，金融领域成为适合人工智能技术广泛应用的领域。

在2016年，金融业内已经有很多部署机器学习的讨论和试点行动，机器学习已经不再是热门概念和新生事物，而越来越成为金融业的常态，乃至于变身金融领域创新和变革的中坚力量。它所带来的，除了管理模式和消费方式地智能化升级，还会创造全新的生活方式。

智能投顾

在5年前，“智能投顾”一词基本上还不为人所知，但是现在在金融领域已经很普遍了。智能投顾起源于美国，以数据化、智能化、机器学习技术为依托、以互联网渠道和金融技术为嫁接的全新业务风控和产业链整合模式，正在以迅猛的势头搅动着财富管理市场的格局。智能投顾的优势在于，使用户在收益上相对确定，并且能进行相应的风险预判；同时，在人工智能和大数据分析的协助下，能有效降低各方的交易风险，将风险控制做到最优化。

例如，用户输入其目标（比如，65岁退休的时候有25万美元存款），年龄，收入，以及现在的金融资产状况。智能投顾将会根据用户输入的目标在各类资产和金融工具中进行搜索匹配。整个系统会根据用户目标的变化做出调整，并且会根据市场的变化进行实时调整，一切以满足用户投资目标为核心。智能投顾已经获得了千禧一代客户的青睐，这一代人并不需要传统的投资顾问提出投资建议，而且他们对人工投顾收取的费用也存在不满。

算法交易

算法交易始于读各种市场交易数据图，读图高手们从价格的历史图形中寻找某种规律。回溯到1970年代，算法交易涉及到复杂的人工智能系统实施快速交易决策。算法交易系统通常每天会操作数千次或百万次交易，因此“高频交易”（HFT），通常被认为是算法交易的子类。很多对冲基金和金融机构并不会公开披露其交易所采用的人工智能模式，但是机器学习和深度学习在实时交易决策中正发挥愈加重要的作用。

欺诈识别

近几年互联网小贷平台如雨后春笋，风控水平不一，加之欺诈借贷造假、违约低成本，越来越多的中介机构、助贷机构参与到这个盛宴中来。银行面临的另一大难题是欺诈行为。

随着数据维度的大幅增长，移动设备、网络浏览行为、位置变化等多维信息都可以用于刻画申请或交易行为，多维数据交叉验证可以提升欺诈风险识别的精准性，为大规模机器学习奠定了基础。通过分析手段和机器学习的方法，结合当前用户特征数据识别欺诈风险，完善风控链条，可将风控前移。同时，基于账户信息、信贷信息、行业信息等数据建立知识图谱，可以对显性或者隐性的关联性风险进行预警，对资金流、风险的传导进行判断，从而寻找到潜在的风险行业和欺诈客户。

贷款/保险承保

核保是金融业中机器学习最适合承担的工作，实际上金融业很多人都在担心机器将会代替现在绝大多数的核保岗位。尤其是在大型机构中（大银行和公开上市的保险公司），机器学习算法能够根据数百万消费者案例数据（年龄、工作、市场情况等）以及借贷或保险结果进行开发和培训。利用算法可以评估未来的发展趋势，分析和判断能够影响未来借贷和保险状况的趋势。