机器学习,自其来到世间,就以它神秘的面纱在做着强大的工作,基于它黑箱的工作原因,对其工作的原理,我们解释起来有很大的困难。正是如此,很多研究者都希望通过各种手段来拨开面纱,一探机器学习的真面目。随着研究者研究,慢慢地我们开始对机器学习有一定的解释力,尤其是Parul Pandey写一本《可解释的机器学习》,它对机器学习的可解释工具进行了总结和应用,对我们这些机器学习爱好者非常受用。基于此,我们推荐这个书并对其进行一些介绍。通过也感谢作者朱明超对其进行的中文翻译,使我们对其来更加高效。

图源Pexels的Pixabay
是时候摆脱黑盒模型,构建起对机器学习的信任了!
想象你是一个数据科学家,你想要在业余时间根据你朋友在facebook和twitter上发布的信息,来预估你朋友假期要去度假的地方。如果你预测对了,你朋友一定叹为观止,觉得你是锦鲤附身。如果你猜错了也没啥,只不过有点影响身为数据科学家的口碑而已。但如果你和其他人打了赌,就赌这个朋友暑假会去哪里,这时候预测错误的成本就有点高了。也就是说,当模型对错本身不造成很大影响的时候,解释性并不算是很重要的要素。不过当预测模型用于金融、公共事务等重大影响决策时,解释性就显得尤为重要了。
可解释的机器学习
理解(interpret)表示用可被认知(understandable)的说法去解释(explain)或呈现(present)。在机器学习的场景中,可解释性(interpretability)就表示模型能够使用人类可认知的说法进行解释和呈现。[Finale Doshi-Velez]。

来自:可解释的机器学习
机器学习模型被许多人称为“黑盒”。这意味着虽然我们可以从中获得准确的预测,但我们无法清楚地解释或识别这些预测背后的逻辑。但是我们如何从模型中提取重要的见解呢?要记住哪些事项以及我们需要实现哪些功能或工具?这些是在提出模型可解释性问题时会想到的重要问题。
可解释性的重要性
总有人会问,为什么模型给出预测结果了还不满意,还要这么执意于知道模型是如何做出预测的?这和模型在真实世界中产生的影响有很大关系。对于仅仅被用来做电影推荐的模型而言,其影响性相较于做药物效果预估所使用的模型要小得多。
问题在于一个单一指标,就好比分类准确率,是不足以刻画真实世界中的大部分问题的。(Doshi-Velez and Kim 2017)
这里有一个可解释机器学习的大框架。在某种程度上,我们通过从真实世界(World)中获取一些原始数据(Data),并用这这些数据进行更深入的预测分析(Black Box Model)。而模型的解释性方法(Interpretability)只是在模型之上增加了一层,以便于人们(Humans)更好地理解预测过程。

可解释机器学习的大框架
以下是一些由可解释性带来的好处:
可靠性
易于调试
启发特征工程思路
指导后续数据搜集
指导人为决策
建立信任
本书主要讲解如何搭建机器学习模型,并使他们的预测结果是可解释的。
本书首先讲解可解释性的基本概念,然后讲解一些简单的、可解释的模型(Interpretable model),例如决策树、决策规则和线性回归。后面的章节集中于解释黑盒模型的一般模型不可知论的方法,如特征的重要性,以及累积的局部效应,以及用Shapley value和LIME解释单个预测。
我们将对所有的解释方法进行深入地解释和讨论。本质上他们是如何工作的?他们的优势和劣势是什么?如何解释它们的输出?本书将使你学会选择并正确应用最适合你机器学习项目的解释方法。
本书侧重于使用表格数据(也称为关系数据或结构化数据)的机器学习模型,较少涉及计算机视觉和自然语言处理任务。推荐机器学习从业者、数据科学家、统计学家和任何对机器学习模型的解释感兴趣的人阅读这本书。

本书的目录


。。。。。。。。。
。。。。。。。。。
总结
机器学习不再是黑盒了。如果我们无法向其他人解释结果,那么怎样使用才是好模型。可解释性与创建模型同样重要。为了在人群中获得更广泛的认可,机器学习系统能够为其决策提供令人满意的解释至关重要。
正如阿尔伯特·爱因斯坦所说:“如果你不能简单地解释它,你就不能很好地理解它。”
以下链接提供中文和英文版的图书:
链接: https://pan.baidu.com/s/135ExurOkdCewjsrZYJFS-g 提取码: p59z



