DOE全称design of experiment,实验设计,是一套强大而系统的科学方法论,它指导我们如何高效、科学地安排实验,从而深刻理解复杂系统中变量之间的关系,并最终实现过程的优化和问题的解决。
其实DOE的应用领域非常广泛。工业生产,生物制药领域,农业研发,产品研发,甚至服务行业都可以通过DOE的实验方法,提升效率,找到主要影响因素以及因素之间如何影响。
那典型的DOE包含如下流程:
1)确定诉求,DOE中也叫做响应;
2)基于经验,选定实验因子以及每个实验多少水平;
3)用数据软件(例如JMP,exensio,minitab等)选择实验设计类型,有全析因设计,部分析因设计,响应曲面法,田口法;
4)执行实验,准确记录实验数据;
5)将数据导入数据分析软件中,进行数据分析,相关性,anova分析,标准最小二乘法等,找出主要因素以及交互作用的影响;
6)得出结论;
以JMP17自带的一个例子来做说明。
某葡萄酒生产厂家想找出影响葡萄酒的口味的因素以及每个因素选择在哪个水平可以得到最优的葡萄酒口味,目前根据经验已知影响因素包含如下:
图一
此外因为葡萄酒销往五个不同地方的经销商,所以分别请这五个经销商各自派一位品酒师来给不同实验组合的葡萄酒打分,从0分到20分,20分最好。
到此我们有了影响因素(9个),有了响应(葡萄酒口味),如果我们按照实全因子分析,需要2⁸(8个2水平因子)×4(1个4水平因子)=1024次实验,这显然是不经济的。我们设定5个品酒师各自品鉴8个实验结果,那总共需要40次实验。
在JMP实验设计按钮下选取“定制设计(custom design)”,添加响应为葡萄酒口味评分,然后选最大化(因为此响应是望大的),因为只有一个响应,所以重要性排序可以不用填(如果有多个响应的时候要排序)。
接着添加因素,如图二所示,这9个因素都要加进去,而且这9个因素都是分类变量,8个2水平因子,1个4水平因子。此外还有一个因素,就是品鉴人,因为我们实验的目标是对图二的9个因素找出主要因素,而品鉴人不是我们关注的影响因素,但是需要考虑不同品鉴人的主观因素所带来的口味评分的波动,所以品鉴人放在分组(block)这个类别里面。然后选定我们的实验预算40次。
JMP中点击制表,JMP会自动生成一个40行,11列的表格,列名字分别是评鉴人所在的组别(共5组)/其他9个影响因素,以及一个响应(葡萄酒口味评分),这一列还是空的。此时可以在设计评估菜单下找到相关性色图,相关性色图(图三)是通过一个颜色矩阵来直观展示设计矩阵中不同模型项(例如主效应、交互作用等)之间的相关性。黑色位于主对角线上,黑色表示绝对相关性为1,反应出每个项都与自身完全相关,因此没有主效应会与任何双向交互作用完全混淆。
图三
按照实验表格进行实验,得到实验结果(葡萄酒口味),填写到响应这一列。此时表格和实验做完,下面就是数据分析了。
点击拟合模型选项,数据分析有很多种方法,我们这里选取响应放在输出项目Y,10个影响因素添加在构造模型效应里面,然后特质这里选取标准最小二乘法,重点这里选取效应筛选。如图四所示。
图四
点击运行就会得到如下图五。
图五
此案例中Rsq约为0.96,P value远远小于0.05,表明此模型(9个自变量因素)是可以很准确的预测实际值(只有0.04也就是4%不能解释)。当然,我们也不能仅仅看Rsq(原因在于Rsq有个缺点,那就是如果我们随便再加一个非相关因素放在因素里面,重新进行分析,Rsq几乎永远不会下降,但其实这个因素和响应一点没有关系,甚至出现Rsq稍微上升的现象,这显然是不合理的),也要看adjust Rsq,adjust Rsq≤Rsq。adjust Rsq主要考虑了此模型中自变量的数量,并对模型中包含的不重要的,非相关的因素自变量进行“过滤”和“惩罚”。
综上我们要看Rsq和 adjust Rsq,最希望的结果是Rsq和adjust Rsq要相近,并且越大越好。
此案例就是一个很好的demo,Rsq和adjust Rsq接近并且趋近于1。此外均方根误差和响应均值差了一个数量级以上的,是可以忽略的。
效应汇总表明影响因素最大的是Yeast,依次向下(当然这里几个因素的P value都小于0.05,是因为已经把P value>0.05的因素都remove掉了)。
还可以在预测刻画器这里选择优化和意愿下拉菜单,选择最大化意愿(如图六所示),此时可以看到对应此模型下,对于响应的最优解为:Variety Dijon_De stem Yes_Yeast Cultured_Press Soft_Barrel Seasoning Air_Flitering Yes。
DOE太多内容了,需要慢慢了解学习应用,这只是冰山一角。大家一起学习。

