Design Expert响应面拟合不好 Design Expert残差与异常点怎么排查-Design Expert中文网站

　　很多人一看到响应面拟合不好，第一反应就是把模型往高阶上加，或者直接怀疑某几个点有问题。可在Design-Expert里，模型不稳往往不是一个单点原因，而是模型阶次、方差形态、时间趋势和异常运行点叠在一起造成的。官方文档把这件事拆得很清楚：先看【ANOVA】有没有给出明显预警，再看【Diagnostics】里的残差图和影响诊断，最后才决定是换模型、做变换，还是回头核查原始数据。

　　一、Design Expert响应面拟合不好

　　响应面拟合不好时，先别急着删点。Design-Expert的思路不是先“清数据”，而是先确认现在这个模型到底是阶次不够、方差不稳，还是个别运行点把整体判断带偏了。只要顺着软件的分析顺序往下查，很多看起来很乱的结果其实都能拆开。

　　1、先看【ANOVA】里的拟合信号

　　在官方说明里，Residual代表模型还没解释掉的变异，Lack of Fit代表模型预测和真实观测之间没贴合上的那部分差异，Pure Error则来自重复试验本身的波动。要是Lack of Fit显著，意思不是“数据一定错了”，而是当前模型还不能在已有重复试验波动范围内把数据解释好，这时候继续直接看响应面图，往往容易把图看得过头。

　　2、再看Pred R²和Adj R²有没有拉开

　　Stat-Ease官方给得很直白，Pred R²和Adj R²通常应该相差不超过0.20。只要Pred R²比Adj R²低得太多，就说明模型对新数据的解释能力在变差，常见原因要么是模型里塞了太多没价值的项，要么是数据里有异常点或强影响点。这种时候，官方建议的方向不是死盯R²本身，而是去找outliers、考虑transformation，或者换一个更合适的polynomial order。

　　3、把【Predicted vs Actual】和【Residuals vs Predicted】连起来看

　　【Predicted vs Actual】图里，点应当大体围着45度线分布；如果明显偏到一侧，官方建议优先考虑响应变换，或者改用更高阶模型去改善拟合。再看【Residuals vs Predicted】，理想状态应该是上下范围差不多的随机散点；如果出现喇叭口、微笑或皱眉这类形状，说明方差不恒定，Design-Expert直接把这类情况指向transformation。很多拟合不好的根子，其实就在这里。

　　4、没有Lack of Fit信息，也不等于模型就没问题

　　有些人会误以为Lack of Fit一栏没东西，说明模型拟合过关。官方说明不是这个意思。Lack-of-fit检验本身需要重复点，而且设计点数量还得多于模型系数数量；如果重复点没有波动，或者你往模型里加了太多项，把剩余自由度吃掉了，这一栏也可能出不来。所以看到这里空着时，不该草率下结论，而是要回头看设计本身和模型复杂度是不是已经挤得太满。

　　二、Design Expert残差与异常点怎么排查

　　残差和异常点的排查，关键不在于只盯住一张图。Design-Expert自己的诊断逻辑就是多张图联判，因为同一个问题在不同图上表现不一样。有的点残差大，但不一定真是异常点；有的点残差不算特别夸张，却可能对某个系数影响很重。把这两类情况混在一起，最容易误删数据。

　　1、先用默认的外部学生化残差，不要直接看原始残差

　　Design-Expert的【Diagnostics】默认给的是externally studentized residuals，而不是raw residuals。官方解释很明确，不同运行点的leverage往往不一样，导致原始残差对应的标准误并不来自同一个分布，因此raw residuals并不适合拿来检查回归假设。外部学生化残差之所以被设成默认，就是因为它对发现分析中的问题更敏感。

　　2、先过三张基础图

　　官方教程里提到，诊断时最先该看的，是Normal Plot，再加上【Resid.vs Run】和【Box-Cox】。Normal Plot理想状态是大体成直线，明显的S形往往提示响应变换更合适；【Resid.vs Run】看的是残差随实验顺序有没有趋势，如果出现成段偏高、偏低或时间性漂移，说明实验过程中可能有lurking variable；【Box-Cox】则直接给出power transform的建议，是判断要不要改响应尺度的一条近路。

　　3、异常点先在【Residuals vs Predicted】里抓，再回到运行号核对

　　Design-Expert官方说明里写得很清楚，落在红线之外的点会被视为outlier线索，也就是模型没能很好拟合的观测值。可这个判断只说明它值得查，不说明它一定要删。官方还特地提醒，不能因为诊断图显示有问题就直接忽略某个run，必须先确认这条数据确实在记录、操作、测量或录入上存在问题，再决定要不要剔除。这个顺序一定不能反。

　　4、区分outlier和influential point

　　不少人会把“异常点”和“高影响点”当成一回事，但官方不是这么定义的。Cook’s Distance看的，是删掉某个运行后，整个回归会变化多大；数值大，常见原因可能是残差大、leverage高，或者两者同时存在。DFBETAS则更细，它不是看整体模型，而是看某个run被删掉以后，某个具体系数会变多少；如果DFBETAS超出软件给出的界限，这个点就对那个系数有明显影响。也就是说，一个点可能不是典型outlier，却会强烈扭动某个因子项。

　　5、再补看【Residuals vs Factor】

　　如果前面几张图都不算特别夸张，但模型总有点别扭，可以再看【Residuals vs Factor】。官方说明里提到，这张图用来检查模型没解释掉的波动，是否在某个因子的不同水平上表现不同；如果残差对某个因子出现明显弯曲或系统性结构，就说明这个因子的作用可能还没被当前模型吃干净。对响应面分析来说，这一步很有用，因为它常常提醒你不是“坏点”问题，而是模型形式还没到位。

　　三、Design Expert模型诊断先看哪里

　　真到排查阶段，越想一次性把所有图都看懂，越容易乱。更省力的办法，是按Design-Expert自己的分析顺序来，一层一层缩小问题范围。这样做的好处是，你不会因为一张图看着刺眼，就把整个模型推翻。

　　1、第一步先在【ANOVA】判断是不是模型层面的问题

　　先看Model显著不显著，再看Lack of Fit、Pred R²、Adj R²和PRESS这些拟合统计量。特别是Pred R²和Adj R²的差距，如果已经明显超过官方建议范围，就先别急着往图上找细节，应当先承认当前模型可能本身就不稳。

　　2、第二步用【Diagnostics】判断是方差问题还是单点问题

　　如果Normal Plot偏得厉害、【Residuals vs Predicted】又出现喇叭口，那更像是方差结构不对，应优先考虑Box-Cox建议的变换。如果这两张图还算平稳，但某个点在红线外特别扎眼，那就转去核查该运行的操作记录、称量、设备状态和录入值。方向不一样，处理方式也不一样。

　　3、第三步用影响诊断决定要不要回查单个运行

　　当你已经怀疑某个点时，不要只凭肉眼判断。去看Diagnostics Report里的leverage、Cook’s Distance和DFBETAS。官方把leverage定义为单个设计点对模型预测值的影响程度，数值从0到1；Cook’s Distance看删掉这个点后整个回归改不改；DFBETAS看它对单个系数的拉动有多强。三者一起看，能把“看着奇怪”和“真会扭模型”区分开。

　　4、最后才决定是换模型、做变换还是处理数据

　　如果Box-Cox已经给出明确推荐，而且Normal Plot与Residuals vs Predicted也都支持变换思路，那就先试transformation，再重新分析。要是Predicted vs Actual明显贴不住45度线，而残差图又没有典型方差问题，那就更该考虑higher-order model。只有在证据回到某个具体run，且你能证明该数据确实有实验或记录错误时，才轮到删点这一步。

　　总结

　　Design Expert响应面拟合不好，真正怕的不是R²不够好看，而是没分清问题到底出在模型形式、方差结构，还是个别运行点。Design Expert残差与异常点怎么排查，顺序上更适合先看【ANOVA】，再看Normal Plot、【Residuals vs Predicted】、【Resid.vs Run】和【Box-Cox】，最后再用Cook’s Distance、leverage和DFBETAS把可疑运行点钉实。这样排下来，很多原本看着像“模型不行”的情况，最后往往会落到更具体、更好处理的原因上。