在相信统计学前,再次确认自己了解所用方法的价值和局限性。统计方法仅仅是工具,它们无法保证您不采用不正确的理论知识(无效的统计假设)或错误的数据。
大多数统计量基于模型是正确的这个假设。在某种程度上,您的模型可能不是正确的,不要盲目相信源自该模型的统计报表。
很多统计检验无法绝对评估模型。显著性检验统计量可能仅说明该模型拟合效果比某些简化模型(如均值)好。该模型可以拟合数据但是可能不能很好描述基础的物理模型。
通常您不能直接相信统计结果的值,它们只是提供了帮助发现的钥匙。要确认这些发现,您可能需要进一步研究。否则,您可能只是筛查了一下数据。
例如,若您做过详尽的分析,您会发现,即使是因子没有预测价值,您的研究中会有 5% 的显著效应(5% 水平上的显著性)。同样,当您是使用自己的数据来构造模型(而非检验数据的正确模型)时,在这个意义上您侵蚀腐败了报表中的显著性水平。还有随机误差会影响您的模型选择并导致您相信自己的模型比它的实际效果好。
下面是我们用于评估模型合法性的各种方法和模式中的一部分:
• 可以使用失拟检验针对因子的饱和版本检查模型合法性。若您在非饱和模型中具有重复的 x 值,“拟合模型”平台会自动提供这些检验。
• 可以通过从“拟合模型”平台查看残差图和学生化残差图检查连续响应的分布假设。或者使用平台弹出菜单中的保存命令在数据表列中保存残差。然后对这些列使用分析 > 分布以查看直方图以及它的正态曲线和正态分位数图。残差不是很独立的,但是您可以大致识别严重的非正态分布。
• 连续响应的最佳综合性诊断工具是杠杆图,因为它显示每个点对每个假设检验的影响。若您怀疑数据中有错误的值,该图可以帮助确定单个点是否严重影响统计检验。
• 建议扫描您的数据来查找离群值并检查它们是否是有效的观测值。可以在“分布”平台报表和图中识别一元离群值。二元离群值显示在“以 X 拟合 Y”散点图和多元散点图矩阵中。您可以在图形 > 三维散点图生成的三维图中查看三元离群值。可以使用“主成分”或“三维散点图”以及在“多元”平台中计算和标绘的 Mahalanobis 和 jack-knifed 距离来查找高维的离群值。
统计文献介绍了特殊的非参数和稳健的方法,但是 JMP 目前仅实现了其中的一部分。这些方法需要更少的分布假设(非参数),因此更抗污染(稳健)。但是,它们更难以成为一般性方法,而且针对检验统计量的小样本概率可能需要很长时间完成计算。
若您想进行线性秩检验且只要求满足正态大样本显著性近似条件,可以分析数据的秩以执行 Wilcoxon 秩和或 Kruskal-Wallis 单因子检验的等价检验。
若您不确定连续响应是否充分满足正态假设条件,可以将建模类型从连续型更改为有序型,然后安全地进行分析,即使这个方法会牺牲一些展示方面的丰富性以及降低一些统计功效。