“线性拟合”报表和“多项式拟合”报表最先显示的都是拟合方程。
图 5.9 拟合方程的示例
提示:您可以通过点击该方程对其进行编辑。
每个线性和多项式拟合次数报表都至少包含三个报表。第四个报表(失拟)仅在数据中有多个相同的 X 值时才显示。
“拟合汇总”报表显示针对相同数据的线性拟合和二次多项式拟合的响应的数值汇总。您可以比较多个“拟合汇总”报表,通过观察 R 方值是否增大,均方根误差是否减小来判断不同模型之间是否有改进。
图 5.10 线性拟合和多项式拟合的“拟合汇总”报表
“拟合汇总”报表包含以下列:
R 方
测量模型解释的变异的比例。剩余变异不通过模型解释,而是归因于随机误差。若模型完全拟合,则 R 方为 1。
注意:较低的 R 方值表明可能有一些模型中不包含的变量可以解释无法解释的变异。不过,数据可能受大量的内在变异影响,即便是有用的回归模型也可能具有较低的 R 方值。阅读您的研究领域中的文献材料,了解有关典型 R 方值的信息。
Figure 5.10 中的 R 方值指示二次多项式拟合相对于线性拟合稍有改进。请参见“拟合汇总”报表。
调整 R 方
通过在 R 方计算中使用自由度,调整 R 方值以使得它可以用来比较具有不同参数个数的模型。请参见“拟合汇总”报表。
均方根误差
估计随机误差的标准差。它是“方差分析”报表中的误差均方的平方根(Figure 5.12)。
响应均值
提供响应变量的样本均值(算术平均值)。若未指定模型效应,则为预测响应。
观测数
提供用于估计拟合的观测数。若有权重变量,则为权重和。
注意:仅当多行具有相同的 x 值时才会显示“失拟”报表。
使用“失拟”报表,无论您的模型形式是否正确,您都可以估计误差。当多个观测具有相同的 x 值时就会出现这种误差。为这些精确重复测量的误差称为纯误差。这是样本误差中无论使用哪种形式的模型都无法解释或预测的部分。不过,若失拟检验中的自由度不高(重复的 x 值不多),则失拟检验的用处不大。
图 5.11 线性拟合和多项式拟合的“失拟”报表的示例
模型剩余误差与纯误差之间的差值称为失拟误差。若回归变量的函数形式有误,则失拟误差可能显著大于纯误差。这种情况下,应该尝试不同类型的模型拟合。“失拟”报表检验失拟误差是否为零。
“失拟”报表包含以下列:
源
变异的三个来源:失拟、纯误差和总误差。
自由度
每种误差来源的自由度 (DF)。
‒ 总误差自由度是“方差分析”表(显示在“方差分析”报表之下)的误差行中的自由度。该值是该表中的校正总和自由度与模型自由度之间的差值。误差自由度又分为失拟自由度和纯误差自由度。
‒ 纯误差自由度是各个分组的合并结果,这些分组中有多个行对每个效应都包含相同的值。请参见“失拟”报表。
‒ 失拟自由度是总误差自由度与纯误差自由度之间的差值。
平方和
每种误差来源的平方和(简写为 SS)。
‒ 总误差平方和是相应的“方差分析”表(显示在“方差分析”报表之下)的误差行中的平方和。
‒ 纯误差平方和是各个分组的合并结果,这些分组中有多个行对 x 变量都包含相同的值。该统计量用来估计模型 x 效应无法解释的真正随机误差部分。请参见“失拟”报表。
‒ 失拟平方和是总误差平方和与纯误差平方和之间的差值。若失拟平方和较大,则模型可能不适用于数据。下文所述的 F 比检验失拟导致的变异是否足够小,小到为纯误差的一个可忽略比例而被接受。
均方
平方和除以与其相关的自由度。该计算将平方和转换为平均值(均方)。用于统计检验的 F 比是均方之比。
F 比
失拟的均方与纯误差的均方之比。它检验失拟误差是否为零这一假设。
概率 > F
若因失拟方差引起的变异与因纯误差方差引起的变异相同,得到更大的 F 值的概率。较高的 p 值意味着失拟不显著。
最大 R 方
某个模型仅使用该模型所含变量可以实现的最大 R2。请参见“失拟”报表。
回归的方差分析 (ANOVA) 将样本总变异分为多个分量。这些分量用于计算 F 比,以便评估模型的有效性。若与 F 比关联的概率较小,则认为相对于响应均值本身,模型是更适合数据的统计拟合。
Figure 5.12 中的“方差分析”报表对线性拟合(拟合线)和二次拟合(拟合多项式)进行了比较。这两种拟合都是比均值水平线更适合的统计拟合。
图 5.12 线性拟合和多项式拟合的“方差分析”报表的示例
“方差分析”报表包含以下列:
源
变异的三个来源:模型、误差和校正总和。
自由度
每种变异来源的自由度 (DF):
‒ 针对计算中使用的每个参数估计值,都会从非缺失值总数 (N) 中减去一个自由度。总样本变异的计算使用均值的估计值。因此,需要从总数中减去一个自由度,得到 50。总校正自由度分为模型和误差自由度。
‒ 总和中的一个自由度(显示在模型行上)用于估计线性拟合的单个回归参数(斜率)。两个自由度用于估计二次多项式拟合的参数(β1 和 β2)。
‒ 误差自由度是校正总和自由度与模型自由度之间的差值。
平方和
每种变异来源的平方和(简写为 SS):
‒ 在本例中,每个响应与样本均值之间距离的总平方和(校正总和)为 57,278.157,如Figure 5.12 所示。这是用于与其他所有模型进行比较的基本模型(或简单均值模型)的平方和。
‒ 对于线性回归,每个点与拟合线之间距离的平方和减至 12,012.733。这是在拟合模型后剩余或未解释的(误差)平方和。二次多项式拟合的剩余平方和为 6,906.997,该拟合比线性拟合所解释的变异略多一些。也就是说,该模型可解释更多变异,因为二次多项式的模型平方和比线性拟合的模型平方和要高。校正总和平方和减去误差平方和之后的值就是模型平方和。
均方
平方和除以与其相关的自由度。用于统计检验的 F 比是以下均方的比值:
‒ 线性拟合的模型均方为 45,265.4。该值估计误差方差,但仅是在模型参数为零的假设前提之下。
‒ 误差均方为 245.2。该值估计误差方差。
F 比
模型均方除以误差均方。该拟合的假设前提是所有回归参数(截距除外)都为零。若该假设成立,则误差均方和模型均方都估计误差方差,并且它们的比值服从 F 分布。
概率 > F
得到更大的 F 值观测到的显著性概率(p 值)(若指定的模型没有总体响应均值的拟合效果好)。观测到的显著性概率为 0.05 或更小通常被视为回归效应的证明。
对于线性拟合,“参数估计值”报表中的项包括截距和单个 x 变量。
对于 k 次多项式拟合,“参数估计值”报表包含模型截距的估计值,以及针对 X 变量所有 0 到 k 次幂的参数估计值。
图 5.13 线性拟合和多项式拟合的“参数估计值”报表的示例
“参数估计值”报表包含以下列:
项
列出所请求的模型中每个参数的名称。截距是所有模型中的常数项。
估计值
列出线性模型的参数估计值。预测公式是这些估计值与其对应变量的值的线性组合。
标准误差
列出参数估计值的标准误差的估计值。这些值用于构成检验和置信区间。
t 比
列出每个参数都为零的假设前提下的检验统计量。这是参数估计值与其标准误差的比值。若假设成立,则该统计量具备 Student t 分布。
概率>|t|
列出从每个 t 比计算得出观测到的显著性概率。它是得到 t 比的绝对值大于计算值的概率(在原假设成立的前提下)。通常将 0.05(或有时为 0.01)以下的值解释为参数与零之间存在显著差异的证据。
要显示其他统计量,请在报表中右击并选择列菜单。默认情况下不显示的统计量如下所示:
95% 下限
参数估计值的 95% 置信区间的下端点。
95% 上限
参数估计值的 95% 置信区间的上端点。
标准 Beta
标准化的参数估计值。适用于比较以不同尺度测量的 X 变量的效应。请参见“参数估计值”报表。
VIF
方差膨胀因子。
设计标准误差
参数估计值的设计标准误差。请参见“参数估计值”报表。