“估计值”菜单上的“估计值的相关性”命令计算参数估计值的相关性矩阵。这些相关性指示是否存在共线性。
若要了解该矩阵的构造,考虑典型的最小二乘回归方程。在此,响应 (Y) 是预测变量 (x) 以及误差 (ε) 的线性函数:
数据表的每一行都包含一个响应值和 p 个预测变量的值。对于每个观测,预测变量值被视为固定不变。不过,响应值被视为随机变量的实现。
考虑预测变量值为固定值,对于任意一组 Y 值,系数 β0、β1、…、βp 均可估计。通常,不同组的 Y 值将导致不同的系数估计值。“估计值的相关性”选项计算这些参数估计值的理论相关性。(有关技术细节的信息,请参见“定制检验”示例的详细信息。)
参数估计值的相关性仅依赖于预测变量值和表示截距的项。两个参数估计值之间的相关性不受响应值影响。
两个估计值之间强正相关表明两个对应预测变量之间可能存在共线性关系。但是要注意,您需要谨慎解释这些相关性 (Belsley et al. 1980, p. 185, 92–94)。此外,发生均值偏移的预测变量的尺度重新调整会更改其参数估计值与截距值的相关性。
1. 选择帮助 > 样本数据库,然后打开 Socioeconomic.jmp。
2. 选择分析 > 拟合模型。
3. 选择房屋均值并点击 Y。
4. 选择总人口、平均受教育年数、总就业率和专业服务,然后点击添加。
5. 在“重点”列表中,选择最小报表。
6. 点击运行。
7. 点击“响应‘房屋均值’”旁边的红色小三角并选择估计值 > 估计值的相关性。
图 3.41 “估计值的相关性”报表
该报表显示“截距”与平均受教育年数的参数估计值之间强负相关 (–0.9818)。总人口与总就业率之间也是强负相关 (–0.9746)。