有关统计拟合的一个令人吃惊的事实是大多数经典方法可以简化为使用两个简单装置:弹簧和压力缸。
首先,弹簧是连续响应模型的拟合装置 (Farebrother 1987)。假定您有 n 个点,想知道这些点的期望值(均值)。设想您将点排列在标尺上并使用弹簧将它们连接到公共接头(Figure A.7)。当您放开弹簧时,弹簧上下摆动接点,然后在均值处停下来。根据物理学原理,这是必然发生的事。
若数据服从正态分布且均值在连接弹簧的接点处,则每个点的弹簧的物理能量与数据点的不确定性成比例。您为计算弹簧的能量(不确定性)所要做的是计算每个点到均值的距离平方和。
为了选择将最小不确定性归因于观测数据的估计值,选择弹簧停摆点为均值的估计值。这个点要求拉伸弹簧的能量最小,等价于最小二乘拟合。
图 A.7 将弹簧连接到数据点
那就是您如何拟合一个均值或拟合几个均值的。那就是您如何拟合一条线、平面或超平面的。那就是您如何拟合连续数据的几乎任何模型的。通过弹簧必须延伸的距离的平方和来测量能量或不确定性。
统计学家信任正态分布,因为它对其信仰的要求是最低的分布。它在某种意义上来说是最随机的。它是具有最无信息形状的分布。它是具有给定方差的最期望的不确定性的分布。它是用平方距离测量不确定性的分布。在很多情况下,当您具有混合分布或独立量之和时,它是极限分布。它是导致可以轻松测量检验统计量的分布。
拟合受假设约束时,您通过测量这个相同的弹簧能量来检验假设。假定您在实验中有来自四个不同处理的响应,想检验均值是否有显著差异。首先,假定您的数据已分组标绘(如Figure A.8中所示),但是使用弹簧连接每个处理的单独均值。然后施加压力来抗拒弹力,使各个均值向公共均值移动。移好了!限制均值成为相同的能量大小就是所需的检验统计量。该能量是检验均值是否相同的假设的 F 检验的主要组成部分。
图 A.8 连续响应变量的单因子图
您的响应是分类型而非连续型时怎么办?例如,假定响应是小汽车样本的原产国。对于您的样本,有针对三个响应水平(美国、欧洲和日本)的概率。您可以将原产国的这些概率设置为某个估计值,然后计算数据的不确定性。通过求数据所给响应的概率的负对数之和来计算这个不确定性。它的公式为:
弹簧的构想说明了如何拟合连续数据的均值。响应为分类型时,统计方法直接估计响应概率并选择使数据的总不确定性最小的估计值。概率估计值必须非负且总和为 1。您可以将响应概率绘图为总长度为 1 的标尺上的一个组成部分。对于每个响应观测值,把一个气压缸(例如轮胎气泵)加载到其响应区域。改变响应水平之间的分割方式,直到达到最低势能的平衡。根据分割区的大小来估计响应概率。
Figure A.9显示诸如 medium 类型车的单个类别的情形(请参见Figure A.10 中Carpoll.jmp 中标记为 medium 的马赛克列)。假定有 13 个响应(小汽车)。第一个水平 (American) 具有 6 个响应,第二个水平具有 2 个响应,最后一个水平具有 5 个响应。响应概率分别变为 6/13、2/13 和 5/13,因为针对响应分割区的压力相抵以使总能量最小。
图 A.9 分割区中的压力缸效应
像弹簧用于连续数据一样,您可以通过一些因子来分割样本并拟合单独的分割集。然后通过测量需要多少额外能量来促使分割区相等,检验响应率在各组上是否相同。设想按车尺寸对车原产国概率分组的压力缸。强制每个组中的分割区水平对齐所需的能量检验这些变量是否有相同的概率。Figure A.10显示了这些分割区。
图 A.10 分类数据的马赛克图