相关系数
什么是相关系数?
相关系数是量化相关性分析中两个变量之间线性关系强度的特定测定。该系数在我们的相关性报表中以符号 r 表示。
如何使用相关系数?
对于两个变量,相关系数公式将比较每个数据点与变量均值的距离,并使用该信息来告诉我们变量之间的关系在多大程度上能通过数据绘制的假想线来表示。这就是我们所说的相关性也就是看线性关系。
需要考虑哪些局限性?
相关性仅仅会观测手头上的两个变量,不会深入揭示二元数据以外的关系。该检验不会检测数据中的离群值(以及随之而来的偏态),也无法正确地检测曲线关系。
相关系数的值有何意义?
相关系数 r 是一个介于 -1 和 1 之间的无单位的值。统计显著性以 p 值表示。因此,相关性通常以两个关键数值来表示:r = 和 p = 。
- r 越接近 0,线性关系越弱。
- 正的 r 值表示正相关,在这种情况下,两个变量的值往往一起增加。
- 负的 r 值表示负相关,在这种情况下,当一个变量的值增加时,另一个变量的值往往会减少。
- 值 1 和 -1 都代表“完美”的相关性,分别表示正相关和负相关。两个完美相关的变量会以固定的比率一起变化。我们说,它们有 线性 关系;当绘制在散点图上时,所有的数据点可以用一条直线连接。
- p 值 可帮助我们确定能否根据从样本中观测到的情况得出有意义的结论,即总体相关系数不等于 0。
什么是 p 值?
p 值可衡量假设检验所用的概率。假设检验的目标是确定是否有足够的证据来支持某个关于数据的假设。实际上,我们提出了两个假设:原假设 和 备择假设。在相关性分析中,原假设通常是:观测到的变量之间的关系是纯偶然性的结果(即相关系数实际上是 0 — 没有线性关系)。备择假设是:我们衡量的相关性会合理地存在于我们的数据中(即相关系数不是 0)。
p 值是当原假设实际上为真时,在我们的样本数据中观测到非 0 相关系数的概率。如果 p 值较小,将拒绝原假设。拒绝原假设的阈值通常为 p 值等于 0.05。也就是说,如果 p 值小于 0.05,将拒绝原假设,转而支持备择假设,即相关系数不是为0。
实践中,如何计算相关系数?
样本相关系数可以用公式表示:
$$ r=\frac{\sum\left[\left(x_i-\overline{x}\right)\left(y_i-\overline{y}\right)\right]}{\sqrt{\mathrm{\Sigma}\left(x_i-\overline{x}\right)^2\
\ast\ \mathrm{\Sigma}(y_i\ -\overline{y})^2}} $$
让我们使用一个含有少量简单数字的例子来逐步说明如何计算相关系数,以便简单地完成整个运算。
假如我们想知道,在炎热的夏天,城市的冰淇淋销售量是否有明显的增长。冰淇淋店在春季开始营业;夏天,人们倾向于在室外购买更多的冰淇淋。但另外一方面,人们也许只是因为很喜欢冰淇淋,所以以稳定的频次购买。
为了回答这个问题,我们首先收集有关冰淇淋日平均销售量和日最高温度的数据。因此,“冰淇淋销售量”和“温度”是 两个变量,我们将使用这两个变量来计算相关系数。这类数据有时被称为 二元数据,原因在于每个观测值(即我们同时衡量销售量和温度的时间点)都有两条可以用来描述它的信息。换句话说,我们将观察,“冰淇淋销售量”和“温度”是否会一起变动。
和前面一样,我们使用散点图来先睹为快:
另外,也可以在表中查看这些数据,这样可以方便地帮助我们追踪每个数据点的系数计算。讨论二元数据时,通常会将一个变量称为 X,将另一个变量称为 Y(这也有助我们在直观的平面上定位,例如图中的数轴上)。这里我们将“冰淇淋销售量”定义为 X,将“温度”定义为 Y。
请注意,每个数据点都是 成对 呈现的。请记住,我们实际上是在查看各个时间点,而每个时间点同时具有销售量和温度值的数据。
1. 首先寻找样本均值
现在我们已经得到数据,可以开始执行上面公式中的两个重要的子计算:样本均值 以及每个数据点与该均值之间的差异(在这些步骤中,您还可以看到 标准差 的初始组成部分)。
样本均值以 x̅ 和 y̅ 表示,有时被称为“x bar”和“y bar”。“冰淇淋销售量”的均值 (x̅) 和“温度”的均值 (y̅) 可以简单地按以下公式计算:
$$ \overline{x} =\ [3\ +\ 6\ +\ 9] ÷ 3 = 6 $$
$$ \overline{y} =\ [70\ +\ 75\ +\ 80] ÷ 3 = 75 $$
2. 计算每个数据点与其均值的距离
有了两个变量的均值后,下一步就是从每个“销售量”数据点减去“冰淇淋销售量”的均值 (6)(公式中的 xi),从每个“温度”数据点减去“温度”的均值 (75)(公式中的 yi)。请注意,此运算有时会产生负数或 0!
3. 完成系数方程式的上面部分
方程式的这部分被称为“乘积和”。乘积是在执行乘法运算后得到的数字。顾名思义,该公式其实就是:执行乘法运算后得到的数字之和。
$$ \sum[(x_i-\overline{x})(y_i-\overline{y})] $$
从上表最后两列的每一行中取成对的数值,将它们相乘(请记住,负负得正!),然后将这些结果相加:
$$ [(-3)(-5)] + [(0)(0)] + [(3)(5)] = 30 $$
深入思考:
4. 完成系数方程式的下面部分
相关系数方程式的分母看起来像这样:
$$ \sqrt{\mathrm{\Sigma}{(x_i\ -\ \overline{x})}^2\ \ast\ \mathrm{\Sigma}(y_i\ -\overline{y})^2} $$
让我们分别处理此方程式中的表达式,然后代入“冰淇淋销售量”示例的数字:
$$ \mathrm{\Sigma}{(x_i\ -\ \overline{x})}^2=-3^2+0^2+3^2=9+0+9=18 $$
$$ \mathrm{\Sigma}{(y_i\ -\ \overline{y})}^2=-5^2+0^2+5^2=25+0+25=50 $$
将两个表达式的结果相乘后得到:
$$ 18\times50\ =\ 900 $$
方程式的下面部分即为:
$$ \sqrt{900}=30 $$
5. 完成计算,将计算结果与散点图进行比较
现在,我们再次列出完整的相关系数方程式:
$$ r=\frac{\sum\left[\left(x_i-\overline{x}\right)\left(y_i-\overline{y}\right)\right]}{\sqrt{\mathrm{\Sigma}\left(x_i-\overline{x}\right)^2\ \ast\ \mathrm{\Sigma}(y_i\ -\overline{y})^2}} $$
代入在上面计算出的分子和分母值:
$$ r=\frac{30}{30}=1 $$
可以发现,冰淇淋销售量与炎热的夏天完美相关!当然,在现实世界中几乎不可能存在完美的相关性,因此,如果我们在处理真实数据时得到了完美的相关性时就需要思考下,是否哪里出了错。
不过,在我们的例子中,数据已进行了简化。由于只是简单地查看数据点,这个结果应该具有直观的意义。让我们再来看看散点图:
现在,请设想一下绘制一条通过该散点图的线条。看起来是不是像完美的线性拟合?
一图胜千言!一张图可能抵得上 1000 个相关系数!
散点图和其他形式的数据可视化展示不仅仅在我们执行假设检验之前有用,而且在整个统计过程中都是十分有用的工具。
值得注意的是,仅仅依赖相关系数可能会产生误导—特别是在涉及曲线关系或极端离群值的情况下。下面的散点图提醒我们,相关系数等于 0 或接近 0 不一定意味着变量之间没有关系;它仅仅意味着变量之间没有 线性 关系。
同样,查看散点图可以帮助我们更好地了解为什么相关系数容易被离群值(数据中的异常观测值)误导。让我们来看看包含 1 个极端离群值的例子。相关系数表明,X 和 Y 之间为相对较强的正相关。但是,在移除离群值后,相关系数却接近 0。