Coeficiente de correlación

¿Qué es el coeficiente de correlación?

El coeficiente de correlación es la medida específica que cuantifica la intensidad de la relación lineal entre dos variables en un análisis de correlación. En los informes de correlación, este coeficiente se simboliza con la r.

¿Cómo se utiliza el coeficiente de correlación?

Para dos variables, la fórmula compara la distancia de cada dato puntual respecto a la media de la variable y utiliza esta comparación para decirnos hasta qué punto la relación entre las variables se ajusta a una línea imaginaria trazada entre los datos. A esto nos referimos cuando decimos que la correlación examina las relaciones lineales.

¿Qué limitaciones hay que tener en cuenta?

La correlación sólo se refiere a las dos variables dadas y no aporta información sobre las relaciones más allá de los datos bivariados. Esta prueba no puede detectar valores atípicos en los datos (y por tanto estos sesgan los resultados) y tampoco puede detectar correctamente las relaciones curvilíneas.

Variantes del coeficiente de correlación

En esta sección nos centraremos en la correlación producto-momento de Pearson. Es uno de los tipos de medidas de correlación más empleados en la práctica, pero no es el único. Otra variante estrechamente relacionada es la correlación de Spearman, que se usa de manera similar pero se aplica a datos clasificados.

¿Qué significan los valores del coeficiente de correlación?

El coeficiente de correlación r es un valor sin unidades entre -1 y 1. La significancia estadística se indica con un valor p. Por lo tanto, usualmente las correlaciones se escriben con dos números clave: r = y p = .

  • Cuanto más se aproxima r a cero, más débil es la relación lineal.
  • Los valores de r positivos indican una correlación positiva, en la que los valores de ambas variables tienden a incrementarse juntos.
  • Los valores de r negativos indican una correlación negativa, en la que los valores de una variable tienden a incrementarse mientras que los valores de la otra variable descienden.
  • Los valores 1 y -1 representan una correlación "perfecta" positiva y negativa, respectivamente. Dos variables perfectamente correlacionadas cambian conjuntamente a una tasa fija. Decimos que tienen una relación linear; cuando representados en un gráfico de dispersión, todos los puntos correspondientes a los datos pueden conectarse con una misma línea recta.
  • El valor p nos ayuda a determinar si podemos o no concluir de manera significativa que el coeficiente de correlación de la población es diferente a cero, basándonos en lo que observamos en la muestra.

¿Qué es el valor p?

El valor p es una medida de probabilidad empleada para hacer pruebas de hipótesis. El objetivo de una prueba de hipótesis es determinar si hay evidencia suficiente para apoyar una determinada hipótesis sobre los datos. De hecho, formulamos dos hipótesis: la hipótesis nula y la hipótesis alternativa. En el análisis de correlación, usualmente, la hipótesis nula expresa que la relación observada entre las variables es producto del mero azar (esto es, que el coeficiente de correlación en realidad es cero y no hay una relación lineal). La hipótesis alternativa expresa que la correlación que hemos medido está legítimamente presente en nuestros datos (esto es, que el coeficiente de correlación es distinto a cero).

El valor p es la probabilidad de observar un coeficiente de correlación distinto a cero en los datos de nuestra muestra cuando en realidad la hipótesis nula es verdadera. Un valor p bajo nos lleva a rechazar la hipótesis nula. Un umbral típico para rechazar la hipótesis nula es un valor p de 0,05. Esto es, si el valor p es inferior a 0,05, rechazaríamos la hipótesis nula en favor de la hipótesis alternativa: que el coeficiente de correlación es diferente a cero.

 

¿Cómo calculamos efectivamente el coeficiente de correlación?

El coeficiente de correlación de la muestra puede representarse con una fórmula:

$$ r=\frac{\sum\left[\left(x_i-\overline{x}\right)\left(y_i-\overline{y}\right)\right]}{\sqrt{\mathrm{\Sigma}\left(x_i-\overline{x}\right)^2\
\ast\ \mathrm{\Sigma}(y_i\ -\overline{y})^2}} $$

Ver fórmula anotada

Vamos a ver cómo calcular el coeficiente de correlación a través de un ejemplo con un conjunto pequeño de números, para que sea fácil seguir las operaciones.

Supongamos que queremos saber si podemos esperar más ventas de helado en nuestra ciudad en los días de calor. Las heladerías empiezan a abrir en primavera; tal vez porque la gente compra más helado en los días que hace calor. Alternativamente, a lo mejor la gente compra helado de manera regular porque les gusta mucho.

Para empezar a responder a esta pregunta, recopilaremos los datos de los promedios diarios de venta de helado y la temperatura máxima diaria. Por tanto, las ventas de helado y la temperatura son las dos variables que usaremos para calcular el coeficiente de correlación. A veces a este tipo de datos se los llama datos bivariados, porque cada observación (o instante de tiempo en el que hemos medido tanto las ventas como la temperatura) tiene dos datos que podemos usar para describirla. En otras palabras, nos estamos preguntando si las ventas de helado y la temperatura varían conjuntamente.

Tal como lo hemos hecho antes, un gráfico de dispersión es útil para echar un primer vistazo:

También podemos ver los datos en una tabla, ya que nos ayuda a seguir el cálculo del coeficiente a partir de cada dato bivariado. Cuando hablamos de datos bivariados, lo común es llamar a una variable X y a la otra Y (esto también nos ayuda a orientarnos en un plano visual, como los ejes de un gráfico). Vamos a llamar X a las ventas de helado e Y a la temperatura.

Observe que todos los datos bivariados se dan por pares. Recuerde que estamos observando en instantes individuales en el tiempo, y cada uno de ellos tiene un valor tanto para las ventas como para la temperatura.

Ventas de helado (X)Temperatura °F (Y)
370
675
980

 

1. Comience averiguando las medias de la muestra

Ahora que hemos orientado nuestros datos, podemos empezar con dos subcálculos importantes de la fórmula anterior: la media de la muestra y la diferencia entre cada dato puntual y esta media (durante estos pasos, también podrá ver los cimientos iniciales de la desviación estándar).

Las medias de la muestra se representan con los símbolos e , a veces llamados "X-Barra" e "Y-Barra". Las medias de venta de helados () y temperatura () pueden calcularse fácilmente de la siguiente manera:

$$ \overline{x} =\ [3\ +\ 6\ +\ 9] ÷ 3 = 6 $$

$$ \overline{y} =\ [70\ +\ 75\ +\ 80] ÷ 3 = 75 $$

2. Calcule la distancia de cada dato puntual respecto a su media

Una vez que hemos obtenido la media de cada una de las dos variables, el siguiente paso es restar la media de ventas de helado (6) de cada uno de los datos puntuales de ventas (x_i en la fórmula) y la media de temperatura (75) de cada uno de los datos puntuales de temperatura (y_i en la fórmula). Tenga en cuenta que esta operación a veces da lugar a un número negativo o a cero.

Helado (X)Temperatura °F (Y)$x_i-\overline{x}$$y_i-\overline{y}$
$3$$70$$3 - 6 = -3$$70 - 75 = -5$
$6$$75$$6 - 6 = 0$$75 - 75 = 0$
$9$$80$$9 - 6 = 3$$80 - 75 = 5$

 

3. Complete el numerador de la ecuación del coeficiente

Esta parte de la ecuación se llama la suma de los productos. Un producto es un número que se obtiene tras una multiplicación, así que esta fórmula es justo lo que parece: la suma de los números que ha multiplicado.

$$ \sum[(x_i-\overline{x})(y_i-\overline{y})] $$

Tomamos los pares de valores de cada fila de las últimas dos columnas de la tabla de arriba, los multiplicamos (recuerde que al multiplicar dos números negativos se obtiene un resultado positivo) y sumamos los resultados:

$$ [(-3)(-5)] + [(0)(0)] + [(3)(5)] = 30 $$

INFORMACIÓN ADICIONAL:

¿Cómo se relaciona la suma de productos con el gráfico de dispersión?


El cálculo de la suma de los productos y la ubicación de los datos puntuales en nuestro gráfico de dispersión están intrínsecamente relacionados.

Observe que en nuestros datos, la suma de los productos es positiva. Cuando la suma de los productos (el numerador de nuestra ecuación del coeficiente de correlación) es positiva, el coeficiente de correlación r resulta positivo, ya que el denominador (una raíz cuadrada) siempre es positivo. Sabemos que una correlación positiva significa que los incrementos de una variable están relacionados con incrementos en la otra (como en nuestro ejemplo de ventas de helado y temperatura) y, en un gráfico de dispersión, los datos puntuales se orientan en un ángulo hacia arriba de izquierda a derecha. Pero ¿cómo refleja esto la suma de los productos?

  • La única manera de obtener un valor positivo en la suma de los productos es que los productos que estemos sumando tiendan a ser positivos.
  • La única manera de obtener un valor positivo para cada uno de los productos es que ambos valores sean o bien negativos o positivos.
  • La única manera de obtener un par de valores negativos es que ambos valores estén por debajo de sus medias (en el cuadrante inferior izquierdo del gráfico de dispersión) y la única manera de obtener un par de valores positivos es que ambos valores estén por encima de sus medias (en el cuadrante superior derecho del gráfico de dispersión).

Por lo tanto, la suma de los productos nos indica si los datos tienden a aparecer en el cuadrante inferior izquierdo y superior derecho del gráfico de dispersión (correlación positiva) o si, por el contrario, los datos tienden a aparecer en el cuadrante superior izquierdo e inferior derecho del gráfico (correlación negativa).

 

4. Complete el denominador de la ecuación del coeficiente

El denominador de nuestra ecuación del coeficiente de correlación tiene este aspecto:

$$ \sqrt{\mathrm{\Sigma}{(x_i\ -\ \overline{x})}^2\ \ast\ \mathrm{\Sigma}(y_i\ -\overline{y})^2} $$

Vamos a ver las expresiones de esta ecuación por separado con los números de nuestro ejemplo de ventas de helado:

$$ \mathrm{\Sigma}{(x_i\ -\ \overline{x})}^2=-3^2+0^2+3^2=9+0+9=18 $$

$$ \mathrm{\Sigma}{(y_i\ -\ \overline{y})}^2=-5^2+0^2+5^2=25+0+25=50 $$

Cuando multiplicamos el resultado de las dos expresiones entre sí, obtenemos:

$$ 18\times50\ =\ 900 $$

Y el denominador de la ecuación quedaría así:

$$ \sqrt{900}=30 $$

 

5. Complete el cálculo y compare el resultado con el gráfico de dispersión

Transcribimos de nuevo nuestra ecuación para el coeficiente de correlación completa:

$$ r=\frac{\sum\left[\left(x_i-\overline{x}\right)\left(y_i-\overline{y}\right)\right]}{\sqrt{\mathrm{\Sigma}\left(x_i-\overline{x}\right)^2\ \ast\ \mathrm{\Sigma}(y_i\ -\overline{y})^2}} $$

Introduzcamos en el numerador y el denominador los números que hemos calculado en los pasos anteriores:

$$ r=\frac{30}{30}=1 $$

¡Hay una correlación perfecta entre las ventas de helado y los días calurosos de verano! Por supuesto, en el mundo real encontrar una correlación perfecta es tan improbable que, si estuviéramos trabajando con datos reales, sospecharíamos que hemos hecho algo mal para obtener este resultado.

Pero con los datos simplificados de nuestro ejemplo, este resultado debería tener sentido de manera intuitiva, simplemente mirando los puntos correspondientes a los datos. Vamos a ver de nuevo nuestro gráfico de dispersión:

Ahora imagínese que dibuja una línea en el gráfico. ¿Mostraría un ajuste lineal perfecto?

¡Una imagen vale más que 1000 coeficientes de correlación!

Los gráficos de dispersión y otras visualizaciones de datos son herramientas útiles en todo el proceso estadístico, no solo antes de hacer nuestras pruebas de hipótesis.

De hecho, es importante recordar que basarse exclusivamente en el coeficiente de correlación puede llevar a errores, especialmente en situaciones con relaciones curvilíneas o valores extremadamente atípicos. Los gráficos de dispersión a continuación nos recuerdan que un coeficiente de correlación nulo o cerca de cero no necesariamente implica que no haya relación entre las variables, solamente significa que no hay una relación lineal.

De manera similar, observar un gráfico de dispersión puede aportarnos información sobre cómo los valores atípicos (observaciones poco habituales dentro de nuestros datos) pueden sesgar el coeficiente de correlación. Vamos a ver un ejemplo con un valor atípico extremo. El coeficiente de correlación indica que hay una relación positiva relativamente fuerte entre X e Y. Pero cuando se elimina el valor atípico, el coeficiente de correlación está cerca de cero.