Correlación

¿Qué es la correlación?

La correlación es una medida estadística que expresa hasta qué punto dos variables están relacionadas linealmente (esto es, cambian conjuntamente a una tasa constante). Es una herramienta común para describir relaciones simples sin hacer afirmaciones sobre causa y efecto.

¿Cómo se mide la correlación?

El coeficiente de correlación de la muestra, r, cuantifica la intensidad de la relación. Las correlaciones también se someten a pruebas para establecer su significancia estadística.

¿Cuáles son algunas limitaciones del análisis de correlación?

La correlación no puede medir la presencia o el efecto de otras variables aparte de las dos que se están explorando. Es importante saber que la correlación no nos informa sobre causas y efectos. Además, la correlación no puede describir con precisión las relaciones curvilíneas.

La correlación describe datos que varían conjuntamente

La correlación es útil para describir relaciones simples entre datos. Por ejemplo, imaginemos que está consultando un conjunto de datos sobre campings en un parque de montaña. Se quiere averiguar si hay una relación entre la altura del camping (qué tan alto está en la montaña) y la temperatura máxima promedio durante el verano.

Para cada camping se tienen dos mediciones: la elevación y la temperatura. Si usa la correlación para comparar estas dos variables en toda la muestra, se puede ver que hay una relación lineal: cuanto más sube la altura, más baja la temperatura. Estas variables tienen una correlación negativa.

¿Qué significan los números de las correlaciones?

Describimos la correlación mediante una medida sin unidades llamada coeficiente de correlación, que va desde -1 a +1 y se indica mediante la letra r. La significancia estadística se indica mediante un valor p. Por tanto, usualmente las correlaciones se escriben con dos números clave: r = y p = .

  • Cuanto más se aproxima r a cero, más débil es la relación lineal.
  • Los valores de r positivos indican una correlación positiva, en la que los valores de ambas variables tienden a incrementarse juntos.
  • Los valores de r negativos indican una correlación negativa, en la que los valores de una variable tienden a incrementarse mientras que los valores de la otra variable descienden.
  • El valor p aporta evidencia de que podemos concluir de manera significativa que es probable que el coeficiente de correlación de la población sea diferente a cero, basándonos en lo que hemos observado en la muestra.
  • "Medida sin unidades" significa que la correlación tiene su propia escala: en nuestro ejemplo, el número de r no está en la misma escala que la altura ni que la temperatura. Esto es diferente a otros estadísticos de resumen. Por ejemplo, la media de las medidas de altura está en la misma escala que su variable.

¿Qué es el valor p?

El valor p es una medida de probabilidad empleada para hacer pruebas de hipótesis.

Indica la probabilidad de obtener los datos que estamos viendo en ausencia de efectos, esto es, si la hipótesis nula es verdadera. En nuestro ejemplo de datos de campings, esta hipótesis sería que no hay una relación lineal entre altura y temperatura. Cuando se usa un valor p para describir un resultado como estadísticamente significativo, eso significa que está por debajo de un límite preestablecido (p. ej., p <.05 o p <.01) y que rechazamos la hipótesis nula en favor de la hipótesis alternativa (en este caso, que hay una relación entre altura y temperatura).

Una vez que hemos obtenido una correlación significativa, también podemos observar su magnitud. Una correlación positiva perfecta tiene un valor de 1, y una correlación negativa perfecta tiene un valor de -1. Pero en el mundo real, nunca esperaríamos una correlación perfecta, a no ser que una medida sea efectivamente equivalente a la otra. Es más, una correlación perfecta puede avisarnos de que hay un error en los datos. Por ejemplo, si ha medido accidentalmente la distancia sobre el nivel del mar de cada camping en lugar de la temperatura, obtendría una correlación perfecta con la altura.

Otro dato útil es N, o número de observaciones. Como ocurre con la mayoría de pruebas estadísticas, conocer el tamaño de la muestra nos ayuda a juzgar la robustez de la misma y que tan bien representa a la población. Por ejemplo, si solo hemos medido la altura y la temperatura de 5 campings, pero el parque tiene 2000, quizás queramos añadir más campings a la muestra.

Cómo visualizar la correlación con gráficos de dispersión

Volviendo al ejemplo anterior: a medida que la altura del camping aumenta, la temperatura baja. Podemos observar esto directamente con un gráfico de dispersión. Imagine que hemos representado los datos de nuestros campings:

  • Cada punto del gráfico representa a un camping, que podemos ubicar en un eje x e y, con la temperatura máxima en verano en función de la altura.
  • El coeficiente de correlación (r) también ilustra nuestro gráfico de dispersión. Nos dice, en términos numéricos, que tan próximos están los puntos representados en el gráfico de dispersión a una relación lineal. Las relaciones más estrechas o los valores de r más grandes son relaciones en las que los puntos están muy cerca de la línea que hemos ajustado a los datos.

¿Qué ocurre con las relaciones más complejas?

Los gráficos de dispersión también son útiles para determinar si hay algo en nuestros datos que pueda afectar a una correlación precisa, como patrones poco habituales (por ejemplo, una relación curvilínea o un valor extremadamente atípico).

Las correlaciones no pueden capturar con precisión las relaciones curvilíneas. En una relación curvilínea, las variables están correlacionadas en una dirección determinada hasta cierto punto, en el cual la relación cambia.

Por ejemplo, imagine que estamos observando la altura de los campings y la puntuación media que les dan los acampantes. Quizás la altura y la puntuación estén correlacionadas de manera positiva al principio, porque los campings que están más altos tienen mejores vistas del parque. Pero a partir de cierto punto, las alturas más elevadas se correlacionan negativamente con las puntuaciones, porque los acampantes pasan frío por las noches.

Podemos obtener aún más información añadiendo elipses de densidad sombreadas a nuestro gráfico de dispersión. Una elipse de densidad ilustra la región con mayor densidad de puntos de un gráfico de dispersión, lo que a su vez nos ayuda a ver la intensidad y la dirección de la correlación.

Las elipses de densidad pueden tener diferentes tamaños. Una elección común para examinar la correlación son las elipses de densidad del 95 %, que muestran aproximadamente el 95 % más denso de las observaciones. Si las dos variables varían conjuntamente, como la altura y la temperatura en nuestros campings, esperaríamos que la elipse de densidad refleje la forma de la línea. Y podemos ver que en una relación curvilínea, la elipse de densidad es circular: la correlación no nos aportará una descripción significativa de esta relación.