Correlación vs. causalidad
La correlación examina la relación entre dos variables. Sin embargo, observar que dos variables se mueven conjuntamente no significa necesariamente que una variable sea la causa de la otra. Por eso solemos decir que "la correlación no implica causalidad".
Una correlación fuerte puede indicar causalidad, pero también es probable que existan otras explicaciones:
- Puede ser el resultado del azar: las variables parecen estar relacionadas, pero en realidad no hay una relación subyacente.
- Puede haber una tercera variable al acecho que haga que la relación parezca más fuerte (o más débil) de lo que realmente es.
En los datos observacionales, las correlaciones no pueden confirmar la causalidad...
Las correlaciones entre variables nos muestran que hay un patrón en los datos, que las variables tienden a moverse conjuntamente. Sin embargo, por sí mismas, las correlaciones no nos muestran si los datos se mueven juntos porque una variable causa la otra.
Es posible encontrar una correlación fiable y estadísticamente significativa entre dos variables que en realidad no tienen ninguna relación causal. ¡De hecho, estas correlaciones son comunes! A menudo esto se debe a que ambas variables están asociadas a una variable causal diferente, que tiende a darse junto a los datos que estamos midiendo.
Ejemplo: el ejercicio y el cáncer de piel
Vamos a verlo con un ejemplo. Imagine que está analizando datos sobre salud y observa una correlación positiva y estadísticamente significativa entre ejercicio y casos de cáncer de piel, esto es, que las personas que hacen más ejercicio tienden a sufrir cáncer de piel. La correlación parece significativa y fiable, y podemos observarla en múltiples poblaciones de pacientes. Sin hacer más indagaciones, ¡se podría llegar a la conclusión de que el ejercicio causa cáncer! Basándose en estos resultados, incluso podría desarrollarse una hipótesis plausible: quizás el estrés del ejercicio causa que el cuerpo pierda parte de su capacidad para protegerse del daño del sol.
Pero en realidad, esta correlación podría estar presente en su conjunto de datos porque las personas que viven en lugares que tienen mucha luz solar todo el año son significativamente más activas en su vida diaria que las personas que viven en lugares con menos luz. Esto se refleja en los datos como un incremento del ejercicio. Al mismo tiempo, mayor exposición diaria a la luz solar significa que hay más casos de cáncer de piel. Ambas variables (la tasa de ejercicio y la de cáncer de piel) han sido afectadas por una tercera variable causal (la exposición a la luz solar) pero no tenían una relación causal entre sí.
...pero con estudios empíricos bien diseñados, ¡podemos establecer la causalidad!
Es fundamental para el conocimiento de datos poder distinguir entre aquello que ofrece, o no, una evidencia causal. En el mundo real, la determinación de causalidad nunca es perfecta. Sin embargo, hay una variedad de técnicas experimentales, estadísticas y de diseño de estudios que sirven para encontrar evidencias de relaciones causales: p. ej., la aleatorización, los experimentos controlados y los modelos predictivos con múltiples variables. Más allá de las limitaciones intrínsecas de las pruebas de correlación (p. ej., la correlación no puede medir relaciones causales potenciales con tres variables), es importante entender que la evidencia de causalidad usualmente no procede de pruebas estadísticas individuales, sino de un diseño experimental cuidadoso.
Ejemplo: enfermedades de corazón, dieta y ejercicio
Por ejemplo, vamos a imaginar de nuevo que somos investigadores de salud y que estamos examinando un amplio conjunto de datos sobre las enfermedades cardíacas, dieta y otros hábitos de salud. Supongamos que encontramos dos correlaciones: un número mayor de enfermedades cardíacas está correlacionado con dietas más altas en grasa (correlación positiva) y una mayor cantidad de ejercicio está correlacionada con menos enfermedades cardíacas (correlación negativa). Ambas correlaciones son grandes y las encontramos de manera fiable. Seguro que esto nos da una pista sobre la causalidad, ¿verdad?
En este caso, la correlación puede sugerir una relación causal subyacente, pero sin un trabajo adicional, no la establece. Imaginemos que después de encontrar estas correlaciones, nuestro siguiente paso es diseñar un estudio biológico que examine las maneras en las que el cuerpo absorbe la grasa y cómo afecta esto al corazón. Quizás encontremos un mecanismo a través del cual un mayor consumo de grasa se almacena de tal manera que somete al corazón a mayor presión. También podemos examinar en más profundidad el ejercicio y diseñar un experimento aleatorizado y controlado que descubra que el ejercicio interrumpe el almacenamiento de grasa, lo que reduce la presión sobre el corazón.
Todas estas evidencias encajan en una explicación: las dietas más altas en grasa realmente pueden causar enfermedades cardíacas. Y a medida que nos adentramos en el problema, las correlaciones originales siguen siendo válidas: ¡las dietas altas en grasa y las enfermedades cardíacas están relacionadas!
Pero en este ejemplo, observamos que la evidencia causal no fue facilitada por la prueba de correlación en sí, la cual simplemente estudia la relación entre datos observacionales (como el índice de enfermedades cardíacas y dieta y ejercicio reportados). En su lugar, usamos un estudio empírico para encontrar evidencias de esta asociación.
Por tanto, ¿cómo exploramos la causalidad? ¡Con un tipo de estudio adecuado!
Entender la causalidad es un tema complicado. En el mundo real, nunca podemos acceder a todos los datos que necesitaríamos para establecer todas las relaciones posibles entre variables. Pero hay algunas estrategias clave para ayudarnos a aislar y explorar los mecanismos entre diferentes variables. Por ejemplo, en un experimento controlado, podemos intentar crear dos grupos muy similares y aplicar al azar un tratamiento o intervención a uno solo de ellos.
El principio de la aleatorización es fundamental en el diseño experimental y entender este contexto puede cambiar lo que somos capaces de inferir de las pruebas estadísticas.
Vamos a ver de nuevo el primer ejemplo de arriba, que examinaba la relación entre ejercicio y tasas de cáncer de piel. Imaginemos que de alguna manera podemos seleccionar una muestra grande de personas distribuidas en todo el mundo y asignarles al azar que hagan ejercicio a diferentes niveles cada semana durante diez años. Al finalizar este periodo, también recopilamos tasas de cáncer de piel de este gran grupo. Al final, tendríamos un conjunto de datos diseñado experimentalmente para probar la relación entre ejercicio y cáncer de piel. Como el ejercicio ha sido manipulado directamente en el experimento mediante asignación aleatoria, no estará sistemáticamente relacionado con ninguna otra variable que podría ser diferente entre estos dos grupos (asumiendo que todos los demás aspectos del estudio son válidos). Esto significa que en este caso, como nuestros datos se han obtenido a través de un diseño experimental sólido, una correlación positiva entre ejercicio y cáncer de piel sí que sería una evidencia significativa de causalidad.