La prueba t de dos muestras
¿Qué es la prueba t de dos muestras?
La prueba t de dos muestras (también llamada prueba t de muestras independientes) es un método utilizado para probar si las medias de población desconocidas de dos grupos son iguales o no.
¿Es lo mismo que una prueba A/B?
Sí, una prueba t de dos muestras se utiliza para analizar los resultados de pruebas A/B.
¿Cuándo puedo usar esta prueba?
Puede utilizar la prueba cuando los valores de sus datos son independientes, son elegidos aleatoriamente de dos poblaciones normales y los dos grupos independientes tienen varianzas iguales.
¿Y si tengo más de dos grupos?
Utilice un método de comparación múltiple. El análisis de varianza (ANOVA) es uno de ellos. Otros métodos de comparación múltiple son la prueba de Tukey-Kramer de todas las diferencias por pares, el análisis de medias (ANOM) para comparar medias grupales con la media general o la prueba de Dunnett para comparar cada media grupal con una media de control.
¿Y si las varianzas de mis dos grupos no son iguales?
Aún puede utilizar la prueba t de dos muestras. Utiliza una estimación distinta de la desviación estándar.
¿Y si mis datos no tienen una distribución próxima a la normal?
Si los tamaños de sus muestras son muy pequeños, es posible que no pueda hacer la prueba de normalidad. Puede que deba basarse en su comprensión de los datos. Si no puede suponer normalidad de forma segura, puede efectuar una prueba no paramétrica que no asume la normalidad.
Uso de la prueba t de dos muestras
En las secciones siguientes comentamos qué se necesita para efectuar la prueba, cómo comprobar nuestros datos, cómo llevar a cabo la prueba y detalles estadísticos.
¿Qué necesito?
Para la prueba t de dos muestras, necesitamos dos variables. Una variable define los dos grupos. La segunda variable es la medida de interés.
También tenemos una idea, o hipótesis, de que la medias de las poblaciones subyacentes de los dos grupos son diferentes. He aquí un par de ejemplos:
- Tenemos estudiantes que hablan inglés como primera lengua y otros que no. Todos los estudiantes realizan una prueba de lectura. Nuestros dos grupos son los hablantes de inglés nativos y los no nativos. Nuestras medidas son las puntuaciones de las pruebas. Nuestra idea es que las puntuaciones medias para las poblaciones subyacentes de hablantes de inglés nativos y no nativos no son iguales. Queremos saber si la puntuación media para la población de hablantes de inglés nativos es diferente de la de las personas que aprendieron inglés como segundo idioma.
- Medimos los gramos de proteína en dos marcas diferentes de barras energéticas. Nuestros dos grupos son las dos marcas. Nuestra medida es los gramos de proteína en cada barra energética. Nuestra idea es que la media de gramos de proteína para las poblaciones subyacentes de las dos marcas puede ser diferente. Queremos saber si tenemos pruebas de si la media de gramos de proteína para las dos marcas de barras energéticas es diferente.
Suposiciones de la prueba t de dos muestras
Para llevar a cabo una prueba válida:
- Los valores de los datos deben ser independientes. Las medidas de una observación no afectan a las medidas de cualquier otra observación.
- Los datos de cada grupo se deben obtener a través de una muestra aleatoria de la población.
- Los datos de cada grupo tienen distribución normal.
- Los valores de datos son continuos.
- Las varianzas de los dos grupos independientes son iguales.
Para grupos de datos muy pequeños, puede ser difícil probar estos requisitos. A continuación comentamos cómo comprobar los requisitos utilizando software y qué hacer si un requisito no se cumple.
Ejemplo de prueba t de dos muestras
Una forma de medir el estado físico de una persona es medir su porcentaje de grasa corporal. El porcentaje de grasa corporal promedio varía con la edad, pero según ciertas pautas, el intervalo normal para hombres es del 15-20 % de grasa corporal, y para mujeres, del 20-25 %.
Los datos de muestra vienen de un grupo de hombres y mujeres que hicieron ejercicio en un gimnasio tres veces por semana durante un año. Luego, su entrenador medía la grasa corporal. Los datos se muestran en la tabla siguiente.
Tabla 1: Porcentaje de grasa corporal agrupado por género
Agrupar | Porcentajes de grasa corporal | ||||
Hombres | 13,3 | 6,0 | 20,0 | 8,0 | 14,0 |
19,0 | 18,0 | 25,0 | 16,0 | 24,0 | |
15,0 | 1,0 | 15,0 | |||
Mujeres | 22,0 | 16,0 | 21,7 | 21,0 | 30,0 |
26,0 | 12,0 | 23,2 | 28,0 | 23,0 |
Se puede ver claramente una cierta superposición en las medidas de grasa corporal para los hombres y las mujeres en nuestra muestra, pero también algunas diferencias. Con solo mirar los datos, es difícil extraer conclusiones sólidas sobre si las poblaciones subyacentes de hombres y mujeres del gimnasio tienen la misma media de grasa corporal. Ese es el valor de las pruebas estadísticas: ofrecen una forma común y estadísticamente válida de tomar decisiones, de modo que todas las personas tomen la misma decisión sobre el mismo conjunto de valores de datos.
Comprobar los datos
Vamos a empezar por responder lo siguiente: ¿Es la prueba tde dos muestras un método adecuado para evaluar la diferencia de grasa corporal entre hombres y mujeres?
- Los valores de datos son independientes. La grasa corporal de cualquier persona no depende de la grasa corporal de otra persona.
- Suponemos que las personas medidas representan una muestra aleatoria simple de la población de miembros del gimnasio.
- Asumimos que los datos tienen una distribución normal, y podemos comprobar esta suposición.
- Los valores de datos son las medidas de grasa corporal. Las medidas son continuas.
- Asumimos que las varianzas para hombres y mujeres son iguales, y podemos comprobar esta suposición.
Antes de pasar al análisis, debemos siempre echar un vistazo rápido a los datos. En la siguiente figura se muestran histogramas y estadísticas de resumen para los hombres y las mujeres.
Los dos histogramas están en la misma escala. Con solo un vistazo rápido, podemos ver que no hay puntos muy inusuales, o valores atípicos. Los datos tienen aproximadamente forma de campana, así que nuestra idea inicial de una distribución normal parece razonable.
Al examinar la estadística del resumen, vemos que las desviaciones estándar son similares. Esto da fuerza a la idea de varianzas iguales. Esto también podemos comprobarlo utilizando una prueba de varianzas.
A partir de estas observaciones, la prueba t de dos muestras parece un método apropiado para probar si hay una diferencia de medias.
Cómo efectuar la prueba t de dos muestras
Para cada grupo, necesitamos el promedio, la desviación estándar y el tamaño muestral. Estos valores se muestran en la siguiente tabla.
Tabla 2: Estadísticas de promedio, desviación estándar y tamaño muestral agrupadas por género
Agrupar | Tamaño muestral (n) | Promedio (X-barra) | Desviación estándar (s) |
Mujeres | 10 | 22,29 | 5,32 |
Hombres | 13 | 14,95 | 6,84 |
Sin necesidad de hacer ninguna prueba, podemos ver que los promedios para hombres y mujeres en nuestra muestra no son los mismos. Pero ¿hasta qué punto son diferentes? ¿Son los promedios “lo bastante próximos” como para que podamos sacar la conclusión de que la media de grasa corporal es la misma para la población mayor de hombres y mujeres del gimnasio? ¿O son los promedios demasiado diferentes como para que podamos sacar esa conclusión?
Explicaremos en mayor detalle los principios en los que se basa la prueba t de dos muestras en la sección de detalles estadísticos, más abajo, pero antes vamos a recorrer todos los pasos, de principio a fin. Empezaremos por calcular nuestra estadística de prueba. Este cálculo empieza por hallar la diferencia entre los dos promedios:
22,29 - 14,95 = 7,34
Esta diferencia en nuestras muestras estima la diferencia entre las medias de población para los dos grupos.
A continuación, calculamos la desviación estándar combinada. Esto crea una estimación combinada de la desviación estándar general. La estimación se ajusta para diferentes tamaños de grupo. Primero, calculamos la varianza combinada:
$ s_p^2 = \frac{((n_1 - 1)s_1^2) + ((n_2 - 1)s_2^2)} {n_1 + n_2 - 2} $
$ s_p^2 = \frac{((10 - 1)5.32^2) + ((13 - 1)6.84^2)}{(10 + 13 - 2)} $
$ = \frac{(9\times28.30) + (12\times46.82)}{21} $
$ = \frac{(254.7 + 561.85)}{21} $
$ =\frac{816.55}{21} = 38,88 $
A continuación, tomamos la raíz cuadrada de la varianza combinada para obtener la desviación estándar combinada. Es decir:
$ \sqrt{38.88} = 6,24 $
Ahora tenemos todas las piezas para nuestra estadística de prueba. Tenemos la diferencia de promedios, la desviación estándar combinada y los tamaños muestrales. Así calculamos la estadística de nuestra prueba:
$ t = \frac{\text{diferencia de promedios de grupo}}{\text{error estándar de la diferencia}} = \frac{7.34}{(6.24\times \sqrt{(1/10 + 1/13)})} = \frac{7.34}{2.62} = 2,80 $
Para evaluar la diferencia entre las medias a fin de tomar una decisión sobre los programas del gimnasio, comparamos la estadística de la prueba con un valor teórico de la distribución t. Esta actividad tiene cuatro fases:
- Decidimos el riesgo que estamos dispuestos a asumir por declarar una diferencia significativa. Para los datos de grasa corporal, decidimos que estamos dispuestos a asumir un riesgo del 5 % por decir que las medias desconocidas de la población para hombres y mujeres no son iguales cuando en realidad lo son. En lenguaje de estadísticas, establecemos el nivel de significación, α , en 0,05. Es una buena idea tomar esta decisión antes de recopilar los datos y de calcular las estadísticas de la prueba.
- Calculamos una estadística de prueba. Nuestra estadística de prueba es de 2,80.
- Hallamos el valor teórico a partir de la distribución t basado en nuestra hipótesis nula que afirma que las medias para hombres y mujeres son iguales. En la mayor parte de libros de estadística hay tablas de valores para la distribución t que se pueden consultar. También se pueden encontrar en línea. La situación más probable es utilizar software y no tablas impresas.
Para hallar este valor, necesitamos el nivel de significación (α = 0,05) y los grados de libertad. Los grados de libertad (gl) se basan en el tamaño muestral de los dos grupos. Para los datos de grasa corporal, es:
$ df = n_1 + n_2 - 2 = 10 + 13 - 2 = 21 $
El valor de t con α = 0,05 y 21 grados de libertad es 2,080. - Comparamos el valor de nuestra estadística (2,80) con el valor de t. Como 2,80 > 2,080, rechazamos la hipótesis nula de que la media de grasa corporal para hombres y mujeres es igual, y llegamos a la conclusión de que tenemos pruebas de que la grasa corporal en la población es distinta entre hombres y mujeres.
Detalles estadísticos
Vamos a echar un vistazo a los datos de grasa corporal y a la prueba t de dos muestras utilizando términos estadísticos.
Nuestra hipótesis nula es que las medias de población subyacente son iguales. La hipótesis nula se escribe así:
$ H_o: \mathrm{\mu_1} =\mathrm{\mu_2} $
La hipótesis alternativa es que las medias no son iguales. Esto se expresa así:
$ H_o: \mathrm{\mu_1} \neq \mathrm{\mu_2} $
Calculamos el promedio de cada grupo, y luego la diferencia entre los dos promedios. Esto se expresa así:
$\overline{x_1} - \overline{x_2} $
Calculamos la desviación estándar combinada. Esto supone que las varianzas de la población subyacente son iguales. La fórmula de varianza combinada se escribe así:
$ s_p^2 = \frac{((n_1 - 1)s_1^2) + ((n_2 - 1)s_2^2)} {n_1 + n_2 - 2} $
La fórmula presenta el tamaño muestral para el primer grupo como n1 y para el segundo grupo como n2. Las desviaciones estándar para los dos grupos son s1 y s2. Esta estimación permite que los dos grupos tengan un número diferente de observaciones. La desviación estándar acumulada es la raíz cuadrada de la varianza, y se escribe como sp.
¿Y si el tamaño muestral de ambos grupos es el mismo? En esta situación, la estimación acumulada de la varianza es simplemente el promedio de las varianzas para ambos grupos:
$ s_p^2 = \frac{(s_1^2 + s_2^2)}{2} $
La estadística de la prueba se calcula como:
$ t = \frac{(\overline{x_1} -\overline{x_2})}{s_p\sqrt{1/n_1 + 1/n_2}} $
El numerador de la estadística de la prueba es la diferencia entre los promedios de los dos grupos. Es una estimación de la diferencia entre las dos medias desconocidas de las poblaciones. El denominador es una estimación del error estándar de la diferencia entre las dos medias desconocidas de las poblaciones.
Detalle técnico: para una sola media, el error estándar es $ s/\sqrt{n} $ . La fórmula anterior amplía esta idea a dos grupos que utilizan una estimación combinada para s (desviación estándar) y que pueden tener tamaños de grupo distintos.
A continuación comparamos la estadística de la prueba con un valor t, con nuestro valor alfa elegido y los grados de libertad de nuestros datos. Utilizando como ejemplo los datos de grasa corporal, establecemos α = 0,05. Los grados de libertad (gl) se basan en los tamaños de los grupos, y se calculan así:
$ df = n_1 + n_2 - 2 = 10 + 13 - 2 = 21 $
La fórmula muestra el tamaño muestral para el primer grupo como n1 y para el segundo grupo como n2. Los estadísticos escriben el valor de t con α = 0,05 y 21 grados de libertad como:
$ t_{0,05,21} $
El valor t con α = 0,05 y 21 grados de libertad es de 2,080. Nuestra comparación tiene dos posibles resultados:
- La estadística de la prueba es menor que el valor de t. No puede rechazar la hipótesis de medias iguales. Concluye que los datos apoyan la suposición de que los hombres y las mujeres tienen la misma media de grasa corporal.
- La estadística de la prueba es mayor que el valor de t. Rechaza la hipótesis de medias iguales. No llega a la conclusión de que los hombres y las mujeres tienen el mismo promedio de grasa corporal.
Prueba t con varianzas desiguales
Cuando las varianzas de los dos grupos no son iguales, no podemos utilizar la estimación combinada de la desviación estándar. Lo que hacemos es tomar el error estándar de cada grupo por separado. La estadística de la prueba es:
$ t = \frac{ (\overline{x_1} - \overline{x_2})}{\sqrt{s_1^2/n_1 + s_2^2/n_2}} $
El numerador de la estadística de la prueba es el mismo. Es la diferencia entre los promedios de los dos grupos. El denominador es una estimación del error estándar global de la diferencia entre medias. Se basa en el error estándar de cada grupo por separado.
El cálculo de los grados de libertad para el valor de t es más complejo con varianzas desiguales que con varianzas iguales, y se suele encargar a los paquetes de software estadístico. La clave está en recordar que no se puede utilizar la estimación combinada de la desviación estándar y, por tanto, no se puede utilizar la fórmula simple para los grados de libertad.
Probar si hay normalidad
La hipótesis de normalidad es más importante cuando los dos grupos tienen tamaños muestrales pequeños que en el caso de que sean grandes.
Las distribuciones normales son simétricas, es decir, "iguales" a ambos lados del centro. Las distribuciones normales no tienen valores extremos ni valores atípicos. Puede comprobar estas dos características de una distribución normal con gráficos. Antes decidimos que los datos de la grasa corporal estaban “suficientemente próximos” a la distribución normal como para seguir adelante con la hipótesis de normalidad. En la figura siguiente se muestra un gráfico de cuantiles normales para hombres y mujeres, que da apoyo a nuestra decisión.
También puede llevar a cabo una prueba formal de normalidad utilizando software. En la figura anterior se muestran los resultados de la prueba de normalidad con el software JMP. Hacemos pruebas de grupo por separado. Tanto la prueba para hombres como para mujeres muestran que no podemos rechazar la hipótesis de distribución normal. Podemos seguir adelante con la hipótesis de que los datos de grasa corporal para hombres y mujeres tienen una distribución normal.
Prueba de varianzas desiguales
La prueba de varianzas desiguales es compleja. No mostraremos los cálculos en detalle, pero sí los resultados del software JMP. La figura a continuación muestra los resultados de una prueba de varianzas desiguales para los datos de grasa corporal.
Sin entrar en detalles de los distintos tipos de pruebas de varianzas desiguales, utilizaremos la prueba F. Antes de hacer la prueba, decidimos aceptar un riesgo del 10 % de concluir que las varianzas son iguales cuando no lo son. Esto significa que hemos definido α = 0,10.
Como en el caso de la mayor parte del software estadístico, JMP muestra el valor p de una prueba. Se trata de la probabilidad de hallar un valor más extremo que el observado para la estadística de la prueba. Es difícil calcular esto a mano. Para la figura anterior, si la estadística de la prueba F es 1,654, el valor p es 0,4561. Esto es mayor que nuestro valor de α: 0,4561 > 0,10. No se puede rechazar la hipótesis de varianzas iguales. En términos prácticos, podemos seguir adelante con la prueba t para dos muestras de varianzas iguales para los dos grupos.
Comprender los valores p
Utilizando una visualización, se puede comprobar si la estadística de la prueba es un valor más extremo en la distribución. En la figura inferior se muestra una distribución t con 21 grados de libertad.
Como nuestra prueba es bilateral y hemos definido α = 0,05, la figura muestra que el valor de 2,080 “corta” el 2,5 % de los datos en cada una de las dos colas. Solo el 5 % de los datos globales está más lejos en las colas que 2,080. Como nuestra estadística de la prueba de 2,80 está más allá del punto de corte, rechazamos la hipótesis nula de medias iguales.
Combinarlo todo con el software
En la siguiente figura se muestran los resultados de la prueba t para dos muestras con los datos de grasa corporal del software JMP.
Los resultados de la prueba t para dos muestras que supone varianzas iguales son los mismos que nuestros cálculos anteriores. La estadística de la prueba es 2,79996. El software muestra resultados para una prueba bilateral y para las pruebas unilaterales. La prueba bilateral es la que queremos (Prob > |t|). Nuestra hipótesis nula es que la grasa corporal media para hombres y mujeres es igual. Nuestra hipótesis alternativa es que la grasa corporal media no es igual. Las pruebas unilaterales son para hipótesis alternativas unilaterales; por ejemplo, para una hipótesis nula de la grasa corporal media para hombres es menor que en el caso de las mujeres.
Podemos rechazar la hipótesis de grasa corporal media igual para los dos grupos y concluir que tenemos pruebas de que la grasa corporal es diferente en la población entre hombres y mujeres. El software muestra un valor p de 0,0107. Decidimos aceptar un riesgo del 5 % de concluir que la grasa corporal media para hombres y para mujeres es distinta, cuando no lo es. Es importante tomar esta decisión antes de llevar a cabo la prueba estadística.
La figura muestra también los resultados para la prueba t que no asume varianzas iguales. Esta prueba no utiliza la estimación combinada de la desviación estándar. Como se ha mencionado anteriormente, esta prueba tiene también una fórmula compleja para grados de libertad. Se puede ver que los grados de libertad son 20,9888. El software muestra un valor de p de 0,0086. De nuevo, con nuestra decisión de un riesgo del 5 %, podemos rechazar la hipótesis nula de grasa corporal igual para hombres y para mujeres.
Otros temas
¿Y si tengo más de dos grupos?
Si hay más de dos grupos independientes, no se puede utilizar la prueba t para dos muestras. Se debe utilizar un método de comparación múltiple. Uno de estos métodos es ANOVA, o análisis de varianza. Otros métodos de comparación múltiple son la prueba de Tukey-Kramer de todas las diferencias por pares, el análisis de medias (ANOM) para comparar medias grupales con la media general o la prueba de Dunnett para comparar cada media grupal con una media de control.
¿Y si mis datos no tienen una distribución normal?
Si los tamaños de sus muestras son muy pequeños, es posible que sea difícil hacer la prueba de normalidad. En esa situación, puede que deba basarse en su comprensión de las medidas. Por ejemplo, para los datos de grasa corporal, el entrenador sabe que la distribución de la grasa corporal subyacente es una distribución normal. Incluso para una muestra pequeña, el entrenador probablemente continuará con la prueba t y asumirá normalidad.
¿Y si se sabe que las medidas subyacentes no siguen una distribución normal? ¿O si el tamaño muestral es grande y se rechaza la prueba de normalidad? En esta situación, se puede utilizar el análisis no paramétrico. Estos tipos de análisis no dependen de una hipótesis de que los valores de datos siguen una distribución específica. Para la prueba t para dos muestras, la prueba de suma de rangos de Wilcoxon es una prueba no paramétrica que se podría utilizar.