Distribución normal
¿Qué es una distribución normal?
La distribución normal es una distribución teórica de los valores de una población. Los datos de una distribución normal tienden a acumularse en torno a un valor central (lo que se denomina "curva de campana" al representarse en un gráfico); la frecuencia de los valores por encima y por debajo del centro disminuye simétricamente.
¿Cómo se utiliza la distribución normal?
Muchos métodos de análisis estadístico dan por supuesto que los datos proceden de una distribución normal. De no ser así, el análisis podría no ser correcto.
¿Puedo comprobar si mis datos son "normales"?
Sí. Puede realizar comprobaciones visuales sencillas. La mayoría de los programas estadísticos realizan pruebas estadísticas formales.
Definición de la distribución normal
Vea cómo evaluar la normalidad mediante programas estadísticos
- Descargue JMP para seguir el proceso con los datos de muestra incluidos en el programa.
- Para ver más tutoriales de JMP, visite la Biblioteca de aprendizaje de JMP.
La distribución normal es una distribución teórica de valores para una población y tiene una definición matemática precisa. Se dice que los valores de los datos que son una muestra de una distribución normal están "distribuidos normalmente". En lugar de sumergirnos en complejas matemáticas, veamos las propiedades útiles de la distribución normal y por qué es importante en los análisis.
En primer lugar, ¿por qué nos interesa la distribución normal?
- Muchas mediciones se distribuyen de manera normal, o casi normal. Algunos ejemplos son la altura, el peso y la frecuencia cardíaca. Observe que todas ellas se miden en una escala con muchos valores posibles.
- Muchos promedios de mediciones se distribuyen normalmente, o casi. Por ejemplo, es posible que la duración de su trayecto diario al trabajo no tenga una distribución normal, Pero probablemente el promedio mensual de ese tiempo tiene una distribución normal.
- Muchos métodos estadísticos dependen de que los datos estén normalmente distribuidos. En este caso, leerá que el método "asume que los datos se distribuyen normalmente" o "asume la normalidad".
Una de las primeras medidas que debe tomar ante un conjunto de datos es observar su forma. La distribución normal tiene una forma simétrica. A veces se denomina curva de campana porque un gráfico de la distribución se parece a una campana posada en el suelo.
La Figura 1 muestra un histograma de un conjunto de datos de muestra junto con una distribución normal teórica (la línea curva azul). El histograma es un tipo de gráfico de barras que muestra la frecuencia de los valores de los datos. Puede ver que los datos no coinciden exactamente con la curva, lo cual es común. De hecho, si observa datos que coinciden exactamente con una distribución normal teórica, tendrá que plantearse varias preguntas. Los datos de la vida real rara vez coinciden exactamente con una distribución.
Resumen de características
La distribución normal tiene las siguientes características:
- Está completamente definida por la media y la desviación estándar.
- La media, la mediana y la moda son idénticas.
- Es simétrica.
- Tiene forma de campana.
Cada característica es significativa y le dice algo sobre sus datos. Echemos un vistazo más de cerca:
1. Completamente definida por la media y la desviación estándar
Sólo necesitamos dos valores (la media y la desviación estándar) para dibujar una distribución normal específica. (Para profundizar en la relación entre la media y la desviación estándar de los datos que se distribuyen normalmente, lea sobre la regla empírica).
La media y la desviación estándar se denominan parámetros de la distribución normal. Todas las distribuciones tienen parámetros y algunas tienen más de dos. En cualquier situación, los parámetros definirán una distribución específica.
Veamos algunos ejemplos de curvas de distribución normal.
La figura 2 muestra dos distribuciones normales, cada una con la misma media de 30. La distribución más fina y alta, en azul, tiene una desviación estándar de 5. La distribución más ancha y corta, en naranja, tiene una desviación estándar de 10.
La Figura 3 también muestra dos distribuciones normales, cada una con la misma desviación estándar de 5. La de la izquierda se muestra en naranja, y tiene una media de 20, mientras que la de la derecha, en azul, tiene una media de 40.
La figura 4 muestra de nuevo dos distribuciones normales. La distribución mostrada en naranja tiene una media de 30 y una desviación estándar de 10. La distribución en azul tiene una media de 40 y una desviación estándar de 5.
2. Media = mediana = moda
La media, la mediana y la moda son tres formas de medir el centro de un conjunto de datos. Para una verdadera distribución normal, estas tres medidas son idénticas. En la práctica, es probable que sus datos sean casi normales. Es probable que la media, la mediana y la moda estén muy próximas entre sí, pero no sean idénticas.
3. Simétrica
La distribución normal es simétrica. Si usted piensa en doblar el gráfico por la mitad en la media, cada lado será igual.
4. En forma de campana
La distribución normal tiene forma de campana con una "joroba" central, que puede verse en los ejemplos anteriores.
La figura 6 muestra una distribución que no es normal. Tiene dos jorobas en lugar de una. Una distribución con dos jorobas podría indicar que hay diferentes grupos mezclados en los datos. Por ejemplo, las frecuencias cardíacas suelen tener una distribución normal. Pero supongamos que, sin saberlo, los datos contienen la frecuencia cardíaca en reposo de dos grupos: deportistas y personas sedentarias. Se podría obtener una distribución bimodal como la que se muestra a continuación.
Si no es normal, ¿es anormal?
Si sus datos no son "normales", ¿significa que son anormales? No. ¿Significa que son malos? No. Los distintos tipos de datos tendrán distribuciones subyacentes diferentes.
Existen muchas distribuciones teóricas posibles. Muchos métodos estadísticos dependen de que los datos procedan de una distribución normal. Cuando no es el caso, hay otros métodos que se pueden utilizar.
En la práctica, los datos suelen ser "casi normales". Existen algunas herramientas visuales sencillas para comprobar la normalidad, y la mayoría de los paquetes de software disponen de pruebas estadísticas formales de normalidad.
¿Qué ejemplos hay de datos que no se distribuyen normalmente?
- Lanzamientos individuales de un dado de seis caras
- Lanzamientos de monedas
- Controles de aprobado/no aprobado en la manufactura
- Tiempo de espera en una cola
- Tiempo hasta el fallo de las pilas u otros componentes electrónicos
- Tamaño de los archivos de los vídeos publicados en Internet
Aunque los ejemplos no tienen una distribución normal, existen métodos de análisis para este tipo de datos.
Herramientas visuales para comprobar la normalidad
Utilizar un histograma
Como se ha mencionado anteriormente, un histograma es un tipo especial de diagrama de barras de frecuencias para variables continuas. Este gráfico puede ayudarle a ver si los datos siguen una curva de campana general o no. Con algunos paquetes de software, también puede añadir una curva normal a su histograma como comparación visual.
La Figura 7 muestra un ejemplo de histograma para datos que no proceden de una distribución normal.
Cuando observe un histograma como comprobación visual de la normalidad, fíjese si el gráfico:
- Tiene valores extremos o no.
- Sigue una curva simétrica que es casi igual en ambos lados.
- Tiene forma de campana o no.
Como puede verse, la Figura 7 tiene valores extremos, no es simétrica y no tiene forma de campana.
Uso de un diagrama de caja
El diagrama de caja de una distribución normal muestra que la media es igual a la mediana. También muestra que los datos no tienen valores extremos. Los datos serán simétricos.
Observe los dos gráficos de caja de las Figuras 8 y 9. Los datos de la Figura 8 proceden de una distribución casi normal. Los datos de la Figura 9 proceden de una distribución no normal.
Cuando observe un diagrama de cajas como comprobación visual de la normalidad, fíjese si el diagrama muestra:
- Valores extremos o no. El gráfico de la distribución no normal de la Figura 9 muestra tres valores atípicos en forma de puntos rojos. El gráfico de la distribución casi normal de la Figura 8 no muestra valores atípicos.
- Simetría o no. El gráfico de la distribución casi normal (Figura 8) muestra simetría, mientras que el gráfico de la distribución no normal (Figura 9) no la muestra.
- Media y mediana casi iguales. En estos diagramas de caja, la línea negra horizontal del centro de la caja es la mediana y la línea azul es la media. En la distribución casi normal de la Figura 8, la línea azul para la media es casi igual a la línea del centro de la caja para la mediana.
Uso de un gráfico de cuantiles normales
Un gráfico de cuantiles normales muestra una distribución normal como una línea recta en lugar de como una curva de campana. Si sus datos son normales, entonces los valores de los datos estarán cerca de la línea recta. Si los datos no son normales, los valores se alejarán de la línea recta. El patrón de los datos en el gráfico puede ayudarle a entender por qué sus datos no están distribuidos normalmente.
La Figura 10 muestra un gráfico de cuantiles normales para datos de una distribución normal. Se puede ver cómo la mayoría de los valores de los datos están cerca de la línea roja sólida. Los valores de los datos también están dentro de los límites de confianza rojos punteados.
La Figura 11 muestra datos que no proceden de una distribución normal. Algunos de los valores de los datos están cerca de la línea roja continua, pero la mayoría no lo están. Algunos de los valores de los datos están fuera de los límites de confianza representadas por las lineas rojas punteadas. También hay algunos valores extremos en la parte superior derecha.
La mayoría de los programas estadísticos crean gráficos de cuantiles normales. Cuando observe un gráfico de cuantiles normales para la normalidad, observe si los datos:
- Tiene valores extremos o no.
- Siguen mayormente la línea que muestra la distribución normal.
- Esta dentro de los límites de confianza la mayoría de las veces.
Cuándo utilizar la distribución normal
Datos continuos: SÍ
La distribución normal es adecuada para datos continuos, ya que estos datos se miden en una escala con muchos valores posibles. Algunos ejemplos de datos continuos son:
- Edad
- Presión sanguínea
- Peso
- Temperatura
- Velocidad
Para todos estos ejemplos, tiene sentido considerar el uso de métodos que asumen una distribución normal. Sin embargo, recuerde que no todos los datos continuos seguirán una distribución normal. Grafique sus datos y piense en lo que representan antes de aplicar un método que asuma la normalidad.
Datos ordinales o nominales: NO
La distribución normal no es válida para los datos ordinales brutos o nominales brutos, ya que estos datos se miden en una escala con sólo unos pocos valores posibles.
Con los datos ordinales, la muestra se divide en grupos y las respuestas suelen tener un orden específico. Por ejemplo, en una encuesta en la que se le pide que dé su opinión en una escala de "Muy en desacuerdo" a "Muy de acuerdo", sus respuestas son ordinales.
En el caso de los datos nominales, la muestra también se divide en grupos, pero sin un orden determinado. Dos ejemplos son el sexo biológico y el país de residencia. En la muestra puede utilizar H para hombre y M para mujer, o también 0 y 1. Para el país, puede utilizar o bien la abreviatura del país, o bien números para codificar el nombre del país. Aunque se utilicen números para estos datos, utilizar la distribución normal no tiene sentido.
Otros temas
Probar si hay normalidad
La mayoría de los paquetes de software estadístico incluyen pruebas formales de normalidad. Estas pruebas suponen que los datos proceden de una distribución normal; la prueba utiliza los datos para comprobar si esta suposición es razonable o no.
Utilizando una distribución t
La distribución normal es una distribución teórica. Está completamente definida por la media poblacional y la desviación estándar poblacional.
En la práctica, casi nunca conocemos los valores poblacionales de estas dos estadísticas.
La distribución t es muy similar a la distribución normal. Utiliza la media y la desviación estándar de la muestra. Como utiliza estos valores estimados, necesita un parámetro más para estar completamente definido.
El parámetro adicional son los grados de libertad, que son simplemente el tamaño de la muestra menos 1. Si n es el tamaño de la muestra, entonces los grados de libertad se presentan como n-1. Una forma sencilla de recordar esto es que la distribución t- tiene una especie de "factor de corrección" en los grados de libertad. Este factor de corrección ayuda a tener en cuenta el hecho de que la distribución se basa en la media y la desviación estándar de la muestra en lugar de en los valores desconocidos de la población.