Desviación estándar

¿Qué es la desviación estándar?

La desviación estándar mide la dispersión de un conjunto de datos. Una desviación estándar alta indica una gran dispersión de los valores de los datos, mientras que una desviación estándar baja indica una dispersión angosta de los valores agrupados en torno a la media del conjunto de datos.

¿Cómo se utiliza la desviación estándar?

La desviación estándar se utiliza para investigar la variabilidad en un conjunto de datos. También se utiliza junto con la media para calcular intervalos estadísticos, estadísticas de pruebas de hipótesis y límites para gráficos de control.

¿Cuáles son algunas cuestiones en las que pensar con respecto a la desviación estándar?

La desviación estándar puede verse afectada por valores extremos y/o conjuntos de datos pequeños. Asegúrese de tener en cuenta cómo los valores atípicos pueden estar afectando a su análisis. Además, la desviación estándar solo es relevante para los datos continuos.

La desviación estándar describe la dispersión de un conjunto de datos.

Supongamos que tiene un conjunto de valores de datos y los representa como en los gráficos siguientes. El eje horizontal muestra los valores de los datos. El eje vertical mide la frecuencia de cada valor de los datos. En términos estadísticos, se trata de un histograma, o distribución, de los valores de los datos. La desviación estándar es un número único que estima la dispersión, o amplitud, de los datos.

Figura 1: Histograma de valores de datos con una amplia dispersión
Figura 2: Histograma de valores de datos con una dispersión reducida

¿Cuál es la desviación estándar de la población?

En estadística, la población es el conjunto de datos sobre el que se intenta comprender y extraer conclusiones. En muchos casos, debido al gran tamaño de la población, es imposible recopilar datos sobre cada elemento de una población. En estas situaciones, la desviación estándar de la población mide la dispersión de la población teórica y casi siempre se desconoce.

Pensemos en un ejemplo en el que se conoce la población. Supongamos que queremos conocer la dispersión de las velocidades del viento al tocar tierra en los huracanes del Atlántico desde 1950. Se trata de una población relativamente pequeña. Como se dispone de datos de todos los huracanes atlánticos que han tocado tierra desde 1950, se puede calcular la desviación estándar de la población.

¿Cuál es la desviación estándar de la muestra?

Para estimar la desviación estándar de una población desconocida, se recoge una muestra de datos. A continuación, se calcula la desviación estándar de esa muestra. La desviación estándar de la muestra mide la dispersión de los datos de la muestra. Se trata de una estimación de la desviación estándar de la población.

¿Cuál es la diferencia entre la desviación estándar y la varianza?

La desviación estándar es la raíz cuadrada de la varianza. Tanto la desviación estándar como la varianza son medidas de dispersión. La desviación estándar está en las mismas unidades que los datos. Por ejemplo, si mide la edad en años, la desviación estándar también está en años, que es una de las razones por las que la gente utiliza la desviación estándar en lugar de la varianza. La "edad en años" es más simple de concebir que la "edad al cuadrado en años".

¿Cuál es la diferencia entre la desviación estándar y el coeficiente de variación (CV)?

El coeficiente de variación, o CV, es la desviación estándar dividida por la media. El CV se utiliza para comparar la desviación estándar de conjuntos de datos en una escala común. El CV se utiliza como indicador de la precisión de un sistema de medición.

¿Cuáles son los posibles valores de la desviación estándar?

La desviación estándar es casi siempre un valor positivo. Una excepción: si todos los valores del conjunto de datos son iguales, la desviación estándar es cero. No hay variabilidad ni dispersión en los datos.

Cómo calcular la desviación estándar

Para calcular la desviación estándar de la muestra, calcule primero la media. A continuación, para cada valor de datos, halle la diferencia entre el valor y la media muestral. Después, eleve al cuadrado estas diferencias y súmelas. Por último, divida esa suma por el número de valores de datos menos uno para obtener la varianza muestral. Para obtener la desviación estándar, saque la raíz cuadrada. La desviación estándar está en las mismas unidades que los datos.

Exploremos este cálculo con un ejemplo sencillo. Suponga que usted mide la frecuencia cardíaca en reposo de seis personas. La mayoría de las personas tienen una frecuencia cardíaca en reposo de entre 60 y 100 latidos por minuto (BPM). Los atletas pueden tener una frecuencia cardíaca en reposo saludable de hasta 40. Las frecuencias cardíacas elevadas pueden ser un problema de salud o simplemente el resultado de medir la frecuencia cardíaca durante el ejercicio.

Supongamos que sus valores de datos son:

55
60
65
75
80
85

En primer lugar, calcule la media de la muestra sumando los valores de los datos y dividiéndolos por el número de valores:

$\frac{(55+60+65+75+80+85)}{6} = \frac{420}{6} = 70$

A continuación, calcule la diferencia entre cada valor de los datos y la media de la muestra:

Diferencia de la media
55-70 = -15
60-70 = -10
65-70 = -5
75-70 = 5
80-70 = 10
85-70 = 15

Al calcular las diferencias, se obtiene una idea de lo lejos que está cada valor de los datos de la media de la muestra.

A continuación, eleve las diferencias al cuadrado. Si simplemente sumamos las diferencias, obtendremos cero, lo que sugeriría una dispersión nula de los datos. Esto no es cierto. Si elevamos las diferencias al cuadrado antes de sumarlas, obtendremos una medida positiva de la distancia a la media tanto para los puntos situados por encima como por debajo de la media muestral.

Diferencia de la mediaDiferencia al cuadrado
55-70 = -15225
60-70 = -10100
65-70 = -525
75-70 = 525
80-70 = 10100
85-70 = 15225

A continuación, tome la suma de las diferencias al cuadrado:

$225+100+25+25+100+225=700$

Como hay seis valores de datos, divida la suma anterior entre 6 - 1 = 5:

$\frac{700}{5} = 140$

¿Por qué no dividir entre 6? La respuesta es simple: en estos cálculos se ha utilizado la media de la muestra. Si conoce la media de la muestra y cinco valores de datos, podría calcular el sexto punto de datos. Este ejemplo utiliza lo que se denomina un grado de libertad al calcular la media. Estadísticamente, cuando se divide entre n-1, se obtiene una estimación no sesgada de la varianza.

En este punto, ya ha determinado la varianza de la muestra. Está en unidades de "pulsaciones por minuto al cuadrado", que son difíciles de interpretar. Así que el último paso es sacar la raíz cuadrada para obtener la desviación estándar de la muestra:

$\sqrt{140}=11,8$

Basándose en la muestra de seis personas, la media de la muestra es de 70 BPM, con una desviación estándar de la muestra de 11,8 BPM, lo cual es razonable.

Normalmente se utiliza un programa informático para calcular la desviación estándar de la muestra. La fórmula para la desviación estándar de la muestra es:

$\sqrt{\frac{Σ^n_{i=1}(x_i - \overline{x})^2}{n-1}}$

En la fórmula anterior, la muestra tiene n valores de datos. Cada valor de datos está representado por una x. El símbolo x̅ representa la media muestral. El símbolo Σ es el símbolo de suma; en esta fórmula, significa que deben sumarse cada una de las diferencias al cuadrado entre un valor de datos y la media muestral, igual que en el ejemplo.

Desviación estándar de la población

En las raras situaciones en las que se dispone de datos de toda la población, el cálculo de la desviación estándar es ligeramente diferente al de una muestra de la población. Para toda la población, el tamaño de la población se indica con N mayúscula:

$\sqrt{\frac{Σ^N_{i=1}(x_i - μ)^2}{N}}$

La fórmula anterior utiliza el tamaño de la población (N) y la media de la población (μ). La idea que subyace a la fórmula es la misma que la de la desviación estándar de la muestra.

Entender la desviación estándar

Visualización de la desviación estándar

La Figura 3 ilustra cómo la desviación estándar es una estimación de la dispersión de los valores de los datos. La línea central muestra la media muestral (70) de los seis valores de datos de frecuencia cardíaca del ejemplo anterior. Para dos de los valores (65 y 80), el gráfico destaca el cálculo de la diferencia con respecto a la media.

Se puede ver que las diferencias son negativas cuando el valor de los datos es inferior a la media y positivas cuando es superior. Al elevar las diferencias al cuadrado, las diferencias positivas y negativas no se anulan entre sí.

Al sumar todas las diferencias al cuadrado, se obtienen las diferencias combinadas entre cada valor de datos y la media. Las sumas más pequeñas indican que hay una menor dispersión de los valores de los datos; las sumas más grandes significan que hay una mayor dispersión de los valores de los datos.

Figura 3: Diferencia de la media muestral para dos puntos de datos

Interpretación de la desviación estándar

La mayoría de las veces, se informa tanto de la media como de la desviación estándar. Esto ayuda a situar la desviación estándar en su contexto.

Las desviaciones estándar más pequeñas indican que la mayoría de los valores de los datos están próximos a la media muestral. Las desviaciones estándar más grandes indican que los valores de los datos están más dispersos y que algunos valores están más alejados de la media muestral.

Por ejemplo, en la Figura 4, supongamos que la media muestral de los datos es 13. Cuando la desviación estándar de la muestra es 3, representada por la línea naranja continua, se observa que más datos están cerca de la media muestral. Cuando la desviación estándar de la muestra es 6, representada por la línea azul discontinua, los datos están más dispersos. Algunos valores están más alejados de la media muestral.

Figura 4: Las desviaciones estándar más grandes indican que los datos están más alejados de la media que las desviaciones estándar más pequeñas.

¿Cómo afectan los valores extremos de los datos a la desviación estándar de la muestra?

Los valores de datos extremos pueden tener un impacto significativo en la desviación estándar de la muestra. Continuemos con nuestro ejemplo de la frecuencia cardíaca.

Anteriormente, nuestros valores de datos para la frecuencia cardíaca eran:

55
60
65
75
80
85

Encontramos una media muestral de 70 BPM y una desviación estándar muestral de 11,8 BPM.

Supongamos que ahora tenemos la frecuencia cardíaca de una persona más:

55
60
65
75
80
85
140

No vamos a repetir todos los cálculos, pero ahora tenemos una media muestral de 80 BPM y una desviación estándar muestral de 28,6 BPM. Este único valor extremo tuvo un efecto significativo tanto en la media como en la desviación estándar de la muestra.

¡ATENCIÓN! No elimine un valor extremo de datos solo porque no le parezca correcto. Primero intente averiguar si el valor extremo de los datos se debe a algún tipo de error. Si se debe a un error, intente encontrar el valor correcto. Si no puede determinar que se ha producido un error, entonces no debe omitir el valor extremo de los datos. En esta situación, puede decidir informar de su análisis con y sin el punto de datos cuestionable.

Para los datos de frecuencia cardíaca, el valor extremo podría ser la frecuencia cardíaca real en reposo de una persona. En ese caso, querría mantenerlo en los datos. O el valor extremo podría ser la frecuencia cardíaca de alguien inmediatamente después de hacer ejercicio, que es diferente de los otros valores de datos que miden la frecuencia cardíaca en reposo. La cuestión es que debe investigar más antes de decidir cómo manejar los valores extremos de los datos.

Utilización de símbolos estadísticos

Desviación estándar y varianza de la población

La desviación estándar de la población se indica en las fórmulas con la letra griega "sigma". El símbolo es σ.

La varianza de la población se muestra como σ2.

Muchas fórmulas estadísticas utilizan σ al definir pruebas de hipótesis o en fórmulas para análisis.

Recuerde que casi nunca conocerá la desviación estándar ni la varianza de la población.

Desviación estándar y varianza de la muestra

La desviación estándar de la muestra se indica en las fórmulas mediante una s minúscula en cursiva.

La varianza de la muestra aparece en las fórmulas como s2.

Cuándo utilizar la desviación estándar

Datos continuos: SÍ

La desviación estándar es adecuada para datos continuos. Estos datos se miden en una escala con muchos valores posibles. Algunos ejemplos de datos continuos son:

  • Edad
  • Presión sanguínea
  • Peso
  • Temperatura
  • La velocidad.

Para todos estos ejemplos, tiene sentido calcular la desviación estándar.

Figura 5: Utilización de la desviación estándar con datos continuos.

Datos ordinales o nominales: NO

Tal y como se define aquí, la desviación estándar no es adecuada para los datos ordinales o nominales. Estos datos se miden en una escala con sólo unos pocos valores posibles. Existen otras estadísticas que estiman la dispersión de un conjunto de valores de datos ordinales o nominales.

Los datos ordinales suelen dividirse en grupos con un orden específico. Por ejemplo, supongamos que usted realiza una encuesta en la que se le pide que dé su opinión en una escala que va de "Muy en desacuerdo" a "Muy de acuerdo". Sus respuestas son ordinales (véase la Figura 6).

Los datos nominales también dividen la muestra en grupos, pero no tienen un orden determinado. Dos ejemplos son el sexo biológico y el país de residencia (Figura 7). En la muestra puede utilizar M para Hombre y F para Mujer, o también 0 y 1. Para el país, puede utilizar o bien la abreviatura del país, o bien números para codificar el nombre del país. Si utiliza números para estos datos, puede calcular la desviación estándar de la muestra, pero no tendrá ningún sentido.

Figura 6: No utilice la desviación estándar con datos ordinales.
Figura 7: No utilice la desviación estándar con datos nominales.

Otras medidas de variabilidad

La desviación estándar es una forma de estimar la dispersión de los datos. El rango y el rango intercuartílico (IQR) también estiman la dispersión. A diferencia de la desviación estándar, ninguna de estas estadísticas tiene en cuenta el centro de los datos. Estas estadísticas pueden utilizarse con conjuntos de datos pequeños (el rango) o con conjuntos de datos asimétricos (IQR). 

Rango

El intervalo es la diferencia entre el valor más bajo y el más alto de los datos.

Rango intercuartílico (IQR)

El rango intercuartílico es la diferencia entre los percentiles 25 y 75 de los datos. Por lo tanto, el IQR se ve menos afectado por los valores extremos que el rango o la desviación estándar. Si sus datos tienen valores extremos o están sesgados, el IQR puede ser una buena opción para describir la variabilidad de su conjunto de datos.