Media, Mediana y Moda
¿Qué es la media?
La media mide el centro de un conjunto de valores de datos. Para datos continuos, la media es el promedio de los valores de los datos.
¿Cómo se utiliza la media?
La media de una muestra de valores de datos se utiliza para estimar la verdadera media desconocida de la población. La media se utiliza a menudo como una simple estadística de resumen de un conjunto de datos. Se utiliza junto con la desviación estándar para calcular intervalos estadísticos, estadísticas de pruebas de hipótesis y límites para gráficos de control.
¿Qué cuestiones hay que tener en cuenta en relación con la media?
La media puede verse afectada por valores extremos. Cuando se tienen valores extremos o una distribución sesgada, la mediana puede ser una mejor forma de medir el centro. Antes de utilizar la media, compruebe que sus datos no tienen valores extremos y observe un gráfico para ver si los datos son más o menos simétricos.
¿Qué es la mediana?
La mediana es el percentil 50 de la muestra de datos. En otras palabras, el 50 % de los valores de los datos están por encima de la mediana y el otro 50 % por debajo. La mediana es otra estimación del centro de los datos de la muestra.
¿Qué es la moda?
La moda es el valor que aparece con más frecuencia en los datos. Un conjunto de datos que no contiene valores que se repiten no tiene moda. Un conjunto de datos con múltiples valores que se repiten con la misma frecuencia puede tener múltiples modas. La moda es otra estadística utilizada para estimar el centro de los datos.
La media describe el centro de un conjunto de datos
Suponga que tiene un conjunto de valores de datos y los representa como se muestra en la Figura 1. El eje horizontal muestra sus valores de datos. El eje vertical muestra cuántos puntos tienen un valor de datos determinado. En términos estadísticos, se trata de un histograma o distribución de valores de datos. La media estima el centro de los datos.
¿Cuál es la media de la población?
La media de la población es el centro de la población teórica y a menudo se desconoce.
Pensemos en un ejemplo en el que se conoce la población. Supongamos que desea conocer la velocidad media del viento al tocar tierra de los huracanes del Atlántico desde 1950. Se trata de una población relativamente pequeña. Se dispone de datos de todos los huracanes atlánticos que han tocado tierra desde 1950. Usted puede fácilmente calcular la media de la población.
Pero, en muchos casos, no conocerá la verdadera media de la población porque no dispondrá de datos de toda la población.
La media poblacional se indica en las fórmulas con la letra griega de "m minúscula" o "mu". El símbolo es μ.
¿Cuál es la media de la muestra?
Para estimar la media poblacional desconocida, se recoge una muestra de datos y se calcula la media de esa muestra.
La media muestral mide el centro de los datos de la muestra. Se trata de una estimación de la media poblacional.
El símbolo estadístico de la media muestral en las fórmulas es una x con una línea o barra encima; se denomina "x-barra" y tiene el siguiente aspecto: x̅.
¿Cuál es la diferencia entre la media muestral, la media aritmética y el promedio muestral?
Son tres términos utilizados para la media muestral. Son iguales.
Como la media de la población suele ser desconocida, verá que se utiliza el término "media" para "media de la muestra". Cuando lea artículos que mencionen la "media de los ingresos" o la "media de la temperatura", estos artículos suelen referirse a la media de los datos muestrales.
No es cierto que el 50 % esté "por encima de la media"
Muchas personas cometen el error habitual de suponer que el 50 % de los valores de los datos están por encima de la media muestral y el otro 50 % por debajo. Esto no suele ser cierto. Este error confunde la media y la mediana. La media y la mediana no siempre son equivalentes. Solo en algunas situaciones.
Cómo calcular la media
Para calcular la media, hay que sumar todos los números de los valores de datos de la muestra y dividirlos por el número de valores de datos. Exploremos este cálculo con un ejemplo sencillo.
Supongamos que los valores de los datos son 4, 5 y 6. Para calcular la media:
$\frac{(4+5+6)}{3} = \frac{15}{3} = 5$
Normalmente se utiliza un programa informático para calcular la media. La fórmula para la media es:
$\overline{x}=\frac{Σx_i}{n}$
En la fórmula anterior, la muestra tiene n valores de datos. Cada valor de datos se representa por xi. El símbolo de suma $Σ$ significa que los valores de los datos deben sumarse, tal como hicimos en el ejemplo.
Para la media poblacional desconocida, el tamaño de la población se representa a menudo con una N mayúscula. En la rara situación en la que se puede calcular la media poblacional, la fórmula es la misma y utiliza N en lugar de n.
La mediana
La mediana es el percentil 50 de la muestra de datos. Siempre es cierto que el 50 % de los valores de los datos están por encima de la mediana y el 50 % por debajo. Al igual que con la media, tenemos una mediana poblacional verdadera desconocida y una mediana muestral. La verdadera mediana de la población rara vez se conoce.
Tanto la media como la mediana estiman el centro de los datos y ambas se comunican comúnmente. Como veremos a continuación, la mediana se ve menos afectada por los valores extremos o por los datos que no son simétricos.
Cómo calcular la mediana
Para calcular la mediana, primero se ordenan los datos de la muestra de menor a mayor y, a continuación, se encuentra el valor intermedio.
Esto es más fácil de entender con un par de ejemplos simples.
Supongamos que los valores de los datos vuelven a ser 4, 5 y 6.
Primero, ordene los valores de menor a mayor: 4 – 5 – 6.
El valor intermedio, que en este ejemplo es 5, es la mediana. La mitad de los datos están por encima de la mediana y la otra mitad por debajo.
Para un segundo ejemplo, suponga que tiene un número par de valores de datos en su muestra, digamos 7, 4, 5 y 6. No hay un único valor intermedio.
Primero, ordene los valores de los datos de menor a mayor: 4 – 5 – 6 – 7.
Segundo, encuentre los dos valores medios: 5 y 6.
Tercero, calcule la media de estos dos valores sumándolos y dividiéndolos por 2. El resultado es la mediana. En nuestro ejemplo:
$\frac{5+6}{2} = \frac{11}{2} = 5,5$
En ambos ejemplos, la mediana es el valor intermedio. La mitad de los datos de la muestra están por encima de la mediana y la otra mitad por debajo.
Para el segundo ejemplo, tenemos 4, 5, 5,5, 6, 7, por lo que la mediana de 5,5 está en el medio de los valores muestrales ordenados.
Normalmente se utiliza un programa informático para calcular la mediana.
La moda
La moda es otra estadística utilizada para estimar el centro de los datos. La moda es el valor que se presenta con mayor frecuencia.
Por ejemplo, supongamos que los valores de sus datos son 3, 4, 4, 4, 5 y 6.
La moda es 4 porque es el valor más frecuente.
La mayoría de los softwares estadísticos calculan la moda. Sin embargo, en la práctica, la moda no se utiliza tan comúnmente como la media o la mediana; nos centraremos en estas dos últimas estadísticas para el resto de esta página.
Cómo afectan los valores extremos de los datos a la media y la mediana de la muestra
La media de la muestra puede ser sensible a los valores extremos de los datos. Modificando ligeramente el ejemplo anterior, supongamos que los valores de los datos de la muestra son ahora 4, 5 y 12.
La media de la muestra es:
$\frac{4+5+12}{3} = \frac{21}{3} = 7$
La mediana de la muestra es el valor medio de los valores de datos ordenados 4, 5, 12, que es 5.
Compare esto con el ejemplo anterior. Los valores de los datos 4, 5 y 6 tenían una media y una mediana de 5. Al cambiar un único valor de datos de 6 a 12, la mediana no cambió, pero la media cambió de 5 a 7.
Para conjuntos de datos más grandes, un único valor extremo puede tener un mayor impacto en la media de la muestra, pero un impacto menor en la mediana de la muestra. Decimos que la mediana es robusta a los valores atípicos o extremos de los datos.
Las siguientes distribuciones muestran un conjunto de datos con un valor atípico excluido (Figura 2) y, a continuación, con el valor atípico incluido (Figura 3).
Ambos conjuntos de datos tienen una mediana de 44,6. Los datos sin el valor atípico tienen una media de 45,3, y los datos con el valor atípico tienen una media de 45,6. Ambos histogramas tienen una escala de eje de 20 a 90.
¡ATENCIÓN! No elimine un valor de datos extremo solo porque esté ahí. Intente averiguar si el valor extremo es un error o una anomalía. Si se trata de un error, intente corregirlo. Si no puede determinar si se trata de un error, no debe omitir el valor extremo. En esta situación, puede decidir informar de su análisis con y sin el punto de datos cuestionable.
Por ejemplo, supongamos que usted recopila datos sobre la tensión arterial. Una de las personas en la muestra tiene una tensión arterial sistólica de 95. Se trata de un valor bajo, pero razonable. Sin embargo, esa misma persona tiene una tensión arterial diastólica de 95. Es muy poco probable que esto sea correcto. Se debería encontrar los datos originales e intentar confirmar si este punto de datos representa un error.
Cómo afecta la simetría de los datos a la media y la mediana muestrales
La media y la mediana muestrale son diferentes cuando los datos no son simétricos. Cuando los datos no son simétricos, se dice que tienen una distribución sesgada.
Consideremos tres distribuciones: simétrica, asimétrica a la izquierda y asimétrica a la derecha.
El histograma de la Figura 4 muestra datos casi simétricos. Si piensa en plegar el gráfico por la mitad, los dos lados serán prácticamente iguales. La media y la mediana son muy similares.
En el histograma de la Figura 5 se muestran datos que no son simétricos. Estos datos se inclinan más hacia los valores más bajos. Está sesgado hacia la izquierda. El coeficiente de asimetría es negativo y la media es inferior a la mediana.
En el histograma de la Figura 6 también se muestran datos que no son simétricos. Estos datos se inclinan más hacia los valores más altos. Está sesgado hacia la derecha. El coeficiente de asimetría es positivo y la media es mayor que la mediana.
Cuándo utilizar la media y la mediana
Las figuras 7-9 muestran los tipos de datos para los que es adecuado utilizar la media y la mediana.
Datos continuos: la media y la mediana son adecuadas
La media y la mediana tienen sentido para datos continuos. Estos datos se miden en una escala con muchos valores posibles. Algunos ejemplos de datos continuos son:
- Edad
- Presión sanguínea
- Peso
- Temperatura
- Velocidad
Para todos estos ejemplos, tiene sentido calcular la media y la mediana.
Datos ordinales o nominales: la media y la mediana no aplican
La media y la mediana no tienen sentido para los datos ordinales o nominales, ya que estos tipos de datos se miden en una escala con sólo unos pocos valores posibles.
Con los datos ordinales, la muestra se divide en grupos y las respuestas tienen un orden definido. Por ejemplo, en una encuesta en la que se le pide que dé su opinión en una escala que va de "Muy en desacuerdo" a "Muy de acuerdo" (Figura 8), sus respuestas son ordinales.
En el caso de los datos nominales, la muestra también se divide en grupos, pero sin un orden determinado. Dos ejemplos son el sexo biológico y el país de residencia. En raras situaciones, cuando los datos nominales se codifican con un valor numérico, se pueden calcular medias. La interpretación de la media dependerá de la codificación. Por ejemplo, si se codifican los géneros utilizando 0 para los hombres y 1 para las mujeres y se calcula la media de la muestra, se podría obtener un valor de 0,6. Este valor representa la proporción de mujeres en su muestra, lo que resulta lógico. En el caso de los países, si codificara el nombre del país con valores numéricos, podría calcular una media. Sin embargo, no tendría sentido; la media no tendría una interpretación práctica.