Una medida de la variabilidad (o dispersión) de los valores, es una indicación de la extensión de las mediciones a los lados de la tendencia central.
Dispersión
Es la diferencia entre el valor máximo y el mínimo en un grupo de datos.
Ejemplo:
0.1 0.3 1 2 3 5 8 13 21 34
La mediana es el valor de las mediciones debajo y arriba del cual se encuentran la mitad de los datos.
Podemos calcular valores debajo o arriba del cual se encuentra cierta cantidad de los datos. Estos se llaman percentilas (‘percentiles’) o cuantiles (‘quantiles’).
Las percentilas más utilizadas, además de la mediana (50 % de los valores), son:
- percentila de 25 % de los valores, o primer cuartil (\(Q_1\))
- percentila de 75 % de los valores, o tercer cuartil (\(Q_3\))
Ejercicio: Obtener los valores de los tres cuartiles en una muestra de 15 números.
\[IQR = Q_3 - Q_1\]
\[límite\ bigote\ superior = Q_3 + IQR\ x\ 1.5\]
\[límite\ bigote\ inferior = Q_1 - IQR\ x\ 1.5\]
box&whisker plot
La media es usualmente la medida más útil de la tendencia central, asi que una buena medida de la dispersión sería una medida de desviación con respecto a la media.
Una simple suma de las desviaciones (\(X_i - \bar X\)) de cada valor con respecto a la media, no es de utilidad. ¿Por qué?.
En su lugar se puede utilizar la siguiente expresión, conocida como la desviación media de la muestra:
\[desviación\ media = \frac{\sum |X_i - \bar X|}{n}\qquad(1)\]
Otra manera de eliminar los valores negativos en la medida de la desviación, es elevar al cuadrado cada valor de desviación.
Un valor muy utilizado en diversas fórmulas estadísticas es la suma de los cuadrados de las desviaciones, conocida como la suma de cuadrados (\(SS\)), que se expresa como \(SS = \sum (X_i - \mu)^2\), para la población, o como \(SS = \sum (X_i - \bar X)^2\), para una muestra.
Sin embargo usar la \(SS\) como medida de dispersión tiene un problema: aumenta a medida que la muestra es mayor, por lo que no es comparable entre muestras o poblaciones de tamaño diferente.
La alternativa es usar una desviación (suma de cuadrados) media, y esta es la que se denomina varianza:
\[para\ población: \sigma^2 = \frac{\sum(X_i-\mu)^2}{N}\qquad(2)\]
\[para\ muestra: s^2 = \frac{\sum(X_i-\bar X)^2}{n-1}\qquad(3)\]
Se usa \(n-1\) en lugar de \(n\) para que el estimado de la varianza no esté sesgado. El valor \(n-1\) corresponde a lo que se conoce como los grados de libertad del estimador.
Para realizar los cálculos de \(s^2\) manualmente, se utiliza una forma más sencilla de trabajar y menos susceptible a errores de redondeo:
\[s^2 = \frac{\sum{X_i}^2-\frac{(\sum X_i)^2}{n}}{n-1}\qquad(4)\]
BONO: Demostrar que las expresiones (3) y (4) son equivalentes.
El valor de la varianza tiene unidades de medición elevadas al cuadrado, y por lo tanto no comparables con la media, y los valores originales de las mediciones.
Usualmente se prefiere reportar la medida de la dispersión mediante la desviación estándar que es la raíz cuadrada de la varianza:
\[para\ la\ población: \sigma = \sqrt {\sigma^2}\]
\[para\ una\ muestra: s = \sqrt {s^2}\]
La desviación estándar posee las mismas unidades de medición de la media.
Cuando se quieren comparar desviaciones estándares de muestras con ordenes de magnitud de las mediciones diferentes, o con unidades diferentes, podemos eliminar esos efectos utilizando el coeficiente de variación (\(CV\)):
\[CV=\frac{s}{\bar X}\quad o\quad \%CV=\frac{s}{\bar X}*100\]
Utilizaremos datos de una población de Melón de Costa (Melocactus intortus) que se encuentra en el Bosque Seco de Guánica. Las muestras son de mediciones de altura total (cm) y longitud de la inflorescencia (cm).
Melocactus intortus
Creamos un ‘data frame’ a partir de un archivo en formato ‘comma separated values’ (.csv).
melodata <- read.csv("melocactus.csv")
head(melodata)
library(kableExtra)
mistads <- function(x){
m <- mean(x)
q <- quantile(x)
n <- length(x)
s <- sd(x)
cv <- sd(x)/mean(x)
return(c(n=n, cuartiles=q, media=m, s=s, CV=cv))
}
# arguments (variables) to use
misvars <- c("alturatotal", "longinflo")
# sapply function on dataset
resultados <- sapply(melodata[misvars], mistads)
kable(resultados)
alturatotal | longinflo | |
---|---|---|
n | 145.0000000 | 145.000000 |
cuartiles.0% | 3.0000000 | 0.000000 |
cuartiles.25% | 11.0000000 | 0.000000 |
cuartiles.50% | 18.0000000 | 0.000000 |
cuartiles.75% | 30.0000000 | 11.000000 |
cuartiles.100% | 69.0000000 | 35.000000 |
media | 21.9310345 | 5.965517 |
s | 14.1811961 | 8.065198 |
CV | 0.6466269 | 1.351970 |
library(ggplot2)
altura <- ggplot(melodata, aes(x = "A", y=alturatotal)) +
geom_boxplot(fill="cornflowerblue") +
stat_summary(fun.y="mean", colour="darkred", geom="point", shape=18, size=3) +
geom_point(position = "jitter", size = 0.5, color="blue", alpha=.5) +
labs(x = "Planta", y = "Altura Total, cm")
inflo <- ggplot(melodata, aes(x = "I", y=longinflo)) +
geom_boxplot(fill="cornflowerblue") +
stat_summary(fun.y="mean", colour="darkred", geom="point", shape=18, size=3) +
geom_point(position = "jitter", size = 0.5, color="blue", alpha=.5) +
labs(x = "Inflorescencia", y = "Longitud, cm")
altura
inflo