Si va a usar RStudio: paquetes necesarios que debe instalar si no los tiene:

Medidas de Variabilidad y Dispersión de los Datos

Una medida de la variabilidad (o dispersión) de los valores, es una indicación de la extensión de las mediciones a los lados de la tendencia central.

Dispersión

Dispersión

Intervalo (‘range’)

Es la diferencia entre el valor máximo y el mínimo en un grupo de datos.

Ejemplo:

0.1 0.3  1  2  3    5    8     13      21       34


La Dispersión medida con Cuartiles

Ejercicio: Obtener los valores de los tres cuartiles en una muestra de 15 números.


Distancia entre Cuartiles

  • Un valor muy utilizado en la medida de la dispersión y su visualización, es el intervalo o distancia entre cuartiles, especialmente entre el \(Q_3\) y el \(Q_1\), llamado el intervalo inter-cuartiles (\(IQR\)):

\[IQR = Q_3 - Q_1\]

  • Para definir en un box-plot, el valor de lo que se conoce como los bigotes (‘whisker’) superior e inferior, se utilizan las siguientes fórmulas:

\[límite\ bigote\ superior = Q_3 + IQR\ x\ 1.5\]

\[límite\ bigote\ inferior = Q_1 - IQR\ x\ 1.5\]

  • los bigotes (o ‘fence’) superior e inferior son los valores más grande y más pequeño de las mediciones, que no sobrepasan los límites de los bigotes superior e inferior.
  • los valores que sobrepasan los límites de los bigotes superiores e inferiores, se denominan atípicos (‘outliers’) y usualmente se representan con un \(*\).
box&whisker plot

box&whisker plot

Desviación Media

\[desviación\ media = \frac{\sum |X_i - \bar X|}{n}\qquad(1)\]

Varianza

\[para\ población: \sigma^2 = \frac{\sum(X_i-\mu)^2}{N}\qquad(2)\]

\[para\ muestra: s^2 = \frac{\sum(X_i-\bar X)^2}{n-1}\qquad(3)\]

\[s^2 = \frac{\sum{X_i}^2-\frac{(\sum X_i)^2}{n}}{n-1}\qquad(4)\]

BONO: Demostrar que las expresiones (3) y (4) son equivalentes.

Desviación Estándar

\[para\ la\ población: \sigma = \sqrt {\sigma^2}\]

\[para\ una\ muestra: s = \sqrt {s^2}\]

Coeficiente de Variación

\[CV=\frac{s}{\bar X}\quad o\quad \%CV=\frac{s}{\bar X}*100\]

Cálculos de Tendencia Central y Dispersión

Utilizaremos datos de una población de Melón de Costa (Melocactus intortus) que se encuentra en el Bosque Seco de Guánica. Las muestras son de mediciones de altura total (cm) y longitud de la inflorescencia (cm).

Melocactus intortus

Melocactus intortus

Resumen de estadísticos utilizando R

Creamos un ‘data frame’ a partir de un archivo en formato ‘comma separated values’ (.csv).

melodata <- read.csv("melocactus.csv")
head(melodata)

Calculamos los valores de los estadísticos estudiados:

library(kableExtra)
mistads <- function(x){
                m <- mean(x)
                q <- quantile(x)
                n <- length(x)
                s <- sd(x)
                cv <- sd(x)/mean(x)
                return(c(n=n, cuartiles=q, media=m, s=s, CV=cv))
}
# arguments (variables) to use
misvars <- c("alturatotal", "longinflo")
# sapply function on dataset
resultados <- sapply(melodata[misvars], mistads)
kable(resultados)
alturatotal longinflo
n 145.0000000 145.000000
cuartiles.0% 3.0000000 0.000000
cuartiles.25% 11.0000000 0.000000
cuartiles.50% 18.0000000 0.000000
cuartiles.75% 30.0000000 11.000000
cuartiles.100% 69.0000000 35.000000
media 21.9310345 5.965517
s 14.1811961 8.065198
CV 0.6466269 1.351970

Gráfica de box-whisker para los datos anteriores

library(ggplot2)
altura <- ggplot(melodata, aes(x = "A", y=alturatotal)) +
  geom_boxplot(fill="cornflowerblue") +
  stat_summary(fun.y="mean", colour="darkred", geom="point", shape=18, size=3) +
  geom_point(position = "jitter", size = 0.5, color="blue", alpha=.5) +
  labs(x = "Planta", y = "Altura Total, cm")
inflo <- ggplot(melodata, aes(x = "I", y=longinflo)) +
  geom_boxplot(fill="cornflowerblue") +
  stat_summary(fun.y="mean", colour="darkred", geom="point", shape=18, size=3) +
  geom_point(position = "jitter", size = 0.5, color="blue", alpha=.5) +
  labs(x = "Inflorescencia", y = "Longitud, cm")
altura

inflo