Estadística y Probabilidad

Clase 1.9
Diagrama de caja (“Box-plot”)

Msc. Roberto Trespalacios

Universidad Tecnológica de Bolivar

2024-01-29

Tabla de contenido

  • Diagrama de caja (“Box-plot”)
    • Diagrama de caja (“Box-plot”)
    • Utilidad del diagrama de caja
    • Rango intercuartil (IQR)
    • Construcción del diagrama de cajas (“Box-plot”)
  • Ejercicios

Diagrama de cajas (“Box-plot”)

Un diagrama de caja (también, diagrama de caja y bigotes o box plot) es un método estandarizado para representar gráficamente una serie de datos numéricos a través de sus cuartiles. De esta manera, se muestran a simple vista la mediana y los cuartiles de los datos; también pueden representarse sus valores atípicos.

Utilidad del diagrama de caja

  • La mayor utilidad de los diagramas caja-bigotes es para comparar dos o más conjuntos de datos.
  • Proporcionan una visión general de la simetría de la distribución de los datos; si la mediana no está en el centro del rectángulo, la distribución no es simétrica.
  • Son útiles para ver la presencia de valores atípicos también llamados outliers.
  • Pertenece a las herramientas de las estadística descriptiva. Permite ver como es la dispersión de los puntos con la mediana, los percentiles(cuartiles) 25 y 75 y los valores máximos y mínimos.
  • Ponen en una sola dimensión los datos de un histograma, facilitando así el análisis de la información al detectar que el 50% de la población está en los límites de la caja.

Rango intercuartil (IQR)

El rango intercuartil puede ser usado para estimar la variabilidad de los datos cuando hay outliers. Consiste en la diferencia entre el tercero y el primer cuartil:

\[IQR=Q_3-Q_1\]

Ejemplo 1

Los siguientes son los valores de 18 muestras del tiempo de espera en un supermercado. Encuentre los cuartiles y luego interpretelos.

3 5 4 2 6 2 5 1 8
9 8 5 4 5 3 2 5 4

Calcule el rango intercuartil

  • \(Q_1=3\), \(Q_2=4.5\) y \(Q_3=5\), por lo tanto el rango intercuartil es:

\[IQR=Q_3-Q_1 = 5-3 = 2\]

Construcción del diagrama de cajas (“Box-plot”)

Para la construcción del diagrama de cajas (“Box-plot”), debemos tener en cuenta los siguientes pasos.

  1. Ordenamos los datos.
  2. Determine los cuartiles (\(Q_1, Q_2\) y \(Q_3\)).
  3. Calcule el rango intercuartil (\(IQR=Q_3-Q_1\)).
  4. Determine los límites del diagrama.
    • Límite Inferior, que denotamos por: \(L_{inf}=\min \{x_i | x_i \geqslant Q_1-1.5(IQR) \}\)
    • Límite Superior, que denotamos por: \(L_{sup}=\max \{x_i | x_i \leqslant Q_3+1.5(IQR)\}\)
  5. Sobre una recta real, que inicie desde antes del valor \(L_{inf}\) y despues del valor del \(L_{sup}\), grafique el diagrama de cajas.

Observación: Los valores que están por debajo del límite inferior o por encima del límite superior son considerados como datos atípicos “outliers”.

Ejemplo 2

Los siguientes datos corresponden al tiempo de hospitalización, en días, de 21 pacientes después de una cirugía de cráneo:

\[8, 9, 9, 12, 13, 15, 15, 17, 21, 21, 23, 24, 26, 28, 33, 36, 37, 38, 44, 45, 78\]

Encuentre:

  1. Ordene los datos.
  2. Encuentre los cuartiles.
  3. Calcular el rango intercuartil.
  4. Encuentre los límites inferior y superior. Diga si hay datos atípicos.
  5. Construya el diagrama de cajas (box-plot) de los datos y luego interprete.

Solución - ejemplo 2

  1. Ordenamos los datos: 8, 9, 9, 12, 13, 15, 15, 17, 21, 21, 23, 24, 26, 28, 33, 36, 37, 38, 44, 45, 78

  2. Los cuartiles son: \(Q_1=15\), \(Q_2=23\), \(Q_3=36\).

Code
x = c(8, 9, 9, 12, 13, 15, 15, 17, 21, 21, 23, 24, 26, 28, 33, 36, 37,  38, 44,  45, 78)
x = sort(X)
Q = quantile(x, probs = c(0.25, 0.5, 0.75))
  1. Rango intercuartil \(IQR = 36-15=21\).
Code
IQR = Q[3] - Q[1]
IQR

Solución - ejemplo 2

  1. Límite inferior \[ \begin{align*} L_{inf}= & \min \{x_i | x_i \geqslant Q_1-1.5(IQR)\} \\ = &\min \{x_i | x_i \geqslant 15-1.5(21)\} \\ = &\min \{x_i | x_i \geqslant -16.5 \} \\ = & 8 \end{align*} \]
Code
Li = min(x[x  >= Q[1]-1.5*(IQR)])
Li

Límite superior.

\[ \begin{align*} L_{sup}=& \max \{x_i | x_i \leqslant Q_3+1.5(IQR)\} \\ = & \max \{x_i | x_i \leqslant 36+1.5(21)\} \\ = & \max \{x_i | x_i \leqslant 67.5\} \\ = & 45 \end{align*} \]

Observemos que 78 > 45, por lo tanto, 78 es un valor atípico.

Code
Ls = max(x[x  <= Q[3]+1.5*(IQR)])
Ls
  1. Diagrama de cajas e interpretación.
Code
library(ggplot2)
df = data.frame(x)
ggplot(df, aes(x = x, y="")) + 
  geom_boxplot(color = "black", fill =  "lightblue") +
  geom_text(data = data.frame(Q), aes(x = Q, label = Q), vjust = 12) +
  geom_text(data = data.frame(atip = 78), aes(x = atip, label = atip), vjust = 2) +
  geom_text(data = data.frame(lim = c(Li,Ls)), aes(x = lim, label = lim), vjust = 2) +
  labs(title = "Tiempo de hospitalización de pacientes operados", x = "Tiempo (días)" , y ="") +
  theme(plot.title = element_text(hjust = 0.5))

Ejemplo 3

A continuación se muestran los resultados de un experimento para comparar los rendimientos de 30 plantas (medidos por el peso(grs) seco de las plantas) obtenidos bajo un control y dos condiciones de tratamiento diferentes.

Grupo
ctrl trt1 trt2
4.17 4.81 6.31
5.58 4.17 5.12
5.18 4.41 5.54
6.11 3.59 5.50
Peso(grs) 4.50 5.87 5.37
4.61 3.83 5.29
5.17 6.03 4.92
4.53 4.89 6.15
5.33 4.32 5.80
5.14 4.69 5.26

Utilice R para construir un box-plot de los datos con sus respectivos grupos y luego interprete el diagrama.

Solución

Veamos el código en R para generar el gráfico de box-plot.

Code
df = data.frame(peso = c(4.17,5.58,5.18,6.11,4.5,4.61,5.17,4.53,5.33,5.14,4.81,4.17,4.41,3.59,5.87,
                         3.83,6.03,4.89,4.32,4.69,6.31,5.12,5.54,5.5,5.37,5.29,4.92,6.15,5.8,5.26),
                grupo = c("ctrl","ctrl","ctrl","ctrl","ctrl","ctrl","ctrl","ctrl","ctrl","ctrl",
                          "trt1","trt1","trt1","trt1","trt1","trt1","trt1","trt1","trt1","trt1",
                          "trt2","trt2","trt2","trt2","trt2","trt2","trt2","trt2","trt2","trt2"))

library(ggplot2)

ggplot(df, aes(x=peso, y=grupo)) + 
  geom_boxplot(outlier.colour="red", outlier.shape=8, outlier.size=4)+
  labs(title = "Peso de las plantas por tratamiento", x = "Peso (grs)" , y ="Grupo") +
  theme(plot.title = element_text(hjust = 0.5))

Ejercicio 1

  1. Los siguientes datos corresponden al tiempo de hospitalización, en días, de 21 pacientes después de una cirugía de cráneo:

\[8, 9, 9, 12, 13, 15, 15, 17, 21, 21, 23, 24, 26, 28, 33, 36, 37, 38, 44, 45, 78\]

  1. Ordene los datos.
  2. Encuentre los cuartiles.
  3. Calcular el rango intercuartil.
  4. Encuentre los límites inferior y superior. Diga si hay datos atípicos.
  5. Construya el diagrama de cajas (box-plot) de los datos y luego interprete.

Ejercicio 2

  1. Los datos representan la edad de la madre, al tiempo que tiene su primer hijo. \[21, 35, 33, 25, 22, 26, 21, 24, 16, 32, 25, 20, 30, 20, 20, 29, 21, 19, 18, 24, 33, 22, 23, 25, 17, 23, 25, 29\]
  1. Ordene los datos.
  2. Encuentre los cuartiles.
  3. Calcular el rango intercuartil.
  4. Encuentre los límites inferior y superior. Diga si hay datos atípicos.
  5. Construya el diagrama de cajas (box-plot) de los datos y luego interprete.

Ejercicio 3

En el Spacelab life sciences 2 dirigido por Paul Callahan, 14 ratas machos fueron enviados al espacio. La cantidad de glóbulos rojos(millones/mililitro) fue determinado cuando las ratas retornaron. Otro grupo de 14 ratas machos fueron mantenidos bajo las mismas condiciones (excepto por el vuelo al espacio) que las ratas en el espacio y la cantidad de glóbulos rojos también fue medida cuando las ratas retornaron del espacio. La siguiente tabla muestra los datos.

Flight 7.43 7.21 8.59 8.64 9.79 6.85 6.87 7.89 9.3 8.03 7 8.8 6.39 7.54
Control 8.65 6.99 8.4 9.66 7.62 7.44 8.55 8.7 7.33 8.58 9.88 9.94 7.14 9.14
  1. Construya un “Box-plot” para la cantidad de glóbulos rojos de las ratas que fueron al espacio y el grupo control.
  2. ¿Se puede decir el vuelo al espacio afectó la cantidad de glóbulos rojos?
  3. Compare e interprete los dos box-plot.