Clase 1.9
Diagrama de caja (“Box-plot”)
Universidad Tecnológica de Bolivar
2024-01-29
Un diagrama de caja (también, diagrama de caja y bigotes o box plot) es un método estandarizado para representar gráficamente una serie de datos numéricos a través de sus cuartiles. De esta manera, se muestran a simple vista la mediana y los cuartiles de los datos; también pueden representarse sus valores atípicos.
El rango intercuartil puede ser usado para estimar la variabilidad de los datos cuando hay outliers. Consiste en la diferencia entre el tercero y el primer cuartil:
\[IQR=Q_3-Q_1\]
Los siguientes son los valores de 18 muestras del tiempo de espera en un supermercado. Encuentre los cuartiles y luego interpretelos.
| 3 | 5 | 4 | 2 | 6 | 2 | 5 | 1 | 8 |
| 9 | 8 | 5 | 4 | 5 | 3 | 2 | 5 | 4 |
Calcule el rango intercuartil
\[IQR=Q_3-Q_1 = 5-3 = 2\]
Para la construcción del diagrama de cajas (“Box-plot”), debemos tener en cuenta los siguientes pasos.
Observación: Los valores que están por debajo del límite inferior o por encima del límite superior son considerados como datos atípicos “outliers”.
Los siguientes datos corresponden al tiempo de hospitalización, en días, de 21 pacientes después de una cirugía de cráneo:
\[8, 9, 9, 12, 13, 15, 15, 17, 21, 21, 23, 24, 26, 28, 33, 36, 37, 38, 44, 45, 78\]
Encuentre:
Ordenamos los datos: 8, 9, 9, 12, 13, 15, 15, 17, 21, 21, 23, 24, 26, 28, 33, 36, 37, 38, 44, 45, 78
Los cuartiles son: \(Q_1=15\), \(Q_2=23\), \(Q_3=36\).
Límite superior.
\[ \begin{align*} L_{sup}=& \max \{x_i | x_i \leqslant Q_3+1.5(IQR)\} \\ = & \max \{x_i | x_i \leqslant 36+1.5(21)\} \\ = & \max \{x_i | x_i \leqslant 67.5\} \\ = & 45 \end{align*} \]
Observemos que 78 > 45, por lo tanto, 78 es un valor atípico.
library(ggplot2)
df = data.frame(x)
ggplot(df, aes(x = x, y="")) +
geom_boxplot(color = "black", fill = "lightblue") +
geom_text(data = data.frame(Q), aes(x = Q, label = Q), vjust = 12) +
geom_text(data = data.frame(atip = 78), aes(x = atip, label = atip), vjust = 2) +
geom_text(data = data.frame(lim = c(Li,Ls)), aes(x = lim, label = lim), vjust = 2) +
labs(title = "Tiempo de hospitalización de pacientes operados", x = "Tiempo (días)" , y ="") +
theme(plot.title = element_text(hjust = 0.5))A continuación se muestran los resultados de un experimento para comparar los rendimientos de 30 plantas (medidos por el peso(grs) seco de las plantas) obtenidos bajo un control y dos condiciones de tratamiento diferentes.
| Grupo | |||
|---|---|---|---|
| ctrl | trt1 | trt2 | |
| 4.17 | 4.81 | 6.31 | |
| 5.58 | 4.17 | 5.12 | |
| 5.18 | 4.41 | 5.54 | |
| 6.11 | 3.59 | 5.50 | |
| Peso(grs) | 4.50 | 5.87 | 5.37 |
| 4.61 | 3.83 | 5.29 | |
| 5.17 | 6.03 | 4.92 | |
| 4.53 | 4.89 | 6.15 | |
| 5.33 | 4.32 | 5.80 | |
| 5.14 | 4.69 | 5.26 |
Utilice R para construir un box-plot de los datos con sus respectivos grupos y luego interprete el diagrama.
Veamos el código en R para generar el gráfico de box-plot.
df = data.frame(peso = c(4.17,5.58,5.18,6.11,4.5,4.61,5.17,4.53,5.33,5.14,4.81,4.17,4.41,3.59,5.87,
3.83,6.03,4.89,4.32,4.69,6.31,5.12,5.54,5.5,5.37,5.29,4.92,6.15,5.8,5.26),
grupo = c("ctrl","ctrl","ctrl","ctrl","ctrl","ctrl","ctrl","ctrl","ctrl","ctrl",
"trt1","trt1","trt1","trt1","trt1","trt1","trt1","trt1","trt1","trt1",
"trt2","trt2","trt2","trt2","trt2","trt2","trt2","trt2","trt2","trt2"))
library(ggplot2)
ggplot(df, aes(x=peso, y=grupo)) +
geom_boxplot(outlier.colour="red", outlier.shape=8, outlier.size=4)+
labs(title = "Peso de las plantas por tratamiento", x = "Peso (grs)" , y ="Grupo") +
theme(plot.title = element_text(hjust = 0.5))\[8, 9, 9, 12, 13, 15, 15, 17, 21, 21, 23, 24, 26, 28, 33, 36, 37, 38, 44, 45, 78\]
En el Spacelab life sciences 2 dirigido por Paul Callahan, 14 ratas machos fueron enviados al espacio. La cantidad de glóbulos rojos(millones/mililitro) fue determinado cuando las ratas retornaron. Otro grupo de 14 ratas machos fueron mantenidos bajo las mismas condiciones (excepto por el vuelo al espacio) que las ratas en el espacio y la cantidad de glóbulos rojos también fue medida cuando las ratas retornaron del espacio. La siguiente tabla muestra los datos.
| Flight | 7.43 | 7.21 | 8.59 | 8.64 | 9.79 | 6.85 | 6.87 | 7.89 | 9.3 | 8.03 | 7 | 8.8 | 6.39 | 7.54 |
| Control | 8.65 | 6.99 | 8.4 | 9.66 | 7.62 | 7.44 | 8.55 | 8.7 | 7.33 | 8.58 | 9.88 | 9.94 | 7.14 | 9.14 |