Objetivos de la Práctica

Después de realizar con éxito esta práctica será capaz de:
1. Construir un diagrama de caja para una serie de datos utilizando R
2. Describir las principales características de una serie de datos utilizando un diagrama de caja
3. Construir diagramas de caja para dos o más series de datos
4. Describir las principales características de dos o más series de datos utilizando diagramas de cajas

Diagramas de Caja (Boxplot)

En R la función que nos permite construir un boxplot es boxplot() que por defecto genera el diagrama de manera vertical (muy útil cuando es espacio es limitado) pero que facilmente podemos modificar agregando el argumento horizontal=TRUE. Veamos su uso con un caso real.
El reporte técnico “Ozone Season emissions by State” (U.S. environmental Protection Agency, 2002)" proporciona los siguientes datos para la emisión de óxido nitroso (en miles de toneladas) para 48 estados de EEUU.

76, 22, 40, 7, 30, 5, 6, 136, 72, 33, 89, 136, 39, 92, 40, 13, 27, 1, 63, 33, 60, 0, 27, 16, 63, 32, 20, 2, 15, 36, 19, 39, 0, 130, 40, 4, 85, 38, 7, 68, 151, 32, 34, 0, 6, 43, 89, 34
  1. Iniciamos almacenando los datos en una variable. La llamaremos emisiones.
emisiones <- c(76, 22, 40, 7, 30, 5, 6, 136, 72, 33, 89, 136, 39, 92, 40, 13, 27, 1, 63, 33, 60, 0, 27, 16, 63, 32, 20, 2, 15, 36, 19, 39, 0, 130, 40, 4, 85, 38, 7, 68, 151, 32, 34, 0, 6, 43, 89, 34)
  1. Ahora usamos la función boxplot() de la siguiente manera:
boxplot(emisiones, horizontal = TRUE, main="Emisiones de Óxido Nitroso \n [en miles de toneladas] ",col="blue")

Copie y ejecute los códigos anteriores en http://rextester.com/l/r_online_compiler. Puede usar también el sitio https://www.tutorialspoint.com/execute_r_online.php

Análisis

El gráfico nos muestra que la distribución de datos presenta un sesgo a la derecha. Un valor representativo es 33,500 toneladas. El 50% central de los datos se dispersa en un intervalo de 48.5 puntos porcentuales. El gráfico también revela la presencia de una valor atípico de 151,000 toneladas.

Nota: recuerde que si la distribución es sesgada, usamos la mediana y el IQR para medir el centro y la variabilidad de la serie de datos. Puede usar la función summary() para calcular estos valores.

summary(emisiones)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00   14.50   33.50   42.71   63.00  151.00

Uso de diagramas de caja para comparar dos o más series de datos

La versatilidad de los diagramas de caja se hace visible cuando deseamos comparar series de datos. Copie el siguiente código y ejecútelo. Los datos representan los contenidos de sodio para dos marcas de queso.

contenido1 <- c(310, 420, 45, 40, 220, 240, 180, 90)
contenido2 <- c(270, 180, 250, 290, 130, 260, 340, 310)
boxplot(contenido1,contenido2,names = c("Marca 1","Marca 2"),main="Contenido de Sodio")

Análisis

El diagrama nos revela que ambas distribuciones de datos presentan sesgos. Para la marca 1 la distribución de los contenidos es sesgada a la derecha, mientras que para la marca 2 es sesgada a la izquierda. Ninguna de las distribuciones presenta valores atípicos. En cuanto al valor representativo vemos que no hay una diferencia significativa para los contenidos de sodio de ambas marcas, sin embargo, cerca del 75% de los contenidos de la marca 1 son menores que 265, el valor representativo de la marca 2, que presenta una variabilidad menor que la marca 1.