El gráfico de caja es una forma de presentación estadística destinada a resaltar aspectos de la distribución de las observaciones en una o más series de datos cuantitativos.
Fue diseñado por John tukey, en la Universidad de princeton (U.S.A) en 1977.
Es un rectangulo que abarca el intervalo intercuartílico de la distribución, es decir el tramo de la escala que va desde el primer cuartil al tercer cuartil, también incluye el 50% de las observaciones centrales.
Es la línea que indica el valor de la media.
Son las líneas que salen a los costados de las caja y sirven como referencia para ubicar las observaciones que estan por fuera del 50% central de la distribución.
Son los valores atipicos, es decir es una observación extrañamente grande o pequeña, son los puntos que estan mas allá del limite inferior y superior.
Se utilizan varaibles cuantitativas, ya que el grafico nos muestra a través de los cuartiles, la distribución y la tendencia central de valores numéricos.
Los cuartiles son una forma de dividir valores numéricos en cuatro grupos iguales basados en cinco valores clave: mínimo, primer cuartil, mediana (segundo cuartil), tercer cuartil y máximo.
Primer cuartil: el 25% de los valores son menores o igual a este valor.
Mediana o Segundo Cuartil: Divide en dos partes iguales la distribución. De forma que el 50% de los valores son menores o igual a este valor.
Tercer cuartil: el 75% de los valores son menores o igual a este valor.
Extraído de:
partes del grafico de caja
mi_df <- trees # base de datos
boxplot(mi_df, horizontal= TRUE# horizontal o vertical
,main="Bloxplot para cualquier base de datos", #titulo
xlab = "titulo del eje x",
ylab = "titulo del eje y",
col = "blue")# color de la caja
grafico de caja
mi_df <- trees # base de datos
boxplot(mi_df, # Datos
horizontal = FALSE, # Horizontal o vertical
lwd = 3, # ancho de los bordes de la caja
col = "red", # Color de la caja
xlab = "Etiqueta eje X", # Etiqueta eje X
ylab = "Etiqueta eje Y", # Etiqueta eje Y
main = "Boxplot personalizado en R base", # Título
notch = TRUE, # Ańade intervalos de confianza para la mediana
border = "black", # Color del borde del boxplot
outpch = 25, # Símbolo para los outliers
outbg = "green", # Color de los datos atípicos
whiskcol = "blue",# Color de los bigotes
whisklty = 2, # Tipo de línea para los bigotes
lty = 1) # Tipo de línea 1 normal, 2 cortada (caja y mediana)
grafico de caja