Una de las primeras etapas en el análisis de datos es la exploración de estos por medio de gráficos, en la cual se evidencian las características de las variables de manera compacta y precisa. Los gráficos son extremadamente útiles para describir la distribución de un conjunto de datos.
En la estadística descriptiva se utilizan gráficas de diversos tipos dependiendo de las variables de estudio. Entre ellos se destacan los siguientes:
Las rutinas para realizar estos gráficos se encuentran disponibles en
R
.
Su objetivo principal es dar a entender de manera clara y sencilla el comportamiento de una o varias variables con el fin de identificar fácilmente patrones y anomalías como:
Se debe tener especial atención en las partes que conforman las gráficas, como el título principal, el título de los ejes, el color, el tamaño, y la escala.
Un histograma se construye a partir de la distribución de las frecuencias, asociando a cada categoría un rectángulo que tiene a cada intervalo como base. El criterio para calcular la altura (densidad) de cada rectángulo es mantener la proporcionalidad entre la frecuencia y el área de cada intervalo. Las densidades satisfacen \[\sum_{j=1}^{m} a_j\,d_j = 1\] donde \(m\) es el número de intervalos, y \(a_j\) y \(d_j\) son respectivamente la amplitud y la densidad del intervalo \(j\).
Si la amplitud de los intervalos es constante, \(a_j = a\), entonces \(d_j= \frac{h_j}{a}\), donde \(h_j\) es la frecuencia relativa del intervalo \(j\).
Para seleccionar el número de categorías \(m\) se distinguen tres alternativas:
En un diagrama de caja:
Los histogramas y los diagramas de caja permiten caracterizar visualmente la localización, la dispersión, la simetría y los datos atípicos de una variable cuantitativa (por lo general continua).
En la base de datos “births” del paquete “Epi”, se encuentran registrados los datos de 500 nacimientos en un hospital de Londres, para cada uno de estos 500 nacimientos se midieron las siguientes variables:
Para analizar la variable “bweight”:
# Los datos se encuentran en el paquete "Epi" de R, por lo que primero se
# debe instalar y cargar dicho paquete. de necesitar instalarlo:
# install.packages("Epi")
library(Epi)
#help(births)
data(births)
# medidas de tendencia y localizacion
summary(births$bweight)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 628 2862 3188 3137 3551 4553
# diagramas
par(mfrow = c(1,2))
#freq = FALSE para representar las frecuencias relativas
hist(x = births$bweight, freq = FALSE,
xlab = "Peso al nacer (gr)", ylab = "Densidad", main = "")
boxplot(x = births$bweight, horizontal = TRUE, xlab = "Peso al nacer (gr)")
La base de datos sinteticos.txt
contiene los datos de
cuatro variables cuantitativas \(x,y,z,v\) para una muestra de \(n=1000\) individuos. Estas variables
exhiben diferentes características en términos de tendencia,
localización, variabilidad, y forma. A continuación, se presentan las
medidas de tendencia central y de localización, junto con el histograma
y el diagrama de caja asociados con estas variables.
# importar datos
# recuerden actualizar el directorio de trabajo
# setwd("...")
<- read.table(file = "sinteticos.txt", header = TRUE)
datos # medidas de tendencia y localizacion
summary(datos)
## x y z v
## Min. :-0.5863 Min. : 0.3239 Min. : 0.000 Min. : 2.183
## 1st Qu.: 3.6759 1st Qu.: 2.4776 1st Qu.: 7.470 1st Qu.: 4.916
## Median : 4.9763 Median : 3.5923 Median : 8.955 Median : 6.723
## Mean : 5.0371 Mean : 3.9291 Mean : 8.619 Mean : 7.828
## 3rd Qu.: 6.4439 3rd Qu.: 5.0778 3rd Qu.:10.070 3rd Qu.:10.942
## Max. :11.4681 Max. :12.5476 Max. :12.224 Max. :13.109
# histogramas y diagramas de caja
par(mfrow = c(4,2))
hist(x = datos$x, freq = FALSE, xlab = "x", ylab = "Densidad", main = "", xlim = range(datos$x))
boxplot(x = datos$x, horizontal = TRUE, xlab = "x", ylim = range(datos$x))
hist(x = datos$y, freq = FALSE, xlab = "y", ylab = "Densidad", main = "", xlim = range(datos$y))
boxplot(x = datos$y, horizontal = TRUE, xlab = "y", ylim = range(datos$y))
hist(x = datos$z, freq = FALSE, xlab = "z", ylab = "Densidad", main = "", xlim = range(datos$z))
boxplot(x = datos$z, horizontal = TRUE, xlab = "z", ylim = range(datos$y))
hist(x = datos$v, freq = FALSE, xlab = "v", ylab = "Densidad", main = "", xlim = range(datos$v))
boxplot(x = datos$v, horizontal = TRUE, xlab = "v", ylim = range(datos$v))