1 Introducción

Una de las primeras etapas en el análisis de datos es la exploración de estos por medio de gráficos, en la cual se evidencian las características de las variables de manera compacta y precisa. Los gráficos son extremadamente útiles para describir la distribución de un conjunto de datos.

En la estadística descriptiva se utilizan gráficas de diversos tipos dependiendo de las variables de estudio. Entre ellos se destacan los siguientes:

Diagramas de barras.
Diagramas de sectores.
Diagramas de caja.
Histogramas.

Las rutinas para realizar estos gráficos se encuentran disponibles en R.

Su objetivo principal es dar a entender de manera clara y sencilla el comportamiento de una o varias variables con el fin de identificar fácilmente patrones y anomalías como:

Concentración de los valores de una variable en alguna clase
Existencia de categorías sin propósito
Presencia de datos atípicos, etc.

Se debe tener especial atención en las partes que conforman las gráficas, como el título principal, el título de los ejes, el color, el tamaño, y la escala.

2 Variables cuantitativas

2.1 Histogramas

Un histograma se construye a partir de la distribución de las frecuencias, asociando a cada categoría un rectángulo que tiene a cada intervalo como base. El criterio para calcular la altura (densidad) de cada rectángulo es mantener la proporcionalidad entre la frecuencia y el área de cada intervalo. Las densidades satisfacen \[\sum_{j=1}^{m} a_j\,d_j = 1\] donde \(m\) es el número de intervalos, y \(a_j\) y \(d_j\) son respectivamente la amplitud y la densidad del intervalo \(j\).

Si la amplitud de los intervalos es constante, \(a_j = a\), entonces \(d_j= \frac{h_j}{a}\), donde \(h_j\) es la frecuencia relativa del intervalo \(j\).

Para seleccionar el número de categorías \(m\) se distinguen tres alternativas:

Elegir \(m\) arbitrariamente.
Elegir \(m\) mediante la fórmula \(m \approx \sqrt{n}\).
Elegir \(m\) mediante la fórmula \(m \approx 1 + 3\text{.}3 \log (n)\).

2.2 Diagramas de caja

En un diagrama de caja:

La línea inferior de la caja es el \(P_{25}\).
La línea central el \(P_{50}\).
La línea superior el \(P_{75}\).
Los bigotes están dados por \(P_{25}-1.5RI\) y \(P_{75}+1.5RI\), donde \(RI=P_{75}-P_{25}\).
Los datos que se ubican por fuera de los bigotes se denominan datos atípicos. Aquellos que se encuentren a una distancia mayor de \(3.0RI\) del cuartil más cercano, se denominan datos atípicos extremos.

Los histogramas y los diagramas de caja permiten caracterizar visualmente la localización, la dispersión, la simetría y los datos atípicos de una variable cuantitativa (por lo general continua).

2.3 Ejemplo

En la base de datos “births” del paquete “Epi”, se encuentran registrados los datos de 500 nacimientos en un hospital de Londres, para cada uno de estos 500 nacimientos se midieron las siguientes variables:

id: Identificación.
bweight: Peso del bebé al nacer.
lowbw: Indicador para nacimientos con peso menor a 2500 g.
gestwks: Semanas de gestación.
preterm: Indicador para periodo de gestación menor a 37 semanas.
matage: Edad de la madre.
hyp: Indicador de hipertensión materna.
sex: Sexo del bebé( 1=Masculino, 2=Femenino).

Para analizar la variable “bweight”:

# Los datos se encuentran en el paquete "Epi" de R, por lo que primero se  
# debe instalar y cargar dicho paquete. de necesitar instalarlo:
# install.packages("Epi")
library(Epi)
#help(births)
data(births)

# medidas de tendencia y localizacion
summary(births$bweight)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     628    2862    3188    3137    3551    4553

# diagramas
par(mfrow = c(1,2))
#freq = FALSE para representar las frecuencias relativas
hist(x = births$bweight, freq = FALSE,
     xlab = "Peso al nacer (gr)", ylab = "Densidad", main = "")
boxplot(x = births$bweight, horizontal = TRUE, xlab = "Peso al nacer (gr)")

2.4 Ejemplo

La base de datos sinteticos.txt contiene los datos de cuatro variables cuantitativas \(x,y,z,v\) para una muestra de \(n=1000\) individuos. Estas variables exhiben diferentes características en términos de tendencia, localización, variabilidad, y forma. A continuación, se presentan las medidas de tendencia central y de localización, junto con el histograma y el diagrama de caja asociados con estas variables.

# importar datos
# recuerden actualizar el directorio de trabajo
# setwd("...")
datos <- read.table(file = "sinteticos.txt", header = TRUE)
# medidas de tendencia y localizacion
summary(datos)

##        x                 y                 z                v         
##  Min.   :-0.5863   Min.   : 0.3239   Min.   : 0.000   Min.   : 2.183  
##  1st Qu.: 3.6759   1st Qu.: 2.4776   1st Qu.: 7.470   1st Qu.: 4.916  
##  Median : 4.9763   Median : 3.5923   Median : 8.955   Median : 6.723  
##  Mean   : 5.0371   Mean   : 3.9291   Mean   : 8.619   Mean   : 7.828  
##  3rd Qu.: 6.4439   3rd Qu.: 5.0778   3rd Qu.:10.070   3rd Qu.:10.942  
##  Max.   :11.4681   Max.   :12.5476   Max.   :12.224   Max.   :13.109

# histogramas y diagramas de caja
par(mfrow = c(4,2))
hist(x = datos$x, freq = FALSE, xlab = "x", ylab = "Densidad", main = "", xlim = range(datos$x))
boxplot(x = datos$x,  horizontal = TRUE, xlab = "x", ylim = range(datos$x))
hist(x = datos$y, freq = FALSE, xlab = "y", ylab = "Densidad", main = "", xlim = range(datos$y))
boxplot(x = datos$y,  horizontal = TRUE, xlab = "y", ylim = range(datos$y))
hist(x = datos$z, freq = FALSE, xlab = "z", ylab = "Densidad", main = "", xlim = range(datos$z))
boxplot(x = datos$z,  horizontal = TRUE, xlab = "z", ylim = range(datos$y))
hist(x = datos$v, freq = FALSE, xlab = "v", ylab = "Densidad", main = "", xlim = range(datos$v))
boxplot(x = datos$v,  horizontal = TRUE, xlab = "v", ylim = range(datos$v))

Análisis gráfico

Lina Buitrago, labuitragor@unal.edu.co