Estadística Descriptiva en R

Consideren la base de datos BWGHT disponible en INFODA, que recopila los pesos al nacer (en onzas) de 1388 bebés. Realizaremos un sumario estadístico de la variable bwght e interpretaremos los resultados obtenidos. También incluiremos uno o más gráficos adecuados.

Primero navegamos hasta la carpeta que contiene a la base de datos BWGHT y la fijamos como directorio de trabajo. Esto también se puede hacer con el siguiente código (la ruta varía entre usuarios):

setwd("~/Library/Mobile Documents/com~apple~CloudDocs/Documents/Asignaturas UdeC/2026/Primer Semestre/Estadística I/BBDD Wooldridge")

library(haven)
data <- read_dta("BWGHT.DTA")

En el código anterior también cargamos la base de datos BWGHT con el nombre corto data.
A continuación adjuntamos la base de datos para acceder directamente a sus variables:

attach(data)

Una estadística descriptiva básica puede hacerse con la función summary:

summary(data)

##      faminc          cigtax         cigprice         bwght      
##  Min.   : 0.50   Min.   : 2.00   Min.   :103.8   Min.   : 23.0  
##  1st Qu.:14.50   1st Qu.:15.00   1st Qu.:122.8   1st Qu.:107.0  
##  Median :27.50   Median :20.00   Median :130.8   Median :120.0  
##  Mean   :29.03   Mean   :19.55   Mean   :130.6   Mean   :118.7  
##  3rd Qu.:37.50   3rd Qu.:26.00   3rd Qu.:137.0   3rd Qu.:132.0  
##  Max.   :65.00   Max.   :38.00   Max.   :152.5   Max.   :271.0  
##                                                                 
##     fatheduc        motheduc         parity           male       
##  Min.   : 1.00   Min.   : 2.00   Min.   :1.000   Min.   :0.0000  
##  1st Qu.:12.00   1st Qu.:12.00   1st Qu.:1.000   1st Qu.:0.0000  
##  Median :12.00   Median :12.00   Median :1.000   Median :1.0000  
##  Mean   :13.19   Mean   :12.94   Mean   :1.633   Mean   :0.5209  
##  3rd Qu.:16.00   3rd Qu.:14.00   3rd Qu.:2.000   3rd Qu.:1.0000  
##  Max.   :18.00   Max.   :18.00   Max.   :6.000   Max.   :1.0000  
##  NA's   :196     NA's   :1                                       
##      white             cigs            lbwght         bwghtlbs     
##  Min.   :0.0000   Min.   : 0.000   Min.   :3.135   Min.   : 1.438  
##  1st Qu.:1.0000   1st Qu.: 0.000   1st Qu.:4.673   1st Qu.: 6.688  
##  Median :1.0000   Median : 0.000   Median :4.787   Median : 7.500  
##  Mean   :0.7846   Mean   : 2.087   Mean   :4.760   Mean   : 7.419  
##  3rd Qu.:1.0000   3rd Qu.: 0.000   3rd Qu.:4.883   3rd Qu.: 8.250  
##  Max.   :1.0000   Max.   :50.000   Max.   :5.602   Max.   :16.938  
##                                                                    
##      packs           lfaminc       
##  Min.   :0.0000   Min.   :-0.6931  
##  1st Qu.:0.0000   1st Qu.: 2.6741  
##  Median :0.0000   Median : 3.3142  
##  Mean   :0.1044   Mean   : 3.0713  
##  3rd Qu.:0.0000   3rd Qu.: 3.6243  
##  Max.   :2.5000   Max.   : 4.1744  
##

Una estadística descriptiva más completa puede hacerse con la librería psych. Una vez instalada la librería, procedemos a cargarlo:

# install.packages("psych")
library(psych)

Con la ayuda de la función describe() del paquete psych, realizamos un sumario estadístico de la variable bwght, la cual representa el peso (en onzas) de los bebés recién nacidos:

describe(bwght, quant = c(0.25, 0.75))

##    vars    n  mean    sd median trimmed   mad min max range  skew kurtosis   se
## X1    1 1388 118.7 20.35    120  119.25 19.27  23 271   248 -0.15     3.14 0.55
##    Q0.25 Q0.75
## X1   107   132

De la tabla anterior podemos interpretar que:
- En promedio, estos bebés pesan 118,7 onzas al nacer.
- En promedio, los pesos de los bebés recién nacidos se diferencian del promedio en 20,35 onzas.
- El 50% de los bebés pesó 120 onzas o menos al nacer.
- El mínimo peso registrado de un bebé recién nacido es de 23 onzas, mientras que el máximo alcanzó las 271 onzas.
- Ya que el coeficiente de asimetría es negativo (skew 0 -0,15), se concluye que los datos están levemente cargados hacia la derecha.
- Como el coeficiente de apuntamiento es positivo (kurtosis = 3.14), concluimos que los datos tienen una distribución puntiaguda; es decir, los datos se concentran en torno a un valor central (homogeneidad).
- 25% de los bebés pesó 107 onzas o menos al nacer.
- 75% de los bebés pesó 132 onzas o menos al nacer.
- Adicionalmente, podemos interpretar que el 50% de bebés pesó entre 107 y 132 onzas al nacer.

Podemos crear un histograma de los pesos de los recién nacidos:

hist(bwght)

Un gráfico de cajas y bigotes, también conocido como box plot, nos sirve para observar qué tan dispersos están los datos. En este caso, podemos ver que la caja central del gráfico es bastante estrecha y además, la línea divisora de la caja se ubica aproximadamente al medio, por lo que los datos tienden a concentrarse en torno a la mediana (o a la media, ya que son valores muy parecidos en este caso). Los puntos fuera de la caja son valores considerados atípicos

boxplot(bwght)

También podemos construir un box plot del peso de los recién nacidos, pero separando por sexo (1 = hombres, 0 = mujeres). En este caso, al estar la caja de los hombres levemente más arriba de la caja para las mujeres, podemos decir que en esta muestra los hombres pesaron apenas un poco más que las mujeres.

boxplot(bwght~male)

Finalmente, podemos construir un box plot del peso de los recién nacidos, pero separando por raza (1 = blancos, 0 = no blancos). El análisis es el mismo que al separar por sexo.

boxplot(bwght~white)