Consideren la base de datos BWGHT disponible en INFODA, que recopila los pesos al nacer (en onzas) de 1388 bebés. Realizaremos un sumario estadístico de la variable bwght e interpretaremos los resultados obtenidos. También incluiremos uno o más gráficos adecuados.
- Primero navegamos hasta la carpeta que contiene a la base de datos BWGHT y la fijamos como directorio de trabajo. Esto también se puede hacer con el siguiente código (la ruta varía entre usuarios):
setwd("~/Library/Mobile Documents/com~apple~CloudDocs/Documents/Asignaturas UdeC/2026/Primer Semestre/Estadística I/BBDD Wooldridge")
library(haven)
data <- read_dta("BWGHT.DTA")En el código anterior también cargamos la base de datos BWGHT con el nombre corto data.
A continuación adjuntamos la base de datos para acceder directamente a sus variables:
- Una estadística descriptiva básica puede hacerse con la función summary:
## faminc cigtax cigprice bwght
## Min. : 0.50 Min. : 2.00 Min. :103.8 Min. : 23.0
## 1st Qu.:14.50 1st Qu.:15.00 1st Qu.:122.8 1st Qu.:107.0
## Median :27.50 Median :20.00 Median :130.8 Median :120.0
## Mean :29.03 Mean :19.55 Mean :130.6 Mean :118.7
## 3rd Qu.:37.50 3rd Qu.:26.00 3rd Qu.:137.0 3rd Qu.:132.0
## Max. :65.00 Max. :38.00 Max. :152.5 Max. :271.0
##
## fatheduc motheduc parity male
## Min. : 1.00 Min. : 2.00 Min. :1.000 Min. :0.0000
## 1st Qu.:12.00 1st Qu.:12.00 1st Qu.:1.000 1st Qu.:0.0000
## Median :12.00 Median :12.00 Median :1.000 Median :1.0000
## Mean :13.19 Mean :12.94 Mean :1.633 Mean :0.5209
## 3rd Qu.:16.00 3rd Qu.:14.00 3rd Qu.:2.000 3rd Qu.:1.0000
## Max. :18.00 Max. :18.00 Max. :6.000 Max. :1.0000
## NA's :196 NA's :1
## white cigs lbwght bwghtlbs
## Min. :0.0000 Min. : 0.000 Min. :3.135 Min. : 1.438
## 1st Qu.:1.0000 1st Qu.: 0.000 1st Qu.:4.673 1st Qu.: 6.688
## Median :1.0000 Median : 0.000 Median :4.787 Median : 7.500
## Mean :0.7846 Mean : 2.087 Mean :4.760 Mean : 7.419
## 3rd Qu.:1.0000 3rd Qu.: 0.000 3rd Qu.:4.883 3rd Qu.: 8.250
## Max. :1.0000 Max. :50.000 Max. :5.602 Max. :16.938
##
## packs lfaminc
## Min. :0.0000 Min. :-0.6931
## 1st Qu.:0.0000 1st Qu.: 2.6741
## Median :0.0000 Median : 3.3142
## Mean :0.1044 Mean : 3.0713
## 3rd Qu.:0.0000 3rd Qu.: 3.6243
## Max. :2.5000 Max. : 4.1744
##
- Una estadística descriptiva más completa puede hacerse con la librería psych. Una vez instalada la librería, procedemos a cargarlo:
- Con la ayuda de la función describe() del paquete psych, realizamos un sumario estadístico de la variable bwght, la cual representa el peso (en onzas) de los bebés recién nacidos:
## vars n mean sd median trimmed mad min max range skew kurtosis se
## X1 1 1388 118.7 20.35 120 119.25 19.27 23 271 248 -0.15 3.14 0.55
## Q0.25 Q0.75
## X1 107 132
De la tabla anterior podemos interpretar que:
- En promedio, estos bebés pesan 118,7 onzas al nacer.
- En promedio, los pesos de los bebés recién nacidos se diferencian del promedio en 20,35 onzas.
- El 50% de los bebés pesó 120 onzas o menos al nacer.
- El mínimo peso registrado de un bebé recién nacido es de 23 onzas, mientras que el máximo alcanzó las 271 onzas.
- Ya que el coeficiente de asimetría es negativo (skew 0 -0,15), se concluye que los datos están levemente cargados hacia la derecha.
- Como el coeficiente de apuntamiento es positivo (kurtosis = 3.14), concluimos que los datos tienen una distribución puntiaguda; es decir, los datos se concentran en torno a un valor central (homogeneidad).
- 25% de los bebés pesó 107 onzas o menos al nacer.
- 75% de los bebés pesó 132 onzas o menos al nacer.
- Adicionalmente, podemos interpretar que el 50% de bebés pesó entre 107 y 132 onzas al nacer.
- Podemos crear un histograma de los pesos de los recién nacidos:
- Un gráfico de cajas y bigotes, también conocido como box plot, nos sirve para observar qué tan dispersos están los datos. En este caso, podemos ver que la caja central del gráfico es bastante estrecha y además, la línea divisora de la caja se ubica aproximadamente al medio, por lo que los datos tienden a concentrarse en torno a la mediana (o a la media, ya que son valores muy parecidos en este caso). Los puntos fuera de la caja son valores considerados atípicos
- También podemos construir un box plot del peso de los recién nacidos, pero separando por sexo (1 = hombres, 0 = mujeres). En este caso, al estar la caja de los hombres levemente más arriba de la caja para las mujeres, podemos decir que en esta muestra los hombres pesaron apenas un poco más que las mujeres.
- Finalmente, podemos construir un box plot del peso de los recién nacidos, pero separando por raza (1 = blancos, 0 = no blancos). El análisis es el mismo que al separar por sexo.