Consideren la base de datos BWGHT disponible en la plataforma
institucional, que recopila los pesos al nacer (en onzas) de 1388 bebés.
Realicen un sumario estadístico de la variable bwght e interpreten los
resultados obtenidos. Seleccionen cuidadosamente las medidas a calcular
en su sumario. Este problema debe resolverse íntegramente en R (RStudio
o equivalente). Genere además algunos gráficos ``adecuados’’ para esta
variable.
- Primero navegamos en nuestro computador hasta la carpeta que
contiene a la base de datos BWGHT y la fijamos como directorio de
trabajo. Esto también se puede hacer con el siguiente código, teniendo
en cuenta que la ruta (ubicación dentro de nuestros computadores) es
distinta para cada estudiante:
setwd("~/Library/Mobile Documents/com~apple~CloudDocs/Documents/UST/Econometría/Ayudantías/Ayudantía Semana 1")
- Luego cargamos la base de datos BWGHT con un nombre corto, en
nuestro caso le llamaremos data. Esto lo podemos hacer
desde la venta Files de RStudio o a través de un código como este:
library(haven)
data <- read_dta("BWGHT.DTA")
- A continuación adjuntamos la base de datos para acceder directamente
a sus variables:
attach(data)
- Una vez instalado el paquete psych, procedemos a
cargarlo:
library(psych)
- Con la ayuda de la función describe() del paquete
psych, realizamos un sumario estadístico de la variable
bwght, la cual representa el peso (en onzas) de los bebés
recién nacidos. Nos aseguramos también de pedir el percentil 25 (cuartil
1) y el percentil 75 (cuartil 3):
describe(bwght, quant = c(0.25, 0.75))
- Podemos crear un histograma de los pesos de los recién nacidos:
hist(bwght)

- Un gráfico de cajas y bigotes, también conocido como
box plot, nos sirve para observar qué tan dispersos están los
datos. En este caso, podemos ver que la caja central del
gráfico es bastante estrecha y además, la línea divisora de la caja se
ubica aproximadamente al medio, por lo que los datos tienden a
concentrarse en torno a la mediana (o a la media, ya que son valores muy
parecidos en este caso). Los puntos fuera de la caja son valores
considerados atípicos
boxplot(bwght)

- También podemos construir un box plot del peso de los recién
nacidos, pero separando por sexo (1 = hombres, 0 = mujeres). En este
caso, al estar la caja de los hombres levemente más arriba de la caja
para las mujeres, podemos decir que en esta muestra los hombres pesaron
apenas un poco más que las mujeres.
boxplot(bwght~male)

- Finalmente, podemos construir un box plot del peso de los recién
nacidos, pero separando por raza (1 = blancos, 0 = no blancos). El
análisis es el mismo que al separar por sexo.
boxplot(bwght~white)
