Consideren la base de datos BWGHT disponible en INFODA, que recopila los pesos al nacer (en onzas) de 1388 bebés. Realicen un sumario estadístico de la variable bwght e interpreten los resultados obtenidos. Seleccionen cuidadosamente las medidas a calcular en su sumario. Este problema debe resolverse íntegramente en R o en Stata. Habrá un bonus para aquellos grupos que se atrevan a incluir uno o más gráficos “adecuados”.
- Primero navegamos hasta la carpeta que contiene a la base de datos BWGHT y la fijamos como directorio de trabajo. Esto también se puede hacer con el siguiente código (la ruta varía entre usuarios):
setwd("~/Library/Mobile Documents/com~apple~CloudDocs/Documents/Asignaturas UdeC/2024/Primer Semestre/Estadística I/Tareas/Tarea 1")
- Luego cargamos la base de datos BWGHT con un nombre corto, en nuestro caso le llamaremos data. Esto lo podemos hacer desde la venta Files de RStudio o a través de un código como este:
- A continuación adjuntamos la base de datos para acceder directamente a sus variables:
- Una vez instalado el paquete psych, procedemos a cargarlo:
- Con la ayuda de la función describe() del paquete psych, realizamos un sumario estadístico de la variable bwght, la cual representa el peso (en onzas) de los bebés recién nacidos:
## vars n mean sd median trimmed mad min max range skew kurtosis se
## 1 1 1388 118.7 20.35 120 119.25 19.27 23 271 248 -0.15 3.14 0.55
## Q0.25 Q0.75
## 1 107 132
De la tabla anterior podemos interpretar que:
- En promedio, estos bebés pesan 118,7 onzas al nacer.
- En promedio, los pesos de los bebés recién nacidos se diferencian del promedio en 20,35 onzas.
- El 50% de los bebés pesó 120 onzas o menos al nacer.
- El mínimo peso registrado de un bebé recién nacido es de 23 onzas, mientras que el máximo alcanzó las 271 onzas.
- Ya que el coeficiente de asimetría es negativo (skew 0 -0,15), se concluye que los datos están levemente cargados hacia la derecha.
- Como el coeficiente de apuntamiento es positivo (kurtosis = 3.14), concluimos que los datos tienen una distribución puntiaguda; es decir, los datos se concentran en torno a un valor central (homogeneidad).
- 25% de los bebés pesó 107 onzas o menos al nacer.
- 75% de los bebés pesó 132 onzas o menos al nacer.
- Adicionalmente, podemos interpretar que el 50% de bebés pesó entre 107 y 132 onzas al nacer.
- Podemos crear un histograma de los pesos de los recién nacidos:
- Un gráfico de cajas y bigotes, también conocido como box plot, nos sirve para observar qué tan dispersos están los datos. En este caso, podemos ver que la caja central del gráfico es bastante estrecha y además, la línea divisora de la caja se ubica aproximadamente al medio, por lo que los datos tienden a concentrarse en torno a la mediana (o a la media, ya que son valores muy parecidos en este caso). Los puntos fuera de la caja son valores considerados atípicos
- También podemos construir un box plot del peso de los recién nacidos, pero separando por sexo (1 = hombres, 0 = mujeres). En este caso, al estar la caja de los hombres levemente más arriba de la caja para las mujeres, podemos decir que en esta muestra los hombres pesaron apenas un poco más que las mujeres.
- Finalmente, podemos construir un box plot del peso de los recién nacidos, pero separando por raza (1 = blancos, 0 = no blancos). El análisis es el mismo que al separar por sexo.