INSTRUCCIONES GENERALES

  1. Para correr adecuadamente los códigos (‘chunks’), el archivo .Rmd debe estar en la misma carpeta (‘folder’) que el archivo de datos .csv.
  2. Antes de probar correr los códigos, realice los cambios que se piden. [Si obtiene un mensaje de error por falta de un paquete, debe instalarlo y volver a correr el código].
  3. Una vez que corra los códigos y escriba las respuestas a las preguntas en el archivo .Rmd, haga el Knit a Word.
  4. Edite el archivo Word, eliminando lo que no sea requerido (códigos, instrucciones como estas) y formateando el texto.
  5. Produzca un archivo PDF a partir del documento en Word.
  6. Suba el archivo final PDF a MOODLE, mediante la asignación.

Tendencia Central y Dispersión

En esta asignación estarán calculando parámetros estadísticos de la tendencia central y dispersión de los valores de tasa de natalidad de los municipios de Puerto Rico. También construirán una tabla con los resultados y construirán un histograma para los datos de tasa de natalidad. Finalmente responderán a preguntas sobre los resultados del análisis.

Datos

Los datos se encuentran en la siguiente hoja de cálculo: Tasa de Natalidad en Municipios. Puede bajar el archivo como un documento en formato .csv. El archivo en formato csv también se encuentra en Estadísticas Descriptivas: Recursos para el tema en MOODLE. Para que los códigos corran, el archivo de códigos (.Rmd) y el de datos (.csv) deben estar en la misma carpeta (el directorio de R).

Los datos son del año 2013 y muestran la cantidad de nacimientos, la población total en el municipio y la tasa de natalidad como nacimientos por 1000 habitantes del municipio en ese año.

A continuación el código R para cargar los datos del archivo .csv a RStudio, como un ‘data frame’ de nombre pueblos.

pueblos <- read.csv("Tasa_de_natalidad_por_municipio_2013.csv")

Cálculo de parámetros estadísticos

Calcular los siguientes parámetros estadísticos:

  • Mediana
  • Media (promedio)
  • Máximo
  • Mínimo
  • Rango (ámbito)
  • Primer cuartil (percentila 25%)
  • Tercer cuartil (percentila 75%)
  • Percentila 95%
  • Varianza
  • Desviación estándar

Usando R

A continuación los códigos para los cálculos de los parámetros estadísticos con R:

mdn <- median(pueblos$tasa2013)
med <- mean(pueblos$tasa2013)
max <- max(pueblos$tasa2013)
min <- min(pueblos$tasa2013)
amb <- max - min
pcu <- unname(quantile(pueblos$tasa2013,probs = .25))
tcu <- unname(quantile(pueblos$tasa2013,probs = .75))
p95 <- unname(quantile(pueblos$tasa2013,probs = .95))
var <- var(pueblos$tasa2013)
des <- sd(pueblos$tasa2013)

Tabla de resultados

Con los cálculos anteriores construir una tabla, con su respectiva leyenda explicativa.

Usando R

library(gt)
library(dplyr)
library(webshot2)
# construir data frame
parametros <- c("Mediana","Media","Máxima","Mínima","Ámbito","Primer cuartil","Tercer cuartil","Percentila 95","Varianza","Desviación estándar")
valores <- c(mdn,med,max,min,amb,pcu,tcu,p95,var,des)
tabla <- data.frame(parametros,valores)
# tabla con gt
tabla1 <- gt(tabla) %>% 
  tab_header(
    title = "Tabla 1. [aquí deben escribir la leyenda descriptiva de la tabla]"
  ) %>% 
  cols_label(
    parametros = html("Parámetros"),
    valores = html("Valores")
  ) %>%
  cols_align(
  c(parametros,valores),
  align = "center"
  ) %>% 
  fmt_number(
    valores,
    rows = everything(),
    decimals = 1
    )
tabla1
gtsave(tabla1,"tabla1.png")

Histograma de la tasa de natalidad

Con los datos de la tasa de natalidad, construir un histograma con una leyenda apropiada.

Usando R

Al usar el código de R, debe cambiar el color de las barras y poner etiquetas (labels) diferentes a los ejes, eje X: “Tasa de Natalidad por !000 habitantes” y en eje Y: “Frecuencia”.

library(ggplot2)
histograma <- ggplot(aes(tasa2013), data = pueblos) +
  geom_histogram(binwidth = 0.5, col = "white", fill = "blue")
histograma

Escribir una leyenda explicativa de la figura (histograma)

Figura 1. [aquí va la leyenda explicativa]

Preguntas

Responda de manera concisa las siguientes preguntas:

  1. ¿Son muy parecidas (no difieren en más de una unidad) la mediana y la media?
  2. ¿Qué significa lo que responda en la pregunta anterior, en relación a la distribución de los datos y la posición de la media y la mediana en el histograma?
  3. Compare la natalidad en su pueblo con la media de Puerto Rico.
  4. ¿Está la natalidad de su pueblo por debajo del primer cuartil?
  5. ¿Cuáles son los pueblos con la mayor y la menor natalidad?
  6. ¿Qué significa que un pueblo tenga una natalidad mayor que la percentila 95%?
  7. Réstele la desviación estándar a la media, y anote ese valor; súmele la desviación estándar a la media, y anote ese valor. ¿Cuántos pueblos tienen su valor de natalidad entre los dos valores anteriores?