En el ejercicio, se cargó la base de datos en un documento CSV.

data <- read.csv("Datos Educación_PIB_PR.csv", header = T)

En esta base de datos, se encontraron 3 columnas: Municipios, Educación, y PIB. Se decidió enfocarse en 2 columnas específicamente, las de Educación y PIB para este ejercicio. A continuación, se encuentran los cálculos de algunas estadísticas descriptivas:

La desviación estándar:

sd <- apply(data[,2:3],2,sd)
sd
##  Educacion        PIB 
##   12.18042 3560.66435

La media:

mean <- apply(data[,2:3],2,mean)
mean
##   Educacion         PIB 
##    24.57179 14580.53846

La mediana:

median <- apply(data[,2:3],2,median)
median
## Educacion       PIB 
##     22.75  14065.00

Se aplicó un diagrama de dispersión de la paquetería highcharter, utlizando la Educación como la variable x, y el PIB como la variable y.

library(highcharter)
highchart() %>% hc_xAxis(categories = data$Educacion) %>% hc_add_series(data = data$PIB, type = "scatter")

También se calculó la correlación, utlizando la función cor().

cor <- cor(data$Educacion, data$PIB)

Una correlación de 0.07 es considerada débil.

Se aplicó una grafica de la paquetería ggplot2, en donde pudimos aplicar una regresión lineal simple. Como en el diagrama de dispersión, la Educación es la variable x, y el PIB la variable y.

library(ggplot2)
ggplot(data, aes(x = Educacion, y = PIB)) +
  geom_point(alpha = 0.6) +
  geom_smooth(method = "lm", color = "blue") +
  labs(title = "Relación entre la Educación y el PIB", x = "Educación", y = "PIB")

A través de los datos, se puede ver que no hay una correlación entre la educación de las personas y el PIB. La correlación de 0.07 indica que las variables no se influyen fuertemente. En esta base de datos se pudieron ver varios “outliers”, específicamente en la gráfica de ggplot.