En el ejercicio, se cargó la base de datos en un documento CSV.
data <- read.csv("Datos Educación_PIB_PR.csv", header = T)
En esta base de datos, se encontraron 3 columnas:
Municipios, Educación, y
PIB. Se decidió enfocarse en 2 columnas
específicamente, las de Educación y
PIB para este ejercicio. A continuación, se encuentran
los cálculos de algunas estadísticas descriptivas:
La desviación estándar:
sd <- apply(data[,2:3],2,sd)
sd
## Educacion PIB
## 12.18042 3560.66435
Se aplicó un diagrama de dispersión de la paquetería highcharter,
utlizando la Educación como la variable x, y el PIB
como la variable y.
library(highcharter)
highchart() %>% hc_xAxis(categories = data$Educacion) %>% hc_add_series(data = data$PIB, type = "scatter")
También se calculó la correlación, utlizando la función
cor()
.
cor <- cor(data$Educacion, data$PIB)
Una correlación de 0.07 es considerada débil.
Se aplicó una grafica de la paquetería ggplot2, en donde pudimos
aplicar una regresión lineal simple. Como en el diagrama de dispersión,
la Educación es la variable x, y el PIB la variable
y.
library(ggplot2)
ggplot(data, aes(x = Educacion, y = PIB)) +
geom_point(alpha = 0.6) +
geom_smooth(method = "lm", color = "blue") +
labs(title = "Relación entre la Educación y el PIB", x = "Educación", y = "PIB")

A través de los datos, se puede ver que no hay una correlación entre
la educación de las personas y el PIB. La correlación de 0.07 indica que
las variables no se influyen fuertemente. En esta base de datos se
pudieron ver varios “outliers”, específicamente en la gráfica de
ggplot.