El presente ejercicio explora la relación entre el nivel educativo y el ingreso en los municipios de Puerto Rico, utilizando datos simulados a partir de la estructura de la American Community Survey (ACS). El objetivo es analizar si el porcentaje de población con bachillerato o más influye en el ingreso per cápita. Para ello se calcularon estadísticas descriptivas, se elaboró un diagrama de dispersión con su correlación y finalmente se ajustó un modelo de regresión lineal simple.

Carga el CSV y revisa su estructura.

data <- read.csv("Educacion.csv")

Calcula estadísticas descriptivas (media, mediana y desviación estándar) para ambas variables.

lm <- lm( data$Bachillerato_o_mas ~ data$Ingreso_per_capita, data = data)
summary(lm)
## 
## Call:
## lm(formula = data$Bachillerato_o_mas ~ data$Ingreso_per_capita, 
##     data = data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -17.874  -9.306  -2.580   7.975  30.804 
## 
## Coefficients:
##                          Estimate Std. Error t value Pr(>|t|)    
## (Intercept)             2.105e+01  5.873e+00   3.584 0.000594 ***
## data$Ingreso_per_capita 2.416e-04  3.914e-04   0.617 0.538940    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 12.23 on 76 degrees of freedom
## Multiple R-squared:  0.004988,   Adjusted R-squared:  -0.008105 
## F-statistic: 0.381 on 1 and 76 DF,  p-value: 0.5389

Aunque se calculó correctamente la regresión, los resultados muestran que no hay una relación lineal significativa entre ingreso per cápita y porcentaje de población con bachillerato en los municipios simulados. El intercepto sugiere un nivel educativo medio cercano al 21 % aun cuando el ingreso fuera cero, y la pendiente, además de ser diminuta, no difiere estadísticamente de cero. Por lo que veremos ahora graficamente como se ve esta regrecion.

Haz un diagrama de dispersión y analiza su correlación.

plot(data$Bachillerato_o_mas, data$Ingreso_per_capita,
     main = "Relacion entre Educaicon e Ingreso",
     xlab = "Porcentaje con Bachillerato o mas",
     ylab = "Ingreso per Capita",
     pch = 19,
     col = "pink")

cor(data$Bachillerato_o_mas,data$Ingreso_per_capita)
## [1] 0.07062226
Ingreso_per_capita <- data$Ingreso_per_capita
Bachillerato_o_mas <- data$Bachillerato_o_mas

En esta etapa descriptiva, los datos sugieren que mayor porcentaje de población con bachillerato no se asocia de manera lineal con mayores ingresos per cápita en los municipios simulados. Por tanto, antes de cualquier modelo, ya se anticipa que una regresión lineal no tendrá un poder explicativo significativo.

Ajusta una regresión lineal simple.

1) Ajuste y predicciones (línea + IC de confianza)

grid <- data.frame(Bachillerato_o_mas = seq(min(Bachillerato_o_mas), max(Bachillerato_o_mas), length.out = 78))
pred <- cbind(grid, round(predict(lm, newdata = grid, interval = "confidence", level = 0.95),2))
names(pred)[2:4] <- c("yhat", "li", "ls")

2) Gráfico

library(highcharter)
## Registered S3 method overwritten by 'quantmod':
##   method            from
##   as.zoo.data.frame zoo
highchart() %>%
  hc_add_series(
    data = list_parse2(data.frame(x = Bachillerato_o_mas, y = Ingreso_per_capita)),
    type = "scatter",
    name = "Observado",
    marker = list(radius = 4)
  ) %>%
  # Recta de regresión
  hc_add_series(
    data = list_parse2(data.frame(x = pred$Bachillerato_o_mas, y = pred$yhat)),
    type = "line",
    name = "RLS",
    zIndex = 2
  ) %>%
  # IC 95% confianza 
  hc_add_series(
    data = list_parse2(data.frame(x = pred$Bachillerato_o_mas, low = pred$li, high = pred$ls)),
    type = "arearange",
    name = "IC 95%",
    zIndex = 0
  )

Verificamos nueva correlacion

cor(data$Bachillerato_o_mas, data$Ingreso_per_capita)
## [1] 0.07062226
summary(lm)$r.squared
## [1] 0.004987503
cor(data$Ingreso_per_capita, fitted(lm))
## [1] 1

El modelo se ajustó correctamente, pero confirma lo ya visto en la correlación y en el resumen del modelo: no existe una relación lineal significativa entre el porcentaje de población con bachillerato y el ingreso per cápita en los municipios simulados. La pendiente prácticamente nula y el R² cercano a cero indican que el nivel educativo no explica la variación en los ingresos dentro de estos datos.

Interpreta la salida del modelo.

En el modelo lineal se definió Y como el ingreso per cápita de cada municipio y X como el porcentaje de población con bachillerato o más, con la ecuación Y = B0 + B1 X. El coeficiente B0 (intercepto) representa el ingreso esperado cuando el porcentaje con bachillerato es cero, mientras que B1 (pendiente) indica el cambio promedio en ingreso por cada punto porcentual adicional de bachillerato. Se plantearon las hipótesis nula (H0: B1 = 0), que establece que no existe relación lineal entre educación e ingreso, y alternativa (H1: B1 ≠ 0), que propone una relación significativa. Los resultados mostraron una correlación muy baja (r ≈ 0.07) y un coeficiente de determinación mínimo (R² ≈ 0.005), junto con un valor p elevado para B1, por lo que no se rechaza la hipótesis nula. En conclusión, aunque el modelo se ajustó correctamente, los datos no ofrecen evidencia estadística de que el nivel educativo prediga el ingreso per cápita en los municipios de Puerto Rico.