Datos y Correlaciones
Explora los datos y realiza un análisis de correlaciones
## 'data.frame': 78 obs. of 7 variables:
## $ municipio : chr "Adjuntas" "Aguada" "Aguadilla" "Aguas Buenas" ...
## $ ing_pc : int 10225 12755 7709 9413 17074 13032 17144 19549 13987 4670 ...
## $ bach_pct : num 15.6 21 21.3 20 28.4 ...
## $ desem_pct : num 9.89 9.25 17.13 9.98 13.04 ...
## $ banda_pct : num 25.7 34.5 28.4 29.7 35.8 ...
## $ pobreza_pct: num 28.9 24.1 30.3 31.5 10.1 ...
## $ tam_hogar : num 3.63 3.02 3.03 3.01 2.63 2.68 3.29 3.08 2.8 3.11 ...
## ing_pc bach_pct desem_pct banda_pct pobreza_pct tam_hogar
## 1 10225 15.56 9.89 25.70 28.90 3.63
## 2 12755 21.03 9.25 34.47 24.14 3.02
## 3 7709 21.31 17.13 28.41 30.27 3.03
## 4 9413 19.97 9.98 29.70 31.47 3.01
## 5 17074 28.35 13.04 35.77 10.07 2.63
## 6 13032 27.66 10.44 41.08 27.05 2.68
## 7 17144 33.63 15.81 33.60 14.91 3.29
## 8 19549 33.39 12.23 41.88 10.46 3.08
## 9 13987 27.97 12.20 42.24 18.57 2.80
## 10 4670 9.56 13.39 23.10 35.66 3.11
## 11 7826 20.28 6.61 31.27 27.99 3.49
## 12 9455 30.46 16.32 31.14 29.96 3.06
## 13 11977 32.21 9.70 43.68 18.11 2.50
## 14 16857 29.87 13.54 30.24 22.52 3.22
## 15 10763 21.16 12.06 35.65 29.68 2.39
## 16 10068 28.25 15.09 22.77 27.51 3.43
## 17 18765 37.32 9.38 40.15 14.38 3.28
## 18 11356 24.45 8.77 33.21 18.19 3.09
## 19 11866 24.70 10.35 34.21 21.30 2.44
## 20 17410 41.29 8.93 54.28 10.28 3.08
## 21 19887 39.14 5.36 47.17 9.89 2.97
## 22 12094 28.82 11.49 35.04 29.93 3.24
## 23 13521 25.60 17.74 32.94 23.25 3.06
## 24 20748 29.97 12.28 42.54 12.78 3.48
## 25 10849 20.38 12.38 23.86 26.93 2.42
## 26 20553 34.50 14.55 45.75 15.55 3.18
## 27 11875 26.23 11.84 32.44 17.18 2.78
## 28 9589 15.90 11.66 25.32 36.06 3.93
## 29 5026 16.19 12.83 29.49 36.37 3.00
## 30 14058 29.58 13.70 38.59 20.24 3.48
## 31 18719 28.88 16.00 45.19 9.94 3.12
## 32 16914 33.25 14.58 44.80 18.78 3.08
## 33 8996 18.99 11.14 22.00 27.27 2.97
## 34 1678 14.80 15.88 13.21 34.47 2.97
## 35 14543 29.45 12.94 44.20 23.24 2.77
## 36 10265 26.64 14.63 39.55 22.16 3.49
## 37 13097 26.29 18.59 34.51 20.93 3.01
## 38 18147 35.71 12.51 33.19 13.51 2.87
## 39 11235 23.37 5.57 40.96 26.37 2.71
## 40 12503 21.33 10.95 36.96 29.69 2.66
## 41 10899 25.43 10.90 36.17 38.97 3.27
## 42 5396 19.17 13.99 27.17 28.45 2.70
## 43 9264 24.80 16.60 30.88 23.62 2.11
## 44 5407 11.50 12.31 21.35 31.47 3.64
## 45 10136 16.51 9.86 33.60 24.53 2.97
## 46 11715 25.92 14.54 43.18 27.15 2.26
## 47 21698 38.35 7.42 47.31 11.81 3.70
## 48 7220 18.12 13.10 32.08 37.39 3.65
## 49 13754 27.41 10.41 38.81 25.17 2.60
## 50 15326 21.32 10.91 36.80 30.33 2.78
## 51 10546 20.01 8.06 28.08 30.10 3.13
## 52 9667 23.90 9.10 29.36 29.46 3.01
## 53 1348 8.23 15.76 24.24 44.86 2.56
## 54 20219 38.94 8.00 48.45 8.97 3.20
## 55 15110 32.10 9.82 49.73 23.74 3.24
## 56 21067 35.63 12.97 50.75 14.61 3.28
## 57 8260 17.27 9.10 34.81 31.32 3.62
## 58 18192 28.61 11.48 37.95 19.98 2.75
## 59 14565 28.68 16.33 40.27 16.97 2.94
## 60 4158 11.53 12.31 19.01 43.07 2.73
## 61 10024 19.52 7.52 22.29 20.59 3.29
## 62 5503 15.48 17.69 21.17 37.92 2.81
## 63 10748 20.64 11.71 23.08 30.03 3.16
## 64 16101 32.26 10.58 34.15 24.64 2.61
## 65 11902 27.43 14.99 41.44 29.05 2.95
## 66 12045 23.54 11.78 28.44 26.69 2.65
## 67 11312 21.32 16.96 35.37 33.53 2.94
## 68 6610 18.72 6.00 27.60 31.53 3.31
## 69 5804 14.10 13.23 28.15 40.96 2.92
## 70 9900 22.19 12.33 30.33 25.57 3.66
## 71 4628 15.49 4.52 30.70 34.25 3.12
## 72 15394 26.81 9.60 42.99 27.97 3.20
## 73 20426 35.72 11.36 45.30 6.72 2.81
## 74 13347 27.99 13.51 38.62 27.36 3.79
## 75 7111 21.95 9.55 31.95 29.44 2.77
## 76 16678 30.36 12.85 44.88 23.67 2.62
## 77 5339 13.89 7.90 25.59 36.92 3.04
## 78 9944 25.79 15.00 38.77 23.70 2.84
## Installing package into '/cloud/lib/x86_64-pc-linux-gnu-library/4.5'
## (as 'lib' is unspecified)
## corrplot 0.95 loaded

La gráfica de correlaciones muestra que el ingreso per cápita se
asocia fuertemente de manera positiva con el porcentaje de bachillerato
(r = 0.89) y con la banda ancha (r = 0.78). En contraste, la pobreza
tiene una correlación negativa muy marcada (r = −0.85), lo que indica
que a mayor pobreza, menor ingreso. Las demás variables, como desempleo
(r = −0.07) y tamaño del hogar (r = 0.06), presentan relaciones muy
débiles y poco relevantes.
Modelo por Subconjuntos
Ajusta un modelo por subconjuntos comparando el 𝐵𝐼𝐶 y R^2
ajustado.
##
## Call:
## lm(formula = saturado, data = data_rlm.)
##
## Residuals:
## Min 1Q Median 3Q Max
## -4585.2 -1168.6 -125.4 1208.2 5224.9
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3757.23 3338.95 1.125 0.264211
## bach_pct 264.14 68.73 3.843 0.000259 ***
## desem_pct 20.05 74.85 0.268 0.789533
## banda_pct 125.32 45.30 2.766 0.007198 **
## pobreza_pct -210.64 47.68 -4.417 3.45e-05 ***
## tam_hogar 816.67 622.90 1.311 0.193997
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1982 on 72 degrees of freedom
## Multiple R-squared: 0.8457, Adjusted R-squared: 0.835
## F-statistic: 78.93 on 5 and 72 DF, p-value: < 2.2e-16
## Installing package into '/cloud/lib/x86_64-pc-linux-gnu-library/4.5'
## (as 'lib' is unspecified)

##
## Call:
## lm(formula = f_final, data = data_rlm.)
##
## Residuals:
## Min 1Q Median 3Q Max
## -4644.3 -995.6 -35.5 1360.0 5031.6
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 6481.30 2522.94 2.569 0.012215 *
## bach_pct 270.45 67.62 3.999 0.000149 ***
## banda_pct 119.54 44.32 2.697 0.008657 **
## pobreza_pct -209.43 47.36 -4.422 3.3e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1979 on 74 degrees of freedom
## Multiple R-squared: 0.842, Adjusted R-squared: 0.8356
## F-statistic: 131.5 on 3 and 74 DF, p-value: < 2.2e-16
En la gráfica de R² ajustado se ve que el modelo con 4 predictores
sube un poco más que el de 3, pero la diferencia es mínima, casi no
cambia. En la gráfica de BIC, que sirve para medir qué tan buen balance
hay entre explicar bien y no usar demasiadas variables, el valor más
bajo está en el modelo con 3 predictores. Eso significa que el de 3 es
el mejor punto: explica prácticamente lo mismo que el de 4, pero es más
simple y eficiente.
Ajusta Modelos Paso a Paso
Ajusta modelos paso a paso (forward, backward, both) usando 𝐵𝐼𝐶
## Start: AIC=1328.25
## ing_pc ~ 1
##
## Df Sum of Sq RSS AIC
## + bach_pct 1 1438089133 395800604 1213.0
## + pobreza_pct 1 1331610382 502279355 1231.6
## + banda_pct 1 1121735582 712154155 1258.8
## <none> 1833889736 1328.2
## + desem_pct 1 8354792 1825534944 1332.2
## + tam_hogar 1 5821235 1828068502 1332.4
##
## Step: AIC=1213.01
## ing_pc ~ bach_pct
##
## Df Sum of Sq RSS AIC
## + pobreza_pct 1 77610119 318190485 1200.3
## + banda_pct 1 29535087 366265517 1211.3
## <none> 395800604 1213.0
## + tam_hogar 1 4923053 390877551 1216.4
## + desem_pct 1 2817657 392982947 1216.8
##
## Step: AIC=1200.34
## ing_pc ~ bach_pct + pobreza_pct
##
## Df Sum of Sq RSS AIC
## + banda_pct 1 28478762 289711723 1197.4
## <none> 318190485 1200.3
## + tam_hogar 1 4915101 313275383 1203.5
## + desem_pct 1 672748 317517737 1204.5
##
## Step: AIC=1197.39
## ing_pc ~ bach_pct + pobreza_pct + banda_pct
##
## Df Sum of Sq RSS AIC
## <none> 289711723 1197.4
## + tam_hogar 1 6489907 283221816 1200.0
## + desem_pct 1 17073 289694650 1201.7
##
## Call:
## lm(formula = ing_pc ~ bach_pct + pobreza_pct + banda_pct, data = data_rlm.)
##
## Residuals:
## Min 1Q Median 3Q Max
## -4644.3 -995.6 -35.5 1360.0 5031.6
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 6481.30 2522.94 2.569 0.012215 *
## bach_pct 270.45 67.62 3.999 0.000149 ***
## pobreza_pct -209.43 47.36 -4.422 3.3e-05 ***
## banda_pct 119.54 44.32 2.697 0.008657 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1979 on 74 degrees of freedom
## Multiple R-squared: 0.842, Adjusted R-squared: 0.8356
## F-statistic: 131.5 on 3 and 74 DF, p-value: < 2.2e-16
## Start: AIC=1204.26
## ing_pc ~ bach_pct + desem_pct + banda_pct + pobreza_pct + tam_hogar
##
## Df Sum of Sq RSS AIC
## - desem_pct 1 282063 283221816 1200.0
## - tam_hogar 1 6754897 289694650 1201.7
## <none> 282939753 1204.3
## - banda_pct 1 30072895 313012647 1207.8
## - bach_pct 1 58048450 340988202 1214.5
## - pobreza_pct 1 76685336 359625088 1218.6
##
## Step: AIC=1199.98
## ing_pc ~ bach_pct + banda_pct + pobreza_pct + tam_hogar
##
## Df Sum of Sq RSS AIC
## - tam_hogar 1 6489907 289711723 1197.4
## <none> 283221816 1200.0
## - banda_pct 1 30053567 313275383 1203.5
## - bach_pct 1 61021640 344243456 1210.8
## - pobreza_pct 1 76514196 359736013 1214.3
##
## Step: AIC=1197.39
## ing_pc ~ bach_pct + banda_pct + pobreza_pct
##
## Df Sum of Sq RSS AIC
## <none> 289711723 1197.4
## - banda_pct 1 28478762 318190485 1200.3
## - bach_pct 1 62624091 352335814 1208.3
## - pobreza_pct 1 76553794 366265517 1211.3
##
## Call:
## lm(formula = ing_pc ~ bach_pct + banda_pct + pobreza_pct, data = data_rlm.)
##
## Residuals:
## Min 1Q Median 3Q Max
## -4644.3 -995.6 -35.5 1360.0 5031.6
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 6481.30 2522.94 2.569 0.012215 *
## bach_pct 270.45 67.62 3.999 0.000149 ***
## banda_pct 119.54 44.32 2.697 0.008657 **
## pobreza_pct -209.43 47.36 -4.422 3.3e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1979 on 74 degrees of freedom
## Multiple R-squared: 0.842, Adjusted R-squared: 0.8356
## F-statistic: 131.5 on 3 and 74 DF, p-value: < 2.2e-16
## Start: AIC=1328.25
## ing_pc ~ 1
##
## Df Sum of Sq RSS AIC
## + bach_pct 1 1438089133 395800604 1213.0
## + pobreza_pct 1 1331610382 502279355 1231.6
## + banda_pct 1 1121735582 712154155 1258.8
## <none> 1833889736 1328.2
## + desem_pct 1 8354792 1825534944 1332.2
## + tam_hogar 1 5821235 1828068502 1332.4
##
## Step: AIC=1213.01
## ing_pc ~ bach_pct
##
## Df Sum of Sq RSS AIC
## + pobreza_pct 1 77610119 318190485 1200.3
## + banda_pct 1 29535087 366265517 1211.3
## <none> 395800604 1213.0
## + tam_hogar 1 4923053 390877551 1216.4
## + desem_pct 1 2817657 392982947 1216.8
## - bach_pct 1 1438089133 1833889736 1328.2
##
## Step: AIC=1200.34
## ing_pc ~ bach_pct + pobreza_pct
##
## Df Sum of Sq RSS AIC
## + banda_pct 1 28478762 289711723 1197.4
## <none> 318190485 1200.3
## + tam_hogar 1 4915101 313275383 1203.5
## + desem_pct 1 672748 317517737 1204.5
## - pobreza_pct 1 77610119 395800604 1213.0
## - bach_pct 1 184088870 502279355 1231.6
##
## Step: AIC=1197.39
## ing_pc ~ bach_pct + pobreza_pct + banda_pct
##
## Df Sum of Sq RSS AIC
## <none> 289711723 1197.4
## + tam_hogar 1 6489907 283221816 1200.0
## - banda_pct 1 28478762 318190485 1200.3
## + desem_pct 1 17073 289694650 1201.7
## - bach_pct 1 62624091 352335814 1208.3
## - pobreza_pct 1 76553794 366265517 1211.3
##
## Call:
## lm(formula = ing_pc ~ bach_pct + pobreza_pct + banda_pct, data = data_rlm.)
##
## Residuals:
## Min 1Q Median 3Q Max
## -4644.3 -995.6 -35.5 1360.0 5031.6
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 6481.30 2522.94 2.569 0.012215 *
## bach_pct 270.45 67.62 3.999 0.000149 ***
## pobreza_pct -209.43 47.36 -4.422 3.3e-05 ***
## banda_pct 119.54 44.32 2.697 0.008657 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1979 on 74 degrees of freedom
## Multiple R-squared: 0.842, Adjusted R-squared: 0.8356
## F-statistic: 131.5 on 3 and 74 DF, p-value: < 2.2e-16
Análisis
Comparar los modelos obtenidos y justificar cuál sería el
mejor.
Al comparar los modelos ajustados, se observa que el modelo
saturado, que incluye todas las variables (bach_pct, desem_pct,
banda_pct, pobreza_pct y tam_hogar), obtuvo un R² ajustado de 0.835 y un
AIC de 1204.26. El R² ajustado nos dice qué porcentaje de la variación
en el ingreso per cápita logra explicar el modelo, tomando en cuenta
cuántas variables usamos; en este caso explica cerca del 84%, lo cual es
bastante bueno. Sin embargo, este modelo incluye variables que no
resultaron significativas, lo que lo hace más complejo de lo necesario y
se refleja también en un BIC más alto. El BIC funciona parecido al AIC,
pero penaliza todavía más a los modelos con muchas variables, de modo
que valores más altos significan un peor balance entre ajuste y
simplicidad. En contraste, el modelo reducido, que seleccionaron tanto
los subconjuntos como los métodos paso a paso, quedó únicamente con tres
variables: bach_pct, banda_pct y pobreza_pct. Este modelo alcanzó un R²
ajustado prácticamente igual (0.8356), lo que quiere decir que explica
la misma cantidad de variación que el modelo saturado. Además, logró un
AIC menor (1197.4). El AIC (Criterio de Información de Akaike) es una
medida que compara qué tan bien se ajusta un modelo a los datos y al
mismo tiempo qué tan sencillo es; por eso, un valor más bajo indica un
mejor equilibrio. Como este modelo también tuvo el BIC más bajo, queda
claro que logra explicar lo mismo con menos variables y con un balance
mucho más favorable entre ajuste y complejidad. Por lo tanto, el mejor
modelo es el que incluye únicamente bach_pct, banda_pct y pobreza_pct,
ya que tiene un R² ajustado alto, el AIC y BIC más bajos, y es más
simple y eficiente sin perder capacidad de explicación.
Interpretación de los Coeficientes del Modelo Final.
Intercepto (6481.30, p = 0.012): es el ingreso base que predice el
modelo cuando todas las demás variables son cero. Aunque no es un valor
realista, sirve como referencia. Bachillerato (%): 270.45 (p <
0.001): cada aumento de 1% en la población con bachillerato o más está
asociado con un incremento promedio de 270 dólares en el ingreso per
cápita. Pobreza (%): –209.43 (p < 0.001): cada aumento de 1% en la
población bajo pobreza está asociado con una reducción promedio de 209
dólares en el ingreso per cápita. Banda ancha (%): 119.54 (p = 0.009):
cada aumento de 1% en los hogares con acceso a internet de banda ancha
está asociado con un incremento promedio de 120 dólares en el ingreso
per cápita. Todos los coeficientes son estadísticamente significativos
(p < 0.05), lo que confirma que estas tres variables influyen en el
ingreso per cápita.
Conclusión
El análisis de regresión lineal múltiple ayudó a encontrar qué
factores explican mejor el ingreso per cápita en los municipios de
Puerto Rico. Los tres métodos de selección llegaron al mismo modelo, que
explica más del 83% de la variación en el ingreso. Los resultados
muestran que los municipios con más personas con bachillerato y mayor
acceso a internet tienden a tener ingresos más altos, mientras que un
mayor nivel de pobreza reduce los ingresos de manera significativa. En
conclusión, el trabajo demuestra que mejorar el acceso a la educación,
reducir la pobreza y ampliar la conectividad digital son claves para
aumentar el ingreso per cápita y apoyar el desarrollo económico en los
municipios del país.