Datos y Correlaciones

Explora los datos y realiza un análisis de correlaciones

## 'data.frame':    78 obs. of  7 variables:
##  $ municipio  : chr  "Adjuntas" "Aguada" "Aguadilla" "Aguas Buenas" ...
##  $ ing_pc     : int  10225 12755 7709 9413 17074 13032 17144 19549 13987 4670 ...
##  $ bach_pct   : num  15.6 21 21.3 20 28.4 ...
##  $ desem_pct  : num  9.89 9.25 17.13 9.98 13.04 ...
##  $ banda_pct  : num  25.7 34.5 28.4 29.7 35.8 ...
##  $ pobreza_pct: num  28.9 24.1 30.3 31.5 10.1 ...
##  $ tam_hogar  : num  3.63 3.02 3.03 3.01 2.63 2.68 3.29 3.08 2.8 3.11 ...
##    ing_pc bach_pct desem_pct banda_pct pobreza_pct tam_hogar
## 1   10225    15.56      9.89     25.70       28.90      3.63
## 2   12755    21.03      9.25     34.47       24.14      3.02
## 3    7709    21.31     17.13     28.41       30.27      3.03
## 4    9413    19.97      9.98     29.70       31.47      3.01
## 5   17074    28.35     13.04     35.77       10.07      2.63
## 6   13032    27.66     10.44     41.08       27.05      2.68
## 7   17144    33.63     15.81     33.60       14.91      3.29
## 8   19549    33.39     12.23     41.88       10.46      3.08
## 9   13987    27.97     12.20     42.24       18.57      2.80
## 10   4670     9.56     13.39     23.10       35.66      3.11
## 11   7826    20.28      6.61     31.27       27.99      3.49
## 12   9455    30.46     16.32     31.14       29.96      3.06
## 13  11977    32.21      9.70     43.68       18.11      2.50
## 14  16857    29.87     13.54     30.24       22.52      3.22
## 15  10763    21.16     12.06     35.65       29.68      2.39
## 16  10068    28.25     15.09     22.77       27.51      3.43
## 17  18765    37.32      9.38     40.15       14.38      3.28
## 18  11356    24.45      8.77     33.21       18.19      3.09
## 19  11866    24.70     10.35     34.21       21.30      2.44
## 20  17410    41.29      8.93     54.28       10.28      3.08
## 21  19887    39.14      5.36     47.17        9.89      2.97
## 22  12094    28.82     11.49     35.04       29.93      3.24
## 23  13521    25.60     17.74     32.94       23.25      3.06
## 24  20748    29.97     12.28     42.54       12.78      3.48
## 25  10849    20.38     12.38     23.86       26.93      2.42
## 26  20553    34.50     14.55     45.75       15.55      3.18
## 27  11875    26.23     11.84     32.44       17.18      2.78
## 28   9589    15.90     11.66     25.32       36.06      3.93
## 29   5026    16.19     12.83     29.49       36.37      3.00
## 30  14058    29.58     13.70     38.59       20.24      3.48
## 31  18719    28.88     16.00     45.19        9.94      3.12
## 32  16914    33.25     14.58     44.80       18.78      3.08
## 33   8996    18.99     11.14     22.00       27.27      2.97
## 34   1678    14.80     15.88     13.21       34.47      2.97
## 35  14543    29.45     12.94     44.20       23.24      2.77
## 36  10265    26.64     14.63     39.55       22.16      3.49
## 37  13097    26.29     18.59     34.51       20.93      3.01
## 38  18147    35.71     12.51     33.19       13.51      2.87
## 39  11235    23.37      5.57     40.96       26.37      2.71
## 40  12503    21.33     10.95     36.96       29.69      2.66
## 41  10899    25.43     10.90     36.17       38.97      3.27
## 42   5396    19.17     13.99     27.17       28.45      2.70
## 43   9264    24.80     16.60     30.88       23.62      2.11
## 44   5407    11.50     12.31     21.35       31.47      3.64
## 45  10136    16.51      9.86     33.60       24.53      2.97
## 46  11715    25.92     14.54     43.18       27.15      2.26
## 47  21698    38.35      7.42     47.31       11.81      3.70
## 48   7220    18.12     13.10     32.08       37.39      3.65
## 49  13754    27.41     10.41     38.81       25.17      2.60
## 50  15326    21.32     10.91     36.80       30.33      2.78
## 51  10546    20.01      8.06     28.08       30.10      3.13
## 52   9667    23.90      9.10     29.36       29.46      3.01
## 53   1348     8.23     15.76     24.24       44.86      2.56
## 54  20219    38.94      8.00     48.45        8.97      3.20
## 55  15110    32.10      9.82     49.73       23.74      3.24
## 56  21067    35.63     12.97     50.75       14.61      3.28
## 57   8260    17.27      9.10     34.81       31.32      3.62
## 58  18192    28.61     11.48     37.95       19.98      2.75
## 59  14565    28.68     16.33     40.27       16.97      2.94
## 60   4158    11.53     12.31     19.01       43.07      2.73
## 61  10024    19.52      7.52     22.29       20.59      3.29
## 62   5503    15.48     17.69     21.17       37.92      2.81
## 63  10748    20.64     11.71     23.08       30.03      3.16
## 64  16101    32.26     10.58     34.15       24.64      2.61
## 65  11902    27.43     14.99     41.44       29.05      2.95
## 66  12045    23.54     11.78     28.44       26.69      2.65
## 67  11312    21.32     16.96     35.37       33.53      2.94
## 68   6610    18.72      6.00     27.60       31.53      3.31
## 69   5804    14.10     13.23     28.15       40.96      2.92
## 70   9900    22.19     12.33     30.33       25.57      3.66
## 71   4628    15.49      4.52     30.70       34.25      3.12
## 72  15394    26.81      9.60     42.99       27.97      3.20
## 73  20426    35.72     11.36     45.30        6.72      2.81
## 74  13347    27.99     13.51     38.62       27.36      3.79
## 75   7111    21.95      9.55     31.95       29.44      2.77
## 76  16678    30.36     12.85     44.88       23.67      2.62
## 77   5339    13.89      7.90     25.59       36.92      3.04
## 78   9944    25.79     15.00     38.77       23.70      2.84
## Installing package into '/cloud/lib/x86_64-pc-linux-gnu-library/4.5'
## (as 'lib' is unspecified)
## corrplot 0.95 loaded

La gráfica de correlaciones muestra que el ingreso per cápita se asocia fuertemente de manera positiva con el porcentaje de bachillerato (r = 0.89) y con la banda ancha (r = 0.78). En contraste, la pobreza tiene una correlación negativa muy marcada (r = −0.85), lo que indica que a mayor pobreza, menor ingreso. Las demás variables, como desempleo (r = −0.07) y tamaño del hogar (r = 0.06), presentan relaciones muy débiles y poco relevantes.

Modelo por Subconjuntos

Ajusta un modelo por subconjuntos comparando el 𝐵𝐼𝐶 y R^2 ajustado.

## 
## Call:
## lm(formula = saturado, data = data_rlm.)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -4585.2 -1168.6  -125.4  1208.2  5224.9 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  3757.23    3338.95   1.125 0.264211    
## bach_pct      264.14      68.73   3.843 0.000259 ***
## desem_pct      20.05      74.85   0.268 0.789533    
## banda_pct     125.32      45.30   2.766 0.007198 ** 
## pobreza_pct  -210.64      47.68  -4.417 3.45e-05 ***
## tam_hogar     816.67     622.90   1.311 0.193997    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1982 on 72 degrees of freedom
## Multiple R-squared:  0.8457, Adjusted R-squared:  0.835 
## F-statistic: 78.93 on 5 and 72 DF,  p-value: < 2.2e-16
## Installing package into '/cloud/lib/x86_64-pc-linux-gnu-library/4.5'
## (as 'lib' is unspecified)

## 
## Call:
## lm(formula = f_final, data = data_rlm.)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -4644.3  -995.6   -35.5  1360.0  5031.6 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  6481.30    2522.94   2.569 0.012215 *  
## bach_pct      270.45      67.62   3.999 0.000149 ***
## banda_pct     119.54      44.32   2.697 0.008657 ** 
## pobreza_pct  -209.43      47.36  -4.422  3.3e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1979 on 74 degrees of freedom
## Multiple R-squared:  0.842,  Adjusted R-squared:  0.8356 
## F-statistic: 131.5 on 3 and 74 DF,  p-value: < 2.2e-16

En la gráfica de R² ajustado se ve que el modelo con 4 predictores sube un poco más que el de 3, pero la diferencia es mínima, casi no cambia. En la gráfica de BIC, que sirve para medir qué tan buen balance hay entre explicar bien y no usar demasiadas variables, el valor más bajo está en el modelo con 3 predictores. Eso significa que el de 3 es el mejor punto: explica prácticamente lo mismo que el de 4, pero es más simple y eficiente.

Ajusta Modelos Paso a Paso

Ajusta modelos paso a paso (forward, backward, both) usando 𝐵𝐼𝐶

## Start:  AIC=1328.25
## ing_pc ~ 1
## 
##               Df  Sum of Sq        RSS    AIC
## + bach_pct     1 1438089133  395800604 1213.0
## + pobreza_pct  1 1331610382  502279355 1231.6
## + banda_pct    1 1121735582  712154155 1258.8
## <none>                      1833889736 1328.2
## + desem_pct    1    8354792 1825534944 1332.2
## + tam_hogar    1    5821235 1828068502 1332.4
## 
## Step:  AIC=1213.01
## ing_pc ~ bach_pct
## 
##               Df Sum of Sq       RSS    AIC
## + pobreza_pct  1  77610119 318190485 1200.3
## + banda_pct    1  29535087 366265517 1211.3
## <none>                     395800604 1213.0
## + tam_hogar    1   4923053 390877551 1216.4
## + desem_pct    1   2817657 392982947 1216.8
## 
## Step:  AIC=1200.34
## ing_pc ~ bach_pct + pobreza_pct
## 
##             Df Sum of Sq       RSS    AIC
## + banda_pct  1  28478762 289711723 1197.4
## <none>                   318190485 1200.3
## + tam_hogar  1   4915101 313275383 1203.5
## + desem_pct  1    672748 317517737 1204.5
## 
## Step:  AIC=1197.39
## ing_pc ~ bach_pct + pobreza_pct + banda_pct
## 
##             Df Sum of Sq       RSS    AIC
## <none>                   289711723 1197.4
## + tam_hogar  1   6489907 283221816 1200.0
## + desem_pct  1     17073 289694650 1201.7
## 
## Call:
## lm(formula = ing_pc ~ bach_pct + pobreza_pct + banda_pct, data = data_rlm.)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -4644.3  -995.6   -35.5  1360.0  5031.6 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  6481.30    2522.94   2.569 0.012215 *  
## bach_pct      270.45      67.62   3.999 0.000149 ***
## pobreza_pct  -209.43      47.36  -4.422  3.3e-05 ***
## banda_pct     119.54      44.32   2.697 0.008657 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1979 on 74 degrees of freedom
## Multiple R-squared:  0.842,  Adjusted R-squared:  0.8356 
## F-statistic: 131.5 on 3 and 74 DF,  p-value: < 2.2e-16
## Start:  AIC=1204.26
## ing_pc ~ bach_pct + desem_pct + banda_pct + pobreza_pct + tam_hogar
## 
##               Df Sum of Sq       RSS    AIC
## - desem_pct    1    282063 283221816 1200.0
## - tam_hogar    1   6754897 289694650 1201.7
## <none>                     282939753 1204.3
## - banda_pct    1  30072895 313012647 1207.8
## - bach_pct     1  58048450 340988202 1214.5
## - pobreza_pct  1  76685336 359625088 1218.6
## 
## Step:  AIC=1199.98
## ing_pc ~ bach_pct + banda_pct + pobreza_pct + tam_hogar
## 
##               Df Sum of Sq       RSS    AIC
## - tam_hogar    1   6489907 289711723 1197.4
## <none>                     283221816 1200.0
## - banda_pct    1  30053567 313275383 1203.5
## - bach_pct     1  61021640 344243456 1210.8
## - pobreza_pct  1  76514196 359736013 1214.3
## 
## Step:  AIC=1197.39
## ing_pc ~ bach_pct + banda_pct + pobreza_pct
## 
##               Df Sum of Sq       RSS    AIC
## <none>                     289711723 1197.4
## - banda_pct    1  28478762 318190485 1200.3
## - bach_pct     1  62624091 352335814 1208.3
## - pobreza_pct  1  76553794 366265517 1211.3
## 
## Call:
## lm(formula = ing_pc ~ bach_pct + banda_pct + pobreza_pct, data = data_rlm.)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -4644.3  -995.6   -35.5  1360.0  5031.6 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  6481.30    2522.94   2.569 0.012215 *  
## bach_pct      270.45      67.62   3.999 0.000149 ***
## banda_pct     119.54      44.32   2.697 0.008657 ** 
## pobreza_pct  -209.43      47.36  -4.422  3.3e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1979 on 74 degrees of freedom
## Multiple R-squared:  0.842,  Adjusted R-squared:  0.8356 
## F-statistic: 131.5 on 3 and 74 DF,  p-value: < 2.2e-16
## Start:  AIC=1328.25
## ing_pc ~ 1
## 
##               Df  Sum of Sq        RSS    AIC
## + bach_pct     1 1438089133  395800604 1213.0
## + pobreza_pct  1 1331610382  502279355 1231.6
## + banda_pct    1 1121735582  712154155 1258.8
## <none>                      1833889736 1328.2
## + desem_pct    1    8354792 1825534944 1332.2
## + tam_hogar    1    5821235 1828068502 1332.4
## 
## Step:  AIC=1213.01
## ing_pc ~ bach_pct
## 
##               Df  Sum of Sq        RSS    AIC
## + pobreza_pct  1   77610119  318190485 1200.3
## + banda_pct    1   29535087  366265517 1211.3
## <none>                       395800604 1213.0
## + tam_hogar    1    4923053  390877551 1216.4
## + desem_pct    1    2817657  392982947 1216.8
## - bach_pct     1 1438089133 1833889736 1328.2
## 
## Step:  AIC=1200.34
## ing_pc ~ bach_pct + pobreza_pct
## 
##               Df Sum of Sq       RSS    AIC
## + banda_pct    1  28478762 289711723 1197.4
## <none>                     318190485 1200.3
## + tam_hogar    1   4915101 313275383 1203.5
## + desem_pct    1    672748 317517737 1204.5
## - pobreza_pct  1  77610119 395800604 1213.0
## - bach_pct     1 184088870 502279355 1231.6
## 
## Step:  AIC=1197.39
## ing_pc ~ bach_pct + pobreza_pct + banda_pct
## 
##               Df Sum of Sq       RSS    AIC
## <none>                     289711723 1197.4
## + tam_hogar    1   6489907 283221816 1200.0
## - banda_pct    1  28478762 318190485 1200.3
## + desem_pct    1     17073 289694650 1201.7
## - bach_pct     1  62624091 352335814 1208.3
## - pobreza_pct  1  76553794 366265517 1211.3
## 
## Call:
## lm(formula = ing_pc ~ bach_pct + pobreza_pct + banda_pct, data = data_rlm.)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -4644.3  -995.6   -35.5  1360.0  5031.6 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  6481.30    2522.94   2.569 0.012215 *  
## bach_pct      270.45      67.62   3.999 0.000149 ***
## pobreza_pct  -209.43      47.36  -4.422  3.3e-05 ***
## banda_pct     119.54      44.32   2.697 0.008657 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1979 on 74 degrees of freedom
## Multiple R-squared:  0.842,  Adjusted R-squared:  0.8356 
## F-statistic: 131.5 on 3 and 74 DF,  p-value: < 2.2e-16

Análisis

Comparar los modelos obtenidos y justificar cuál sería el mejor.

Al comparar los modelos ajustados, se observa que el modelo saturado, que incluye todas las variables (bach_pct, desem_pct, banda_pct, pobreza_pct y tam_hogar), obtuvo un R² ajustado de 0.835 y un AIC de 1204.26. El R² ajustado nos dice qué porcentaje de la variación en el ingreso per cápita logra explicar el modelo, tomando en cuenta cuántas variables usamos; en este caso explica cerca del 84%, lo cual es bastante bueno. Sin embargo, este modelo incluye variables que no resultaron significativas, lo que lo hace más complejo de lo necesario y se refleja también en un BIC más alto. El BIC funciona parecido al AIC, pero penaliza todavía más a los modelos con muchas variables, de modo que valores más altos significan un peor balance entre ajuste y simplicidad. En contraste, el modelo reducido, que seleccionaron tanto los subconjuntos como los métodos paso a paso, quedó únicamente con tres variables: bach_pct, banda_pct y pobreza_pct. Este modelo alcanzó un R² ajustado prácticamente igual (0.8356), lo que quiere decir que explica la misma cantidad de variación que el modelo saturado. Además, logró un AIC menor (1197.4). El AIC (Criterio de Información de Akaike) es una medida que compara qué tan bien se ajusta un modelo a los datos y al mismo tiempo qué tan sencillo es; por eso, un valor más bajo indica un mejor equilibrio. Como este modelo también tuvo el BIC más bajo, queda claro que logra explicar lo mismo con menos variables y con un balance mucho más favorable entre ajuste y complejidad. Por lo tanto, el mejor modelo es el que incluye únicamente bach_pct, banda_pct y pobreza_pct, ya que tiene un R² ajustado alto, el AIC y BIC más bajos, y es más simple y eficiente sin perder capacidad de explicación.

Interpretación de los Coeficientes del Modelo Final.

Intercepto (6481.30, p = 0.012): es el ingreso base que predice el modelo cuando todas las demás variables son cero. Aunque no es un valor realista, sirve como referencia. Bachillerato (%): 270.45 (p < 0.001): cada aumento de 1% en la población con bachillerato o más está asociado con un incremento promedio de 270 dólares en el ingreso per cápita. Pobreza (%): –209.43 (p < 0.001): cada aumento de 1% en la población bajo pobreza está asociado con una reducción promedio de 209 dólares en el ingreso per cápita. Banda ancha (%): 119.54 (p = 0.009): cada aumento de 1% en los hogares con acceso a internet de banda ancha está asociado con un incremento promedio de 120 dólares en el ingreso per cápita. Todos los coeficientes son estadísticamente significativos (p < 0.05), lo que confirma que estas tres variables influyen en el ingreso per cápita.

Conclusión

El análisis de regresión lineal múltiple ayudó a encontrar qué factores explican mejor el ingreso per cápita en los municipios de Puerto Rico. Los tres métodos de selección llegaron al mismo modelo, que explica más del 83% de la variación en el ingreso. Los resultados muestran que los municipios con más personas con bachillerato y mayor acceso a internet tienden a tener ingresos más altos, mientras que un mayor nivel de pobreza reduce los ingresos de manera significativa. En conclusión, el trabajo demuestra que mejorar el acceso a la educación, reducir la pobreza y ampliar la conectividad digital son claves para aumentar el ingreso per cápita y apoyar el desarrollo económico en los municipios del país.

Referencias

Instituto de Estadísticas de Puerto Rico. (s.f). Censo de Puerto Rico. https://censo.estadisticas.pr/