Aparentemente y bajo mi punto de vista, no se me ocurre ninguna relación que pueda tener la proporción de entranjeros sobre la población total en el 2017 con la edad mediana de la población total en el 2017. Trataremos de profundizar en el trabajo para ver si existe alguna relación entre estas dos variables o, si por el contrario no tienen ninguna.
Cargo los datos del fichero proporcionado para realizar el trabajo.
Elimino los datos de Total Nacional para evitar duplicidades en los datos.
Aquí filtro mis variables, para quedarme solo con los datos que a mi me interesan para mi trabajo.
Omitimos los datos NA ya que no nos sirven para nada.
Elimino las columnas de Periodo y Sexo, ya que sabemos que son para 2017 y para toda la población.
Cambio de nombre a las variables, para que sean más cómodos y evitar posibles errores.
EdMedPT | PropExtPT | |
---|---|---|
Min. :34.33 | Min. : 1.07 | |
1st Qu.:40.26 | 1st Qu.: 4.37 | |
Median :41.90 | Median : 8.16 | |
Mean :42.05 | Mean :10.48 | |
3rd Qu.:43.55 | 3rd Qu.:14.28 | |
Max. :51.86 | Max. :44.93 |
Podemos ver los valores mínimos y máximos de ambas variables, así como sus medias, medianas y los quartiles 1 y 3. Destaca la poca dispersión de la EdMedPT, todo se encuentra entre el 34.44 y el 51.86. Sin embargo la PropExtPT varía entre el 1.07 y el 44.93.
La función de densidad de la EdMedPT puede considerarse una distribución normal. Sin embargo la función de densidad de la PropExtPT sería una distribución normal asíntotica a la derecha.
En estos diagramas de caja podemos observar que la variabilidad y el rango intercuartílico es mayor en la variable “Proporción de extranjeros sobre la población total”, esto se puede interpretar como que los extranjeros se asientan más en unas zonas que otras lo que hace que su proporción según el municipio esté dispersa. Además, en esta variable encontramos posibles puntos atípicamente altos, sin embargo en la variable “Edad Mediana de la población total” podemos encontrar posibles puntos atípicamente altos y bajos, esta variable también se caracteriza por tener un rango intercuartílico muy pequeño, lo que nos indica la poca dispersión que tiene la variable.
Vamos a estimar el modelo, así podemos conocer sus estimadores, sus errores estándar y otros datos importantes como los p-valores o el estadístico F.
##
## Call:
## lm(formula = PropExtPT ~ EdMedPT, data = Datos1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -12.761 -5.264 -1.416 2.724 35.258
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 46.6329 6.1246 7.614 1.96e-13 ***
## EdMedPT -0.8597 0.1453 -5.915 7.16e-09 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 7.853 on 397 degrees of freedom
## Multiple R-squared: 0.08099, Adjusted R-squared: 0.07868
## F-statistic: 34.99 on 1 and 397 DF, p-value: 7.164e-09
Ahora vamos a hacer los diagramas de dispersión con MLS y loess. La estimación paramétrica “lm” incluye la hipótesis de linealidad y por lo tanto sus intervalos de confianza están bajo la Ho: linealidad. Sin embargo, la estimación no paramétrica “loess” no incluye la hipótesis de linealidad. Con ambas gráficas podemos comparar visualmente y podemos intuir si se cumple la hipótesis de linealidad o no.
Observamos que las bandas de confianza se van ensanchando, lo que puede ser un indicativo de que tenemos presencia de heterocedasticidad, que comprobaremos más adelante. Volviedo con la linealidad, podemos ver que la estimación “loess” permanece dentro de las bandas de confianza de la estimación “lm” que incluye linealidad. Por tanto, podemos intuir que la relación es lineal y no necesitamos ningún tipo de transformación en ninguna de las variables.Para confirmarlo, vamos a hacer el test reset, siendo la Ho: modelo lineal y un α=0.05.
##
## RESET test
##
## data: Modelo1
## RESET = 3.0085, df1 = 2, df2 = 395, p-value = 0.0505
El p-valor es > que α, por lo tanto no podemos rechazar la Ho y tomamos el modelo como lineal.
Lo primero que voy a realizar es la obtención de las gráficas de diagnóstico(Residuals vs Fitted, Normal Q-Q, Scale-Location yResiduals vs Leverage) y despúes comentaré cada una de ellas.
La gráfica Residuals vs Fitted sirve para comprobar si se cumple o no la hipótesis de esperanza condicional nula del término de error, es decir, si la forma funcional elegida es la correcta o no. Al observar esta gráfica, los datos parecen marcar una relación lineal entre “Proporción de entranjeros sobre la población total en el 2017” y “Edad mediana de la población total en el año 2017”, y los puntos parecen estar distribuidos aleatoriamente sobre la línea, sin observar tendencias no lineales o cambios en la variabilidad. También vemos que la línea roja (valor promedio de los residuos en cada valor de valor ajustado) es prácticamente plana. Esto nos dice que no hay una tendencia no lineal discernible a los residuos. Además, los residuos parecen ser igualmente variables en todo el rango de valores ajustados y no hay indicación de varianza no constante.Por lo que podemos concluir que se cumple la hipótesis de esperanza condicional nula del término de error E=[Ɛi/xi]=0
La gráfica Normal Q-Q sirve oara comprobar el cumplimiento de la hipótesis de normalidad en la distribución de las perturbaciones. Si tenemos normalidad, a la hora de hacer inferencia podremos usar los estadísticos con distribuciones t-student o F.snédecor estándar. Por el contrario, si no se cumple esta hipótesis de normalidad no podríamos utilizar las distribuciones anteriores y tendríamos que hacer inferencia basándonos en la distribución asintótica de los estimadores, una distribución asíntotica normal. Si observamos la gráfica, vemos como los puntos se alejan de la recta, especialmente a la derecha del gráfico. Por tanto, no se cumple la hipótisis de normalidad, ya que nuestra distribución presenta una asimetría positiva (la cola a la derecha de la media es más larga que la izquierda).
La gráfica Scale-Location sirve para comprobar el cumplimiento de la hipótesis de homocedasticidad. Si tenemos homocedasticidad es válida la inferencia con los estimadores habituales de los errores estándar de los coeficientes estimados. Sin embargo, si tenemos heterocedasticidad esto no es válido y tendremos que utilizar los estimadores robustos de los errores estándar. Si observamos la gráfica podemos detectar presencia de heterocedasticidad porque la línea roja es claramente ascendente, si tuviesemos homocedasticidad esta línea deería de ser prácticamente horizontal.
Para comprobar definitivamente que tenemos heterocedasticidad vamos a realizar el contraste de Breusch-Pagan siendo nuestra Ho: Homocedastididad y α=0.05
##
## studentized Breusch-Pagan test
##
## data: Modelo1
## BP = 5.6925, df = 1, p-value = 0.01704
Como preveíamos, el p-valor es menor que α. Por tanto, rechazamos Ho y encontramos con heterocedasticidad por lo que tendremos que usar los estimadores robustos (vcovHC). Nos va a cambiar los erróres estándar y por lo tanto nos cambiará los estadísticos t y F.
Cabe destacar que si α=0,01 ya no podríamos rechazar Ho. Es decir, para un nivel de confianza del 99% no podríamos asegurar la existencia de heterocedasticidad, sin embargo para una confianza del 95% si la podríamos asegurar. Como el 95% ya es un nivel de confianza alto, consideraré que existe heterocedasticidad y utilizaré los estimadores robustos (vcovHC)
## 1 2 3 4 5
## 4.121256426 -0.138018868 -0.066041945 -0.839297045 -0.669192253
## 6 7 8 9 10
## -0.820933330 -0.219210174 -1.365194831 0.669561656 -0.558651543
## 11 12 13 14 15
## -0.564918986 -0.442499913 0.166518930 0.013831796 -0.402528567
## 16 17 18 19 20
## -0.987885438 -0.019328205 -0.642551770 -0.441812907 -0.306213604
## 21 22 23 24 25
## 0.895505328 -0.745400400 1.354753178 0.323027268 -1.399696921
## 26 27 28 29 30
## -0.660346665 0.211845474 -0.454720038 -0.295061694 0.476229121
## 31 32 33 34 35
## 1.112964731 1.436079975 3.031036556 -0.117846867 -0.942390196
## 36 37 38 39 40
## 0.553075500 -1.092535547 -0.865839452 0.012991210 0.021910487
## 41 42 43 44 45
## -1.288950294 1.044275397 -0.700115931 3.123293404 0.079098734
## 46 47 48 49 50
## 0.365068514 -1.221860313 -0.804469487 -1.021210041 -0.730905302
## 51 52 53 54 55
## -0.145929505 -0.170055590 0.216538887 0.594718327 -1.021462469
## 56 57 58 59 60
## 0.267163817 -0.128516953 0.183426036 -1.065755774 -0.622279798
## 61 62 63 64 65
## 1.070859326 -1.166936247 0.101097116 -0.473797895 1.999182874
## 66 67 68 69 70
## 1.305565418 2.227515095 -0.649976046 0.223677139 0.625767932
## 71 72 73 74 75
## -0.723549817 -1.233914469 0.563000899 -0.180562341 -0.255651093
## 76 77 78 79 80
## -0.768814615 -0.962606161 -0.634258644 0.861807852 0.337964091
## 81 82 83 84 85
## 0.957356866 2.452722014 -0.617915674 -1.000174829 -0.737523989
## 86 87 88 89 90
## 0.872307146 1.006966956 -0.580568649 -0.788077568 -0.463399295
## 91 92 93 94 95
## -0.738219041 -0.104490820 -1.005948000 -0.084514809 -1.076285904
## 96 97 98 99 100
## -0.848494901 1.008985615 0.646627498 -0.452958341 -0.301082732
## 101 102 103 104 105
## -0.584627507 -0.102895171 -1.113503826 -1.198977788 0.265409794
## 106 107 108 109 110
## -0.514564176 -0.789214435 -0.225045367 0.581827664 0.683323756
## 111 112 113 114 115
## -0.072623669 -0.858691812 -0.957488658 -1.213333929 0.492550691
## 116 117 118 119 120
## -0.310243303 0.923432594 -0.067446744 -0.212702634 0.625206977
## 121 122 123 124 125
## -0.787057348 1.548082130 -1.123531650 0.074075912 -1.374683329
## 126 127 128 129 130
## -0.222066305 -1.306255462 0.158841248 1.386298470 2.275086466
## 131 132 133 134 135
## -0.215009069 -0.580722330 -0.332378935 -0.175252135 -0.417525794
## 136 137 138 139 140
## 0.272017839 1.308916294 -0.431809399 -0.208415519 1.716686044
## 141 142 143 144 145
## 3.031898907 -0.162345768 -1.337731100 0.581088547 -0.435345185
## 146 147 148 149 150
## -0.997669347 1.118650556 -0.101000912 0.214864221 -0.046090546
## 151 152 153 154 155
## -0.101348610 0.791549279 -0.296332258 1.081880626 0.285672479
## 156 157 158 159 160
## 0.098020308 1.116250655 -0.567166111 1.107483596 -0.826453912
## 161 162 163 164 165
## -0.087153790 -0.583874537 -0.380853042 0.059865441 -0.478825749
## 166 167 168 169 170
## 0.198825653 -1.055663879 0.129974353 -0.616505256 -1.035367481
## 171 172 173 174 175
## 4.624490591 -1.128374047 0.356458261 -0.902435353 -0.103340757
## 176 177 178 179 180
## -0.222329235 -1.301477604 0.036819656 -0.573236571 0.099239563
## 181 182 183 184 185
## 0.227916591 -0.935756857 -0.650125562 0.028378905 0.994764996
## 186 187 188 189 190
## -0.096829052 2.927333472 0.518297832 0.229864947 -0.821268563
## 191 192 193 194 195
## 0.864020860 -1.118665147 -0.400945773 0.433859184 -1.420089774
## 196 197 198 199 200
## -1.234267387 -0.158142143 -0.420098939 0.664031495 -0.354359153
## 201 202 203 204 205
## 1.180771238 0.755517215 0.022556332 -1.018391710 1.530592807
## 206 207 208 209 210
## -0.672866079 -0.860678666 0.585725710 -0.901248129 -0.086059158
## 211 212 213 214 215
## 0.554600494 3.266125461 -0.428413377 -0.022723550 -0.207179433
## 216 217 218 219 220
## -1.151225422 0.032354078 2.145645944 0.257767815 0.025202197
## 221 222 223 224 225
## 1.568337344 -0.347613126 -0.693137278 -0.082503978 -0.236473650
## 226 227 228 229 230
## -0.136530676 -0.843656590 -1.097048048 0.082962261 -0.382700021
## 231 232 233 234 235
## -0.133487138 -0.089713363 -0.929757955 -0.484565212 2.250381947
## 236 237 238 239 240
## 3.306672244 -0.436770083 -0.622974676 -0.496371009 1.281729608
## 241 242 243 244 245
## 3.815568018 1.050048483 0.049414893 -0.095830941 3.018769075
## 246 247 248 249 250
## -0.883262540 -0.197435758 -0.140471871 -0.906161290 -1.635426889
## 251 252 253 254 255
## 1.342009821 -0.300705719 0.388567415 -0.739635620 -0.346852795
## 256 257 258 259 260
## 0.125909208 -0.312547495 0.700473497 -0.628387344 -1.043329502
## 261 262 263 264 265
## -0.719149319 -1.023873788 3.555382713 0.520341272 -0.363800358
## 266 267 268 269 270
## -0.826723256 -0.797672058 -0.324967980 -0.880618748 -0.684824879
## 271 272 273 274 275
## -0.010152624 -0.347965976 -0.328529502 0.310578447 -0.880980094
## 276 277 278 279 280
## -0.927677350 1.149302055 -1.046887312 0.051325850 -1.194465142
## 281 282 283 284 285
## -0.754650751 -0.373384304 -0.743151340 -0.785488525 -0.120328368
## 286 287 288 289 290
## 0.464804369 -0.710393409 -0.648177218 -0.721873920 -1.416284757
## 291 292 293 294 295
## -0.191441975 -0.714131495 -0.883761557 1.534435292 -1.018228471
## 296 297 298 299 300
## -0.516418688 -0.128380107 0.016480930 0.219558680 -0.038037634
## 301 302 303 304 305
## 2.467694312 2.907150738 -0.666281640 2.180974655 -0.688234162
## 306 307 308 309 310
## -1.270276148 0.300082323 1.393031275 -0.691125941 1.402566121
## 311 312 313 314 315
## -0.178813321 -0.308485746 -0.874897512 -1.396832202 0.109197043
## 316 317 318 319 320
## -0.426275978 1.155421280 -0.236063591 -0.107637886 1.000494826
## 321 322 323 324 325
## -0.462410450 -0.162393512 -0.460737135 0.689116262 0.403816390
## 326 327 328 329 330
## -0.544231823 1.156266530 -0.518030299 1.573942151 -0.117535084
## 331 332 333 334 335
## -0.372704845 0.562020786 0.197394444 -0.489201462 -0.278202250
## 336 337 338 339 340
## 0.485377250 -0.053932526 0.120976228 -0.667840688 -0.511258250
## 341 342 343 344 345
## 1.573550603 -0.068690266 -0.225857239 -0.840362546 -0.452754396
## 346 347 348 349 350
## 0.641970577 1.134327621 -1.062956787 0.037773764 -0.143005259
## 351 352 353 354 355
## -0.506347150 -1.285263352 0.005040136 0.334576494 -0.004746946
## 356 357 358 359 360
## -0.591381356 1.178503979 -0.405510567 1.861920934 -0.793087857
## 361 362 363 364 365
## 3.996539083 0.971467692 1.011113698 -0.693489571 0.202823156
## 366 367 368 369 370
## -0.994609340 -1.311898726 -0.531904634 -0.628489953 0.377564861
## 371 372 373 374 375
## -0.324000329 -0.135964844 -1.204571423 0.337299088 -0.355771684
## 376 377 378 379 380
## 0.400188485 1.585629622 1.593491356 -0.453087107 -0.567794304
## 381 382 383 384 385
## 0.317773608 -0.668588675 0.107582768 0.041859876 0.196195951
## 386 387 388 389 390
## -0.301528624 1.007068639 -0.831072116 -0.059934640 -0.255291248
## 391 392 393 394 395
## -0.581290550 1.025489973 0.019518041 -0.060550195 -0.006036368
## 396 397 398 399
## -0.748273303 -0.309086956 0.171742971 -0.437140656
Nota: como la lista es muy larga dejo las primeras líneas, aunque R nos da los resutados para todas las observaciones y a continuación, con el contraste de Bonferroni, nos quedaremos con las observaciones que tienen los residuos estudentizados más altos.
Hay observaciones atípicas cuando los residuos studentizados son superiores a 2 en valor absoluto. Por lo que, a contrario de lo que nos decía la gráfica, sí que encontramos ciertos puntos atípicos.
Aun así, vamos a realizar los contrastes de Bonferroni para los atípicos. Siendo la Ho: no hay observaciones atípicas y α=0.05
## rstudent unadjusted p-value Bonferroni p
## 171 4.624491 5.0923e-06 0.0020318
## 1 4.121256 4.5916e-05 0.0183200
## 361 3.996539 7.6660e-05 0.0305870
Nos salen estas 3 observaciones (rstudent más altos) en las que el p-valor de Bonferroni es menor que α en todas ellas. Rechazamos la Ho (rechazamos que no hay observaciones atípicas) y por lo tanto sí que tenemos atípicos y nos los muestra en la tabla. Por lo que tenemos observaciones atípicas en el 1, 171 y 361.
Como hemos detectado observaciones atípicas, vamos a comprobar si son observaciones influyentes.
StudRes | Hat | CookD | |
---|---|---|---|
1 | 4.1212564 | 0.0061772 | 0.0507422 |
139 | -0.2084155 | 0.0233744 | 0.0005211 |
171 | 4.6244906 | 0.0091547 | 0.0939694 |
217 | 0.0323541 | 0.0354376 | 0.0000193 |
236 | 3.3066722 | 0.0163765 | 0.0887994 |
Con la ayuda de la tabla y los dos gráficos vemos que las observaciones 1, 171 y 236 son muy influyentes. Observamos como la observación 361 que era atípica no es influyente.
El resumen de nuestro modelo sería:
##
## Call:
## lm(formula = PropExtPT ~ EdMedPT, data = Datos1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -12.761 -5.264 -1.416 2.724 35.258
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 46.6329 6.1246 7.614 1.96e-13 ***
## EdMedPT -0.8597 0.1453 -5.915 7.16e-09 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 7.853 on 397 degrees of freedom
## Multiple R-squared: 0.08099, Adjusted R-squared: 0.07868
## F-statistic: 34.99 on 1 and 397 DF, p-value: 7.164e-09
Como anteriormente detectamos heterocedasticidad, la tabla anterior no es completamente válida y tenemos que obtener la tabla con los estimadores robustos:
##
## t test of coefficients:
##
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 46.63289 6.67643 6.9847 1.209e-11 ***
## EdMedPT -0.85968 0.15612 -5.5065 6.587e-08 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Una vez tenemos todos los datos básicos, hacemos la representación gráfica de nuestro modelo.
La ecuación estimada de nuestro modelo sería: \[PropExtPT=β_0+β_1*EdMedPT\] Sustituyendo: \[PropExtPT=46.63289-0.85968*EdMedPT\]
Esto nos permite decidir si la variable EdMedPT es relevante para explicar la variable dependiente PropExtPT. Nuestra hipótesis nula será: Ho: β1=0 y la hipótesis alternativa será: β1≠ 0, siendo nuestro α=0.05. Por tanto nuestro estadístico t será -0.85968/0.15612= -5.5065 con un p-valor asociado de 6.587e-08. El p-valor (6.587e-08) es menor que α (0.05), por lo que rechazamos la Ho y β1 es significativamente distinto a 0, así que la EdMedPT es relevante para explicar la PropExtPT.
La “proporción de extranjeros sobre la población total en el año 2017” será de 46,6328 (46.63%) cuando la variable explicativa “edad mediana de la población en el año 2017 para la población total” tome valor 0. En este caso, no habría una intrpretación clara ya que no se ajusta a la realidad porque no es posible encontrar una “edad mediana de la población en el año 2017 para la población total” que sea 0.
Por cada año que aumente la “edad mediana de la población en el año 2017 para la población total”, La “proporción de extranjeros sobre la población total en el año 2017” disminuye de media en -0.85968 (-0.85968%), controlando el efecto del resto de variables
Nuestro Multiple R-squared es de 0.08099. Por tanto, el 8,099% de la variabilidad de la “proporción de extranjeros sobre la población total en el año 2017” está explicada por el modelo.
2.5 % | 97.5 % | |
---|---|---|
(Intercept) | 33.507319 | 59.758466 |
EdMedPT | -1.166602 | -0.552748 |
Aquí nos aparecen los extremos inferiores y superiores de los intervalos de confianza tanto de la constante como de la EdMEdPT para un nivel de confianza del 95%.
En la introducción, no pude identificar ninguna relación entre las variables. Sin embargo, despúes de analizarlo vemos una relación lineal negativa entre la Proporción de extranjeros sobre la Población Total y la Edad Mediana de la Población Total. Por eso, en nuestro modelo estimado el β estimado para la EdMedPT es negativo, concretamente con un valor de -0.85968 que ya vimos como se interpretaba en su apartado. Podemos intuir que los extranjeros son más jóvenes que la población local y por eso cuando el % de entranjeros es mayor, la edad mediana de la población total disminuye por el efecto de las edades de población extranjera.
En mi opinión, el modelo es fácilmente mejorable ya que al trabajar con una sola variable explicativa es muy dificil lograr un buen modelo, prueba de ello es que nuestro Multiple R-squared es muy bajo y solo el 8,099% de la variabilidad de la “proporción de extranjeros sobre la población total en el año 2017” está explicada por el modelo.
Analizando los residuos studentizados más altos, observamos que existe un cierto patrón geográfico, siendo ciudades costeras las que tienen estos valores. Puede que esto se deba a que existe población extranjera que viene a nuestro país a disfrutar de su jubilación por sus condiciones climáticas, por lo que podría ser interesante añadir a nuestro modelo la variable Proporción de población >65 años (Porcentaje)
y llevar a cabo un nuevo análisis y ver si es relevante o no esta nueva variable.