INTRODUCCIÓN

Aparentemente y bajo mi punto de vista, no se me ocurre ninguna relación que pueda tener la proporción de entranjeros sobre la población total en el 2017 con la edad mediana de la población total en el 2017. Trataremos de profundizar en el trabajo para ver si existe alguna relación entre estas dos variables o, si por el contrario no tienen ninguna.

Cargo los datos del fichero proporcionado para realizar el trabajo.

Elimino los datos de Total Nacional para evitar duplicidades en los datos.

Aquí filtro mis variables, para quedarme solo con los datos que a mi me interesan para mi trabajo.

Omitimos los datos NA ya que no nos sirven para nada.

Elimino las columnas de Periodo y Sexo, ya que sabemos que son para 2017 y para toda la población.

Cambio de nombre a las variables, para que sean más cómodos y evitar posibles errores.

ANÁLISIS DESCRIPTIVO

1.Estadísticos descriptivos

EdMedPT PropExtPT
Min. :34.33 Min. : 1.07
1st Qu.:40.26 1st Qu.: 4.37
Median :41.90 Median : 8.16
Mean :42.05 Mean :10.48
3rd Qu.:43.55 3rd Qu.:14.28
Max. :51.86 Max. :44.93

Podemos ver los valores mínimos y máximos de ambas variables, así como sus medias, medianas y los quartiles 1 y 3. Destaca la poca dispersión de la EdMedPT, todo se encuentra entre el 34.44 y el 51.86. Sin embargo la PropExtPT varía entre el 1.07 y el 44.93.

2. Funciones de densidad

La función de densidad de la EdMedPT puede considerarse una distribución normal. Sin embargo la función de densidad de la PropExtPT sería una distribución normal asíntotica a la derecha.

3.Diagramas de caja

En estos diagramas de caja podemos observar que la variabilidad y el rango intercuartílico es mayor en la variable “Proporción de extranjeros sobre la población total”, esto se puede interpretar como que los extranjeros se asientan más en unas zonas que otras lo que hace que su proporción según el municipio esté dispersa. Además, en esta variable encontramos posibles puntos atípicamente altos, sin embargo en la variable “Edad Mediana de la población total” podemos encontrar posibles puntos atípicamente altos y bajos, esta variable también se caracteriza por tener un rango intercuartílico muy pequeño, lo que nos indica la poca dispersión que tiene la variable.

SELECCIÓN DEL MODELO Y DIAGNÓSTICO

1.Estimación del modelo y diagrama de dispersión con MLS y loess.

Vamos a estimar el modelo, así podemos conocer sus estimadores, sus errores estándar y otros datos importantes como los p-valores o el estadístico F.

## 
## Call:
## lm(formula = PropExtPT ~ EdMedPT, data = Datos1)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -12.761  -5.264  -1.416   2.724  35.258 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  46.6329     6.1246   7.614 1.96e-13 ***
## EdMedPT      -0.8597     0.1453  -5.915 7.16e-09 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 7.853 on 397 degrees of freedom
## Multiple R-squared:  0.08099,    Adjusted R-squared:  0.07868 
## F-statistic: 34.99 on 1 and 397 DF,  p-value: 7.164e-09

Ahora vamos a hacer los diagramas de dispersión con MLS y loess. La estimación paramétrica “lm” incluye la hipótesis de linealidad y por lo tanto sus intervalos de confianza están bajo la Ho: linealidad. Sin embargo, la estimación no paramétrica “loess” no incluye la hipótesis de linealidad. Con ambas gráficas podemos comparar visualmente y podemos intuir si se cumple la hipótesis de linealidad o no.

Observamos que las bandas de confianza se van ensanchando, lo que puede ser un indicativo de que tenemos presencia de heterocedasticidad, que comprobaremos más adelante. Volviedo con la linealidad, podemos ver que la estimación “loess” permanece dentro de las bandas de confianza de la estimación “lm” que incluye linealidad. Por tanto, podemos intuir que la relación es lineal y no necesitamos ningún tipo de transformación en ninguna de las variables.Para confirmarlo, vamos a hacer el test reset, siendo la Ho: modelo lineal y un α=0.05.

## 
##  RESET test
## 
## data:  Modelo1
## RESET = 3.0085, df1 = 2, df2 = 395, p-value = 0.0505

El p-valor es > que α, por lo tanto no podemos rechazar la Ho y tomamos el modelo como lineal.

2.Diagnóstico del modelo.

Lo primero que voy a realizar es la obtención de las gráficas de diagnóstico(Residuals vs Fitted, Normal Q-Q, Scale-Location yResiduals vs Leverage) y despúes comentaré cada una de ellas.

  • La gráfica Residuals vs Fitted sirve para comprobar si se cumple o no la hipótesis de esperanza condicional nula del término de error, es decir, si la forma funcional elegida es la correcta o no. Al observar esta gráfica, los datos parecen marcar una relación lineal entre “Proporción de entranjeros sobre la población total en el 2017” y “Edad mediana de la población total en el año 2017”, y los puntos parecen estar distribuidos aleatoriamente sobre la línea, sin observar tendencias no lineales o cambios en la variabilidad. También vemos que la línea roja (valor promedio de los residuos en cada valor de valor ajustado) es prácticamente plana. Esto nos dice que no hay una tendencia no lineal discernible a los residuos. Además, los residuos parecen ser igualmente variables en todo el rango de valores ajustados y no hay indicación de varianza no constante.Por lo que podemos concluir que se cumple la hipótesis de esperanza condicional nula del término de error E=[Ɛi/xi]=0

  • La gráfica Normal Q-Q sirve oara comprobar el cumplimiento de la hipótesis de normalidad en la distribución de las perturbaciones. Si tenemos normalidad, a la hora de hacer inferencia podremos usar los estadísticos con distribuciones t-student o F.snédecor estándar. Por el contrario, si no se cumple esta hipótesis de normalidad no podríamos utilizar las distribuciones anteriores y tendríamos que hacer inferencia basándonos en la distribución asintótica de los estimadores, una distribución asíntotica normal. Si observamos la gráfica, vemos como los puntos se alejan de la recta, especialmente a la derecha del gráfico. Por tanto, no se cumple la hipótisis de normalidad, ya que nuestra distribución presenta una asimetría positiva (la cola a la derecha de la media es más larga que la izquierda).

  • La gráfica Scale-Location sirve para comprobar el cumplimiento de la hipótesis de homocedasticidad. Si tenemos homocedasticidad es válida la inferencia con los estimadores habituales de los errores estándar de los coeficientes estimados. Sin embargo, si tenemos heterocedasticidad esto no es válido y tendremos que utilizar los estimadores robustos de los errores estándar. Si observamos la gráfica podemos detectar presencia de heterocedasticidad porque la línea roja es claramente ascendente, si tuviesemos homocedasticidad esta línea deería de ser prácticamente horizontal.

Para comprobar definitivamente que tenemos heterocedasticidad vamos a realizar el contraste de Breusch-Pagan siendo nuestra Ho: Homocedastididad y α=0.05

## 
##  studentized Breusch-Pagan test
## 
## data:  Modelo1
## BP = 5.6925, df = 1, p-value = 0.01704

Como preveíamos, el p-valor es menor que α. Por tanto, rechazamos Ho y encontramos con heterocedasticidad por lo que tendremos que usar los estimadores robustos (vcovHC). Nos va a cambiar los erróres estándar y por lo tanto nos cambiará los estadísticos t y F.

Cabe destacar que si α=0,01 ya no podríamos rechazar Ho. Es decir, para un nivel de confianza del 99% no podríamos asegurar la existencia de heterocedasticidad, sin embargo para una confianza del 95% si la podríamos asegurar. Como el 95% ya es un nivel de confianza alto, consideraré que existe heterocedasticidad y utilizaré los estimadores robustos (vcovHC)

  • La gráfica Residuals-Leverage sirve para detectar valores atípicos. Si vieramos puntos fuera de las bandas de Cook es que esos puntos son atípicos. A la vista de la gráfica, aparentemente no hay valores atípicos, para comprobarlo hallaremos los residuos studentizados.
##            1            2            3            4            5 
##  4.121256426 -0.138018868 -0.066041945 -0.839297045 -0.669192253 
##            6            7            8            9           10 
## -0.820933330 -0.219210174 -1.365194831  0.669561656 -0.558651543 
##           11           12           13           14           15 
## -0.564918986 -0.442499913  0.166518930  0.013831796 -0.402528567 
##           16           17           18           19           20 
## -0.987885438 -0.019328205 -0.642551770 -0.441812907 -0.306213604 
##           21           22           23           24           25 
##  0.895505328 -0.745400400  1.354753178  0.323027268 -1.399696921 
##           26           27           28           29           30 
## -0.660346665  0.211845474 -0.454720038 -0.295061694  0.476229121 
##           31           32           33           34           35 
##  1.112964731  1.436079975  3.031036556 -0.117846867 -0.942390196 
##           36           37           38           39           40 
##  0.553075500 -1.092535547 -0.865839452  0.012991210  0.021910487 
##           41           42           43           44           45 
## -1.288950294  1.044275397 -0.700115931  3.123293404  0.079098734 
##           46           47           48           49           50 
##  0.365068514 -1.221860313 -0.804469487 -1.021210041 -0.730905302 
##           51           52           53           54           55 
## -0.145929505 -0.170055590  0.216538887  0.594718327 -1.021462469 
##           56           57           58           59           60 
##  0.267163817 -0.128516953  0.183426036 -1.065755774 -0.622279798 
##           61           62           63           64           65 
##  1.070859326 -1.166936247  0.101097116 -0.473797895  1.999182874 
##           66           67           68           69           70 
##  1.305565418  2.227515095 -0.649976046  0.223677139  0.625767932 
##           71           72           73           74           75 
## -0.723549817 -1.233914469  0.563000899 -0.180562341 -0.255651093 
##           76           77           78           79           80 
## -0.768814615 -0.962606161 -0.634258644  0.861807852  0.337964091 
##           81           82           83           84           85 
##  0.957356866  2.452722014 -0.617915674 -1.000174829 -0.737523989 
##           86           87           88           89           90 
##  0.872307146  1.006966956 -0.580568649 -0.788077568 -0.463399295 
##           91           92           93           94           95 
## -0.738219041 -0.104490820 -1.005948000 -0.084514809 -1.076285904 
##           96           97           98           99          100 
## -0.848494901  1.008985615  0.646627498 -0.452958341 -0.301082732 
##          101          102          103          104          105 
## -0.584627507 -0.102895171 -1.113503826 -1.198977788  0.265409794 
##          106          107          108          109          110 
## -0.514564176 -0.789214435 -0.225045367  0.581827664  0.683323756 
##          111          112          113          114          115 
## -0.072623669 -0.858691812 -0.957488658 -1.213333929  0.492550691 
##          116          117          118          119          120 
## -0.310243303  0.923432594 -0.067446744 -0.212702634  0.625206977 
##          121          122          123          124          125 
## -0.787057348  1.548082130 -1.123531650  0.074075912 -1.374683329 
##          126          127          128          129          130 
## -0.222066305 -1.306255462  0.158841248  1.386298470  2.275086466 
##          131          132          133          134          135 
## -0.215009069 -0.580722330 -0.332378935 -0.175252135 -0.417525794 
##          136          137          138          139          140 
##  0.272017839  1.308916294 -0.431809399 -0.208415519  1.716686044 
##          141          142          143          144          145 
##  3.031898907 -0.162345768 -1.337731100  0.581088547 -0.435345185 
##          146          147          148          149          150 
## -0.997669347  1.118650556 -0.101000912  0.214864221 -0.046090546 
##          151          152          153          154          155 
## -0.101348610  0.791549279 -0.296332258  1.081880626  0.285672479 
##          156          157          158          159          160 
##  0.098020308  1.116250655 -0.567166111  1.107483596 -0.826453912 
##          161          162          163          164          165 
## -0.087153790 -0.583874537 -0.380853042  0.059865441 -0.478825749 
##          166          167          168          169          170 
##  0.198825653 -1.055663879  0.129974353 -0.616505256 -1.035367481 
##          171          172          173          174          175 
##  4.624490591 -1.128374047  0.356458261 -0.902435353 -0.103340757 
##          176          177          178          179          180 
## -0.222329235 -1.301477604  0.036819656 -0.573236571  0.099239563 
##          181          182          183          184          185 
##  0.227916591 -0.935756857 -0.650125562  0.028378905  0.994764996 
##          186          187          188          189          190 
## -0.096829052  2.927333472  0.518297832  0.229864947 -0.821268563 
##          191          192          193          194          195 
##  0.864020860 -1.118665147 -0.400945773  0.433859184 -1.420089774 
##          196          197          198          199          200 
## -1.234267387 -0.158142143 -0.420098939  0.664031495 -0.354359153 
##          201          202          203          204          205 
##  1.180771238  0.755517215  0.022556332 -1.018391710  1.530592807 
##          206          207          208          209          210 
## -0.672866079 -0.860678666  0.585725710 -0.901248129 -0.086059158 
##          211          212          213          214          215 
##  0.554600494  3.266125461 -0.428413377 -0.022723550 -0.207179433 
##          216          217          218          219          220 
## -1.151225422  0.032354078  2.145645944  0.257767815  0.025202197 
##          221          222          223          224          225 
##  1.568337344 -0.347613126 -0.693137278 -0.082503978 -0.236473650 
##          226          227          228          229          230 
## -0.136530676 -0.843656590 -1.097048048  0.082962261 -0.382700021 
##          231          232          233          234          235 
## -0.133487138 -0.089713363 -0.929757955 -0.484565212  2.250381947 
##          236          237          238          239          240 
##  3.306672244 -0.436770083 -0.622974676 -0.496371009  1.281729608 
##          241          242          243          244          245 
##  3.815568018  1.050048483  0.049414893 -0.095830941  3.018769075 
##          246          247          248          249          250 
## -0.883262540 -0.197435758 -0.140471871 -0.906161290 -1.635426889 
##          251          252          253          254          255 
##  1.342009821 -0.300705719  0.388567415 -0.739635620 -0.346852795 
##          256          257          258          259          260 
##  0.125909208 -0.312547495  0.700473497 -0.628387344 -1.043329502 
##          261          262          263          264          265 
## -0.719149319 -1.023873788  3.555382713  0.520341272 -0.363800358 
##          266          267          268          269          270 
## -0.826723256 -0.797672058 -0.324967980 -0.880618748 -0.684824879 
##          271          272          273          274          275 
## -0.010152624 -0.347965976 -0.328529502  0.310578447 -0.880980094 
##          276          277          278          279          280 
## -0.927677350  1.149302055 -1.046887312  0.051325850 -1.194465142 
##          281          282          283          284          285 
## -0.754650751 -0.373384304 -0.743151340 -0.785488525 -0.120328368 
##          286          287          288          289          290 
##  0.464804369 -0.710393409 -0.648177218 -0.721873920 -1.416284757 
##          291          292          293          294          295 
## -0.191441975 -0.714131495 -0.883761557  1.534435292 -1.018228471 
##          296          297          298          299          300 
## -0.516418688 -0.128380107  0.016480930  0.219558680 -0.038037634 
##          301          302          303          304          305 
##  2.467694312  2.907150738 -0.666281640  2.180974655 -0.688234162 
##          306          307          308          309          310 
## -1.270276148  0.300082323  1.393031275 -0.691125941  1.402566121 
##          311          312          313          314          315 
## -0.178813321 -0.308485746 -0.874897512 -1.396832202  0.109197043 
##          316          317          318          319          320 
## -0.426275978  1.155421280 -0.236063591 -0.107637886  1.000494826 
##          321          322          323          324          325 
## -0.462410450 -0.162393512 -0.460737135  0.689116262  0.403816390 
##          326          327          328          329          330 
## -0.544231823  1.156266530 -0.518030299  1.573942151 -0.117535084 
##          331          332          333          334          335 
## -0.372704845  0.562020786  0.197394444 -0.489201462 -0.278202250 
##          336          337          338          339          340 
##  0.485377250 -0.053932526  0.120976228 -0.667840688 -0.511258250 
##          341          342          343          344          345 
##  1.573550603 -0.068690266 -0.225857239 -0.840362546 -0.452754396 
##          346          347          348          349          350 
##  0.641970577  1.134327621 -1.062956787  0.037773764 -0.143005259 
##          351          352          353          354          355 
## -0.506347150 -1.285263352  0.005040136  0.334576494 -0.004746946 
##          356          357          358          359          360 
## -0.591381356  1.178503979 -0.405510567  1.861920934 -0.793087857 
##          361          362          363          364          365 
##  3.996539083  0.971467692  1.011113698 -0.693489571  0.202823156 
##          366          367          368          369          370 
## -0.994609340 -1.311898726 -0.531904634 -0.628489953  0.377564861 
##          371          372          373          374          375 
## -0.324000329 -0.135964844 -1.204571423  0.337299088 -0.355771684 
##          376          377          378          379          380 
##  0.400188485  1.585629622  1.593491356 -0.453087107 -0.567794304 
##          381          382          383          384          385 
##  0.317773608 -0.668588675  0.107582768  0.041859876  0.196195951 
##          386          387          388          389          390 
## -0.301528624  1.007068639 -0.831072116 -0.059934640 -0.255291248 
##          391          392          393          394          395 
## -0.581290550  1.025489973  0.019518041 -0.060550195 -0.006036368 
##          396          397          398          399 
## -0.748273303 -0.309086956  0.171742971 -0.437140656

Nota: como la lista es muy larga dejo las primeras líneas, aunque R nos da los resutados para todas las observaciones y a continuación, con el contraste de Bonferroni, nos quedaremos con las observaciones que tienen los residuos estudentizados más altos.

Hay observaciones atípicas cuando los residuos studentizados son superiores a 2 en valor absoluto. Por lo que, a contrario de lo que nos decía la gráfica, sí que encontramos ciertos puntos atípicos.

Aun así, vamos a realizar los contrastes de Bonferroni para los atípicos. Siendo la Ho: no hay observaciones atípicas y α=0.05

##     rstudent unadjusted p-value Bonferroni p
## 171 4.624491         5.0923e-06    0.0020318
## 1   4.121256         4.5916e-05    0.0183200
## 361 3.996539         7.6660e-05    0.0305870

Nos salen estas 3 observaciones (rstudent más altos) en las que el p-valor de Bonferroni es menor que α en todas ellas. Rechazamos la Ho (rechazamos que no hay observaciones atípicas) y por lo tanto sí que tenemos atípicos y nos los muestra en la tabla. Por lo que tenemos observaciones atípicas en el 1, 171 y 361.

Como hemos detectado observaciones atípicas, vamos a comprobar si son observaciones influyentes.

StudRes Hat CookD
1 4.1212564 0.0061772 0.0507422
139 -0.2084155 0.0233744 0.0005211
171 4.6244906 0.0091547 0.0939694
217 0.0323541 0.0354376 0.0000193
236 3.3066722 0.0163765 0.0887994

Con la ayuda de la tabla y los dos gráficos vemos que las observaciones 1, 171 y 236 son muy influyentes. Observamos como la observación 361 que era atípica no es influyente.

INTERPRETACIÓN E INFERENCIA

El resumen de nuestro modelo sería:

## 
## Call:
## lm(formula = PropExtPT ~ EdMedPT, data = Datos1)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -12.761  -5.264  -1.416   2.724  35.258 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  46.6329     6.1246   7.614 1.96e-13 ***
## EdMedPT      -0.8597     0.1453  -5.915 7.16e-09 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 7.853 on 397 degrees of freedom
## Multiple R-squared:  0.08099,    Adjusted R-squared:  0.07868 
## F-statistic: 34.99 on 1 and 397 DF,  p-value: 7.164e-09

Como anteriormente detectamos heterocedasticidad, la tabla anterior no es completamente válida y tenemos que obtener la tabla con los estimadores robustos:

## 
## t test of coefficients:
## 
##             Estimate Std. Error t value  Pr(>|t|)    
## (Intercept) 46.63289    6.67643  6.9847 1.209e-11 ***
## EdMedPT     -0.85968    0.15612 -5.5065 6.587e-08 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Una vez tenemos todos los datos básicos, hacemos la representación gráfica de nuestro modelo.

La ecuación estimada de nuestro modelo sería: \[PropExtPT=β_0+β_1*EdMedPT\] Sustituyendo: \[PropExtPT=46.63289-0.85968*EdMedPT\]

Contrastes de significatividad individual:

Esto nos permite decidir si la variable EdMedPT es relevante para explicar la variable dependiente PropExtPT. Nuestra hipótesis nula será: Ho: β1=0 y la hipótesis alternativa será: β1≠ 0, siendo nuestro α=0.05. Por tanto nuestro estadístico t será -0.85968/0.15612= -5.5065 con un p-valor asociado de 6.587e-08. El p-valor (6.587e-08) es menor que α (0.05), por lo que rechazamos la Ho y β1 es significativamente distinto a 0, así que la EdMedPT es relevante para explicar la PropExtPT.

Interpretación de coeficientes:

1. Interpretación de la constante:

La “proporción de extranjeros sobre la población total en el año 2017” será de 46,6328 (46.63%) cuando la variable explicativa “edad mediana de la población en el año 2017 para la población total” tome valor 0. En este caso, no habría una intrpretación clara ya que no se ajusta a la realidad porque no es posible encontrar una “edad mediana de la población en el año 2017 para la población total” que sea 0.

2. Interpretación de β1:

Por cada año que aumente la “edad mediana de la población en el año 2017 para la población total”, La “proporción de extranjeros sobre la población total en el año 2017” disminuye de media en -0.85968 (-0.85968%), controlando el efecto del resto de variables

Interpretación del Multiple R-squared:

Nuestro Multiple R-squared es de 0.08099. Por tanto, el 8,099% de la variabilidad de la “proporción de extranjeros sobre la población total en el año 2017” está explicada por el modelo.

Intervalos de confianza:

2.5 % 97.5 %
(Intercept) 33.507319 59.758466
EdMedPT -1.166602 -0.552748

Aquí nos aparecen los extremos inferiores y superiores de los intervalos de confianza tanto de la constante como de la EdMEdPT para un nivel de confianza del 95%.

CONCLUSIÓN

En la introducción, no pude identificar ninguna relación entre las variables. Sin embargo, despúes de analizarlo vemos una relación lineal negativa entre la Proporción de extranjeros sobre la Población Total y la Edad Mediana de la Población Total. Por eso, en nuestro modelo estimado el β estimado para la EdMedPT es negativo, concretamente con un valor de -0.85968 que ya vimos como se interpretaba en su apartado. Podemos intuir que los extranjeros son más jóvenes que la población local y por eso cuando el % de entranjeros es mayor, la edad mediana de la población total disminuye por el efecto de las edades de población extranjera.

En mi opinión, el modelo es fácilmente mejorable ya que al trabajar con una sola variable explicativa es muy dificil lograr un buen modelo, prueba de ello es que nuestro Multiple R-squared es muy bajo y solo el 8,099% de la variabilidad de la “proporción de extranjeros sobre la población total en el año 2017” está explicada por el modelo.

Análisis de los residuos studentizados

Analizando los residuos studentizados más altos, observamos que existe un cierto patrón geográfico, siendo ciudades costeras las que tienen estos valores. Puede que esto se deba a que existe población extranjera que viene a nuestro país a disfrutar de su jubilación por sus condiciones climáticas, por lo que podría ser interesante añadir a nuestro modelo la variable Proporción de población >65 años (Porcentaje) y llevar a cabo un nuevo análisis y ver si es relevante o no esta nueva variable.