Trabajo Econometria

## Registered S3 method overwritten by 'printr':
##   method                from     
##   knit_print.data.frame rmarkdown

## Loading required package: stringr

## Loading required package: reshape2

## Loading required package: RJSONIO

## Loading required package: plyr

## ── Attaching packages ─────────────────────────────────────── tidyverse 1.2.1 ──

## ✔ ggplot2 3.2.1     ✔ readr   1.3.1
## ✔ tibble  2.1.3     ✔ purrr   0.3.2
## ✔ tidyr   1.0.0     ✔ dplyr   0.8.3
## ✔ ggplot2 3.2.1     ✔ forcats 0.4.0

## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::arrange()   masks plyr::arrange()
## ✖ purrr::compact()   masks plyr::compact()
## ✖ dplyr::count()     masks plyr::count()
## ✖ dplyr::failwith()  masks plyr::failwith()
## ✖ dplyr::filter()    masks stats::filter()
## ✖ dplyr::id()        masks plyr::id()
## ✖ dplyr::lag()       masks stats::lag()
## ✖ dplyr::mutate()    masks plyr::mutate()
## ✖ dplyr::rename()    masks plyr::rename()
## ✖ dplyr::summarise() masks plyr::summarise()
## ✖ dplyr::summarize() masks plyr::summarize()

## Loading required package: lattice

## Loading required package: ggformula

## Loading required package: ggstance

## 
## Attaching package: 'ggstance'

## The following objects are masked from 'package:ggplot2':
## 
##     geom_errorbarh, GeomErrorbarh

## 
## New to ggformula?  Try the tutorials: 
##  learnr::run_tutorial("introduction", package = "ggformula")
##  learnr::run_tutorial("refining", package = "ggformula")

## Loading required package: mosaicData

## Loading required package: Matrix

## 
## Attaching package: 'Matrix'

## The following objects are masked from 'package:tidyr':
## 
##     expand, pack, unpack

## Registered S3 method overwritten by 'mosaic':
##   method                           from   
##   fortify.SpatialPolygonsDataFrame ggplot2

## 
## The 'mosaic' package masks several functions from core packages in order to add 
## additional features.  The original behavior of these functions should not be affected by this.
## 
## Note: If you use the Matrix package, be sure to load it BEFORE loading mosaic.

## 
## Attaching package: 'mosaic'

## The following object is masked from 'package:Matrix':
## 
##     mean

## The following objects are masked from 'package:dplyr':
## 
##     count, do, tally

## The following object is masked from 'package:purrr':
## 
##     cross

## The following object is masked from 'package:ggplot2':
## 
##     stat

## The following object is masked from 'package:plyr':
## 
##     count

## The following objects are masked from 'package:stats':
## 
##     binom.test, cor, cor.test, cov, fivenum, IQR, median,
##     prop.test, quantile, sd, t.test, var

## The following objects are masked from 'package:base':
## 
##     max, mean, min, prod, range, sample, sum

## Loading required package: mosaicCore

## 
## Attaching package: 'mosaicCore'

## The following objects are masked from 'package:dplyr':
## 
##     count, tally

## The following object is masked from 'package:plyr':
## 
##     count

## Loading required package: splines

## 
## Attaching package: 'mosaicModel'

## The following objects are masked from 'package:mosaicCore':
## 
##     ci.mean, ci.median, ci.sd, coverage

## Loading required package: zoo

## 
## Attaching package: 'zoo'

## The following objects are masked from 'package:base':
## 
##     as.Date, as.Date.numeric

## Loading required package: carData

## 
## Attaching package: 'car'

## The following object is masked from 'package:mosaicCore':
## 
##     logit

## The following objects are masked from 'package:mosaic':
## 
##     deltaMethod, logit

## The following object is masked from 'package:dplyr':
## 
##     recode

## The following object is masked from 'package:purrr':
## 
##     some

#Introducción

En este trabajo estudiaremos la relación entre la edad media de la población con la población residente durante el año 2018.

A priori lo lógico sería pensar que a medida que los municipios tengan una población mayor la edad mediana de éstos también será mayor y que por tanto existirá una relación directa entre ambas variables. Podemos pensar esto ya que nos encontramos en un momento en que la natalidad ha descendido considerablemente y en el que el número hijos por mujer es cada vez menor en nuestro país pasando de los 2,86 en 1960 al 1,33 (2016). Todo esto acompañado por un aumento en la esperanza de vida gracias entre otras cosas a los numerosos avances médicos y el aumento de la calidad de vida, está provocando el envejecimiento de nuestra población, al igual que está ocurriendo en otros países como en Japón. Este es un tema que no debe de pasar desapercibido y que es de suma relevancia como podemos contemplar con la continua difusión en los medios de problemas relacionados con esta situación como es el caso de las pensiones. Por ello es razonable pensar que la proporción de personas adultas y ancianas es mayor que la de personas jóvenes y niños de manera que en aquellos municipios en los que la población sea mayor se presentarán un mayor número de personas de éste primer grupo y en consecuencia se arrastrará la edad media la población hacia arriba.

No obstante, para averiguar si esto es así o no realizaremos un estudio en el cual trataremos de elaborar un modelo que nos permita observar que tipo de relación se presenta entre nuestras dos variables.

Para ello lo primero para poder comenzar será indicar a R de dónde coger los datos necesarios con los que poder trabajar, que omita aquellos datos que no están disponibles (n/a) y eliminar aquellos referidos al Total Nacional:

Distinguimos dos variables en el trabajo: la variable explicada que será la edad mediana de la población, expresada en años, para la población total en el año 2018 y la variable explicativa será la población residente, expresada en logaritmos, para la población total y para el año 2018.

## Classes 'tbl_df', 'tbl' and 'data.frame':    405 obs. of  5 variables:
##  $ Periodo                            : Factor w/ 4 levels "2018","2017",..: 1 1 1 1 1 1 1 1 1 1 ...
##  $ Sexo                               : Factor w/ 3 levels "Total","Hombres",..: 1 1 1 1 1 1 1 1 1 1 ...
##  $ Nivel.territorial                  : Factor w/ 406 levels "Total Nacional",..: 2 3 4 5 6 7 8 9 10 11 ...
##  $ Población residente (Personas)     : num  47280 24859 35031 31152 29341 ...
##  $ Edad mediana de la población (años): num  39.2 39.2 40.7 40.9 43.1 ...

Transformaremos la tabla en función de nuestras necesidades y para poder trabajar de una forma más cómoda durante el trabajo, de manera que modificaremos la variable referida a la población residente, la cual se nos presenta en los datos en número de personas, para que podamos expresarla en logaritmos tal y como se nos pide en el trabajo. También eliminaremos las columnas de sexo y periodo para quedarnos únicamente con los datos necesarios para realizar nuestro estudio.

#Análisis Descriptivo

Una vez que hemos realizado las modificaciones apropiadas en nuestros datos con el objetivo de tener una mayor comodidad a la hora de trabajar con ellos podemos comenzar nuestro estudio. En primer lugar, realizaremos un estudio de los estadísticos descriptivos:

	Edad mediana de la población (años)	Poblacion residente en log
	Min. :34.58	Min. : 9.904
	1st Qu.:40.75	1st Qu.:10.148
	Median :42.41	Median :10.480
	Mean :42.51	Mean :10.758
	3rd Qu.:44.01	3rd Qu.:11.210
	Max. :52.25	Max. :14.986

De este primer análisis podemos obtener algunas conclusiones. Podemos ver, en primer lugar, que la edad media de la población entre los diferentes municipios del país se encuentra en un rango de entre 34,58 y 52,25 años, lo cual nos puede llegar a hacer pensar que nuestra población es mayoritariamente adulta en estos momentos. También consideramos importante resaltar que la media y la mediana son prácticamente coincidentes, en torno a los 42 años, situándose esta última en la mitad del rango intercuartílico que se sitúa entre los 40,75 y los 44,01 años por lo que podemos decir que la mitad de los municipios estudiados sitúan su media de edad en este intervalo. En cuanto a la población residente, observamos que la media y la mediana (en torno a 10) las podemos encontrar considerablemente más próximas del valor mínimo (9,904) que del máximo (14,986), por lo que podemos asegurar que existe un mayor número de municipios cuya población se concentra en torno al valor mínimo en comparación con el valor máximo; no obstante, podremos encontrar municipios cuyas poblaciones presente atípicos.

Lo siguiente que haremos será realizar las funciones de densidad apropiadas para nuestro estudio:

En esta función de densidad relativa a la edad mediana de la población, expresada en años, se constata nuestra afirmación anterior de que nuestra población es mayoritariamente adulta con una densidad mucho mayor entre los 40 y los 45 años, llegando a superar un 15% de la densidad de la población para los 42 años de edad media. Esta función presenta una forma similar a una normal.

En cuanto a la función de densidad de la población residente, expresada en logaritmos, podemos afirmar que encontramos una mayor densidad en las poblaciones menos numerosas. A medida que aumentamos la población, la densidad disminuye. No obstante, como anteriormente habíamos mencionado, es posible que nos encontremos con algunos datos atípicos en algunos puntos en los que la población es mayor.

Posteriormente, realizaremos los diagramas de caja:

Este diagrama, acerca de la edad mediana de la población, nos indica que la mediana se encuentra aproximadamente a medio camino entre el primer y el tercer cuartil, en el medio de la caja, justo como habíamos advertido anteriormente. Asimismo, situamos los valores en una zona intermedia entre el valor máximo y el mínimo. También apreciamos posibles observaciones atípicas tanto por arriba como por debajo de los bigotes del gráfico.

Con este segundo gráfico, referido a la población residente, obtenemos conclusiones muy parejas a las que hemos realizado con los estadísticos anteriores. La mayoría de los datos los situamos en las poblaciones residentes más pequeñas, muy próximos al mínimo, así como podemos distinguir la mediana más cerca del primer cuartil que del tercero. Confirmamos nuevamente la existencia de datos atípicos, como podemos ver en la parte superior del presente gráfico, en torno al valor 13 y en adelante.

#Selección del Modelo

Conformamos a continuación nuestro modelo basándonos en nuestra variable explicativa y explicada:

## 
## Call:
## lm(formula = `Edad mediana de la población (años)` ~ `Poblacion residente en log`, 
##     data = DatosFinal)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -8.2206 -1.7243 -0.1794  1.4948  9.8315 
## 
## Coefficients:
##                              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                   37.4394     1.7763  21.077  < 2e-16 ***
## `Poblacion residente en log`   0.4717     0.1646   2.865  0.00439 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.688 on 403 degrees of freedom
## Multiple R-squared:  0.01996,    Adjusted R-squared:  0.01753 
## F-statistic: 8.207 on 1 and 403 DF,  p-value: 0.004392

Una vez conformado el modelo con nuestras dos variables obtenemos los primeros datos acerca de él que comentaremos más adelante con el objetivo de extraer conclusiones.

Pasamos a realizar el diagrama de dispersión con MLS y Loess que no es indicara si nuestro modelo estimado es adecuado o si por el contrario requiere alguna transformación:

Una vez obtenido el gráfico observamos que las bandas de confianza están prácticamente superpuestas y las líneas correspondientes a MLS (línea blanca) y a Loess (línea roja) son prácticamente coincidentes. Por consecuencia, diríamos que este modelo puede ser un buen modelo para el estudio de las variables ya que dichas estimaciones son muy semejantes.

No obstante, para poder confirmar que este modelo es adecuado haremos un test reset con el objetivo de que así lo corrobore ya que nos indicará si se cumple la hipótesis de normalidad:

## 
##  RESET test
## 
## data:  ModeloPrimero
## RESET = 1.0663, df1 = 2, df2 = 401, p-value = 0.3453

En este test tomaremos como punto de partida: -H0: hay linealidad en el modelo -H1: no existe linealidad en el modelo

A un nivel de significatividad del 5% no rechazaríamos la hipótesis nula ya que 0,3445>0,05, luego podemos concluir que nuestro modelo es lineal y que es apto para trabajar con él sin requerir ningún tipo de transformación.

#Diagnóstico del Modelo

Para seguir completando más aún el análisis pasamos a realizar otros 4 gráficos complementarios:

Con la función plot obtenemos hasta 4 gráficos que pasamos a comentar más detalladamente de forma individual:

-Gráfico Residuals vs Fitted: este gráfico nos permite ver si se cumple la hipótesis de esperanza condicional nula. Si la línea no se encontrara próxima a cero o realizase algún tipo de oscilación extraña, la hipótesis no se cumpliría. En este caso vemos que para la mayoría de observaciones esto no ocurre y se encuentran próximas a cero, sin embargo, observamos tres (219, 217 y 178) que se encuentra claramente distantes del cero y que son candidatas a ser atípicos.

-Gráfico Normal Q-Q: la función de este gráfico es que podamos determinar si se cumple o no la hipótesis de normalidad en la distribución de las perturbaciones. Observamos que sí que se cumple esta normalidad, de modo que, al hacer inferencia, nos apoyaremos en estadísticos habituales con distribuciones como la t-student o la F de Snedecor. No obstante, de nuevo en este gráfico se nos indica posibles atípicos en las observaciones (372, 219 y 178).

-Gráfico Scale-Location: por medio de este gráfico trataremos de averiguar si se cumple la hipótesis de homocedasticidad. Lo cierto es que en esta ocasión no podemos sacar conclusiones muy concluyentes, por lo que procederemos más adelante a realizar un test de Breus Pagan para confirmar o desestimar nuestras sospechas.

-Gráfica Residuals vs Leverage: nos indica la existencia de posibles atípicos (69 y otros que no podemos apreciar nítidamente). Con el objetivo de tratar de ser más rigurosos y específicos más adelante utilizaremos algunas herramientas que nos ayudarán a verificar si realmente se tratan de atípicos.

Como anteriormente hemos comentado, nos dispones a realizar a continuación el test de Breus Pagan, para determinar si hay o no heterocedasticidad. Para ello consideraremos como hipótesis nula el hecho de que hay homocedasticidad y como hipótesis alternativa que no hay homocedasticidad, y por tanto hay heterocedasticidad.

## 
##  studentized Breusch-Pagan test
## 
## data:  ModeloPrimero
## BP = 0.0015229, df = 1, p-value = 0.9689

Para interpretar los resultados de este test compararemos el p-valor obtenido con el nivel de significación (tomaremos como referencia el 5%). En nuestro caso como observamos que el p-value es mayor que el 5% (0,9668>0,05) aceptamos la hipótesis nula y por tanto podemos afirmar que existen evidencias de homocedasticidad en nuestro modelo, con un nivel de confianza del 95%.

Pasamos ahora a analizar los atípicos. Anteriormente habíamos encontrado posibles candidatos y ahora trataremos de concretar si realmente lo son. Para ello hallaremos los residuos studentizados, de aquí podemos indicar que hay posibles observaciones atípicas cuando éstas son superiores a 2 en valor absoluto.

##            1            2            3            4            5 
## -1.251028576 -1.108572890 -0.627212023 -0.532165270  0.319627898 
##            6            7            8            9           10 
## -0.469738858  0.249156236 -0.974579458 -0.138768079  1.235400071 
##           11           12           13           14           15 
## -1.000578050  0.021425121 -0.670955037  0.336448559  0.886126562 
##           16           17           18           19           20 
## -0.657028773  0.224182018 -0.906887938 -0.028669005 -0.581918536 
##           21           22           23           24           25 
## -0.498495936 -0.989473398 -0.603041267  0.005613570 -1.023657335 
##           26           27           28           29           30 
##  0.705238065 -0.711919549 -0.745956980 -0.840677012 -0.908214520 
##           31           32           33           34           35 
## -0.854956190  0.886422567  1.161894158  0.120311577 -0.439756137 
##           36           37           38           39           40 
##  0.147287599  0.218735955 -0.123094387  0.856688628 -0.484204163 
##           41           42           43           44           45 
## -0.406935123 -1.179069003 -0.982603446 -1.081388916  2.170438689 
##           46           47           48           49           50 
## -1.477069152 -2.153159598  0.025683973  0.390945354 -0.343869872 
##           51           52           53           54           55 
##  0.495002596  2.445958741  0.122585349 -1.462503387 -0.523279736 
##           56           57           58           59           60 
## -0.133275229  1.238156524  1.309810411 -0.047346708 -0.303080956 
##           61           62           63           64           65 
## -0.188019914 -0.893352690  2.650746861  0.107055864 -0.337165776 
##           66           67           68           69           70 
##  0.179583764  0.515665830 -0.178556106  1.622744272  0.497584176 
##           71           72           73           74           75 
## -0.832877291 -1.016036355 -0.096104367  0.924350219  0.090011522 
##           76           77           78           79           80 
##  1.033105570  0.133790190  1.583384523  0.613030018  0.310937007 
##           81           82           83           84           85 
##  0.584611140  1.228533053 -0.340953348  0.962789246 -0.268052975 
##           86           87           88           89           90 
##  0.898827974 -0.145815294  1.022130101 -0.001167055  1.121081667 
##           91           92           93           94           95 
## -0.018369274  1.357215608  0.387319776  0.152767823 -0.713474497 
##           96           97           98           99          100 
## -1.572004999  0.168588978 -0.359625382  0.014041440  2.394530359 
##          101          102          103          104          105 
##  0.460854656 -0.300143753  0.390501570 -2.264169019 -1.042381964 
##          106          107          108          109          110 
## -0.613966170 -0.578065476 -0.015753096 -0.066763144 -0.573536913 
##          111          112          113          114          115 
## -0.603877991 -0.978802743 -0.526954617 -0.066164395 -1.021732114 
##          116          117          118          119          120 
##  0.240180347  1.295763153  0.251189971 -0.377856115  0.257920290 
##          121          122          123          124          125 
##  1.263632072  0.556496463  0.697052440 -0.439431103  1.578916673 
##          126          127          128          129          130 
## -1.178039005  0.813471951 -0.668566067  1.828031174 -1.170165755 
##          131          132          133          134          135 
## -2.153303100 -0.562326879  0.727838893  1.133347862  1.293732070 
##          136          137          138          139          140 
##  0.057189345  0.891110023 -0.495356464  2.478693530  2.841445522 
##          141          142          143          144          145 
## -1.172830674  0.723811082 -0.912545907 -1.662057038 -0.436239401 
##          146          147          148          149          150 
##  1.748208088  0.666601588  0.042230705  0.070479145 -0.343040353 
##          151          152          153          154          155 
##  1.822269530  2.011455519 -0.980959691  0.543349532 -1.198951689 
##          156          157          158          159          160 
## -0.136307087 -0.283869944 -0.407316796 -0.154803687  1.218228406 
##          161          162          163          164          165 
## -0.232793405 -0.127709320  0.504108075  0.415401995  1.122157430 
##          166          167          168          169          170 
##  0.107148526 -1.895585392 -1.074804808 -0.429789634  0.985668598 
##          171          172          173          174          175 
## -0.818338917 -0.055581130  1.580898784 -0.484356617 -1.072184436 
##          176          177          178          179          180 
##  0.354158055  1.945099342  2.872379643 -0.547198349  0.157398485 
##          181          182          183          184          185 
##  0.627451984  2.434973986 -1.460347304  0.360506941 -0.480583102 
##          186          187          188          189          190 
##  0.646825581 -0.138344836  0.414963283 -0.437310285 -0.313471996 
##          191          192          193          194          195 
##  0.509507241  0.227544821 -1.139641233 -0.937170418  1.062724970 
##          196          197          198          199          200 
## -0.264930259 -1.255810169 -0.961738751 -0.600636465 -0.561667566 
##          201          202          203          204          205 
## -0.859227127  0.054878037 -0.173252965  0.226394400 -0.062933685 
##          206          207          208          209          210 
## -0.650760368 -0.672747902  1.068734371 -0.337564475 -0.169988514 
##          211          212          213          214          215 
## -0.242238089  0.628341658 -0.399744513 -0.039335162  1.181330264 
##          216          217          218          219          220 
## -0.947361109 -3.096599737 -0.488864872  3.720154669 -0.859902795 
##          221          222          223          224          225 
##  1.548368897  0.422483022 -1.152336424 -1.154726382  0.171788566 
##          226          227          228          229          230 
##  0.035984920  0.454028348 -0.406559462  0.820993158  0.321409444 
##          231          232          233          234          235 
## -0.303746471 -0.745873684 -1.059247228 -0.221877633  0.570602568 
##          236          237          238          239          240 
## -1.475763234  1.488400195 -2.499099538  0.149190102  1.064893004 
##          241          242          243          244          245 
## -0.376930858  0.689320899 -0.973558265  0.242803714 -0.261722657 
##          246          247          248          249          250 
##  0.416897203  1.086506431  0.167942405  1.853504713  1.396662936 
##          251          252          253          254          255 
## -0.536861829 -1.494658949 -0.161453984  1.821485754 -0.993898366 
##          256          257          258          259          260 
## -0.099481796  0.214767085  0.644825090 -1.653685679 -1.787558655 
##          261          262          263          264          265 
## -0.888629903  0.030734948 -0.073361669 -0.633185953  0.192628326 
##          266          267          268          269          270 
##  0.701701910 -1.086784670  0.785920748 -0.815271724  1.854119431 
##          271          272          273          274          275 
##  0.222161287  0.666443152  2.801598679 -0.144981928  0.074375889 
##          276          277          278          279          280 
##  0.696279871  0.925313648 -0.374276856  1.865290099 -0.514414599 
##          281          282          283          284          285 
## -1.454797993 -0.419184831  0.736238041  1.093635874  0.389607663 
##          286          287          288          289          290 
##  1.373210568  0.907684333 -0.374661141 -0.340925268  0.889293258 
##          291          292          293          294          295 
## -0.641804089 -0.908072899 -0.512675481 -1.770642972  0.353355188 
##          296          297          298          299          300 
## -2.000173750 -0.317620402 -0.860276396 -0.533452912 -0.303952380 
##          301          302          303          304          305 
##  0.654755692  2.319269935 -0.639873128 -1.820330756  1.041725311 
##          306          307          308          309          310 
##  0.076120767 -0.178316491 -0.289098284 -0.178999065 -1.062327812 
##          311          312          313          314          315 
## -0.178002176 -1.207993567 -0.893712428 -0.878644150 -0.856839398 
##          316          317          318          319          320 
## -0.755171103 -0.493663188 -0.501848239 -1.448250757  0.062832225 
##          321          322          323          324          325 
## -0.962955661  0.487395884  0.276262786  0.090502515  0.140666211 
##          326          327          328          329          330 
## -1.216937569 -0.197988371  0.071630835 -0.182953670  0.370657190 
##          331          332          333          334          335 
## -0.891482788 -1.130792882 -0.226684203  0.052681334  1.890930873 
##          336          337          338          339          340 
##  1.050658304  1.871423315  1.627977339 -2.309222755  2.342262022 
##          341          342          343          344          345 
## -0.143245374  1.552941397  1.041541876  0.838986293  0.935266877 
##          346          347          348          349          350 
##  0.381431862 -0.049062625 -0.254117866 -0.137081746 -0.365399513 
##          351          352          353          354          355 
## -0.691106604  0.556942455 -0.494868524 -0.771165402 -0.516949152 
##          356          357          358          359          360 
## -1.105877115  1.993261679 -0.195044689  0.096918853 -0.618809130 
##          361          362          363          364          365 
## -1.892030278 -0.936569704  0.853393357  0.471220061 -1.128147409 
##          366          367          368          369          370 
## -0.804571848  0.103289250  0.197555584 -0.683717303 -1.309958201 
##          371          372          373          374          375 
##  0.143261967  0.281297298  0.511633356  1.991988645 -1.715350649 
##          376          377          378          379          380 
##  0.193778144 -0.588055744  0.054830404 -0.816666464 -2.416082012 
##          381          382          383          384          385 
##  0.858986031 -0.288349382 -0.170434927  0.801570271  0.478055103 
##          386          387          388          389          390 
## -0.315553417 -1.170534613  0.671514925  0.200800707 -1.378978761 
##          391          392          393          394          395 
##  0.078223277 -0.346386522  0.408638456  0.092813597  0.459202557 
##          396          397          398          399          400 
##  0.430072893  0.444300461  0.160961149 -0.690266979  2.158164055 
##          401          402          403          404          405 
##  0.439504697  0.912864892 -1.732222234 -0.052400020  2.134722683

Encontramos varios ejemplos de observaciones cuyo valor studentizado es superior a 2, tanto en positivo como en negativo, es decir, por exceso y defecto. Destacan entre otras la 217 (-3,096) y la 219 (3,72). Estas observaciones son candidatas a ser atípicos, lo cual comprobaremos finalmente con el contraste de Bonferroni. Este test en caso en el que el p-valor sea menor que el nivel de significación, 0,05 para nosotros, nos indicará la existencia de un atípico y nos lo manifestará.

## No Studentized residuals with Bonferroni p < 0.05
## Largest |rstudent|:
##     rstudent unadjusted p-value Bonferroni p
## 219 3.720155         0.00022742     0.092105

Una vez efectuado el contraste se nos indica la observación 219 como la más potencialmente atípica, sin embargo, con el contraste de Bonferroni para esta observación (al 95% de confianza) no se rechaza (0,09>0,05) y por lo tanto no existiría ningún atípico. Si volvemos a nuestros datos podemos constatar que esta observación se corresponde con Mieres.

	StudRes	Hat	CookD
61	-0.1880199	0.0494867	0.0009225
152	2.0114555	0.0140237	0.0285572
196	-0.2649303	0.0695306	0.0026285
217	-3.0965997	0.0038584	0.0181830
219	3.7201547	0.0026215	0.0176260
374	1.9919886	0.0153053	0.0306124

Observamos la influencia de los atípicos, en concreto se nos señalan varios con una importancia relevante y que son los que más influyen como el 219, el 196 o el 61.

Una vez realizado estudiado el modelo con mayor profundidad pasamos a comentar nuevas cosas sobre él:

## 
## Call:
## lm(formula = `Edad mediana de la población (años)` ~ `Poblacion residente en log`, 
##     data = DatosFinal)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -8.2206 -1.7243 -0.1794  1.4948  9.8315 
## 
## Coefficients:
##                              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                   37.4394     1.7763  21.077  < 2e-16 ***
## `Poblacion residente en log`   0.4717     0.1646   2.865  0.00439 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.688 on 403 degrees of freedom
## Multiple R-squared:  0.01996,    Adjusted R-squared:  0.01753 
## F-statistic: 8.207 on 1 and 403 DF,  p-value: 0.004392

Realizamos el contraste de significatividad individual, es decir, nuestra idea principal es conocer si la población residente (expresada mediante logaritmos) es relevante para explicar la edad media de la población. Para ello, tomaremos como hipótesis nula (Ho) que el coeficiente asociado a la población residente es igual a 0 y en consecuencia tomaremos como hipótesis alternativa que el coeficiente es distinto de 0. Para determinar si debemos aceptar o rechazar la hipótesis nula contrastaremos el p-valor con el nivel de significación, si este fuera menor rechazaríamos la hipótesis nula. Para ello utilizaremos de nuevo un nivel de significación del 5%.

Como podemos comprobar el p-valor nos da un resultado de 0,004392 por lo que es inferior a 0.05, lo cual significaría que rechazamos la hipótesis nula y en conclusión podemos afirmar que el coeficiente asociado a la población residente si que es relevante en el estudio de la edad mediana de la población, todo ello con una significatividad del 5%.

Es por tanto de especial relevancia la interpretación de este coeficiente asociado a la población residente, en nuestro caso 0.4717, con el que podemos concluir que a tenor de las características de las variables (explicativa y explicada) por cada punto porcentual que aumente la población residente, la edad mediana aumentará un 0,004717%.

Para terminar, especial mención merece también interpretar el R^2, cuyo valor es de 0,01996, que nos permite llegar a la conclusión de que el 1,996% de la variabilidad de la proporción de la edad mediana de la población esta explicada por el modelo.

#Discusión

Tal y como habíamos intuido en un primer momento existe una relación directa entre las variables de modo que al aumentar los valores de la variable explicativa aumentan también los valores de la variable explicada, así podemos decir que, a mayor población, mayor es la edad mediana de éste.

No obstante, es apropiado indicar que sería complejo intentar explicar la variable explicada solamente por medio de la variable explicativa, puesto que existen un gran número de factores que podrían influir. Por ello una opción interesante podría ser realizar un modelo lineal general que incluyera estas otras variables ya que de la manera en la que se encuentra ahora mismo nuestro modelo no sería apropiado sacar conclusiones concluyentes.

Trabajo Econometria

Jorge Montero García

3/12/2019