## Registered S3 method overwritten by 'printr':
## method from
## knit_print.data.frame rmarkdown
## Loading required package: stringr
## Loading required package: reshape2
## Loading required package: RJSONIO
## Loading required package: plyr
## ── Attaching packages ─────────────────────────────────────── tidyverse 1.2.1 ──
## ✔ ggplot2 3.2.1 ✔ readr 1.3.1
## ✔ tibble 2.1.3 ✔ purrr 0.3.2
## ✔ tidyr 1.0.0 ✔ dplyr 0.8.3
## ✔ ggplot2 3.2.1 ✔ forcats 0.4.0
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::arrange() masks plyr::arrange()
## ✖ purrr::compact() masks plyr::compact()
## ✖ dplyr::count() masks plyr::count()
## ✖ dplyr::failwith() masks plyr::failwith()
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::id() masks plyr::id()
## ✖ dplyr::lag() masks stats::lag()
## ✖ dplyr::mutate() masks plyr::mutate()
## ✖ dplyr::rename() masks plyr::rename()
## ✖ dplyr::summarise() masks plyr::summarise()
## ✖ dplyr::summarize() masks plyr::summarize()
## Loading required package: lattice
## Loading required package: ggformula
## Loading required package: ggstance
##
## Attaching package: 'ggstance'
## The following objects are masked from 'package:ggplot2':
##
## geom_errorbarh, GeomErrorbarh
##
## New to ggformula? Try the tutorials:
## learnr::run_tutorial("introduction", package = "ggformula")
## learnr::run_tutorial("refining", package = "ggformula")
## Loading required package: mosaicData
## Loading required package: Matrix
##
## Attaching package: 'Matrix'
## The following objects are masked from 'package:tidyr':
##
## expand, pack, unpack
## Registered S3 method overwritten by 'mosaic':
## method from
## fortify.SpatialPolygonsDataFrame ggplot2
##
## The 'mosaic' package masks several functions from core packages in order to add
## additional features. The original behavior of these functions should not be affected by this.
##
## Note: If you use the Matrix package, be sure to load it BEFORE loading mosaic.
##
## Attaching package: 'mosaic'
## The following object is masked from 'package:Matrix':
##
## mean
## The following objects are masked from 'package:dplyr':
##
## count, do, tally
## The following object is masked from 'package:purrr':
##
## cross
## The following object is masked from 'package:ggplot2':
##
## stat
## The following object is masked from 'package:plyr':
##
## count
## The following objects are masked from 'package:stats':
##
## binom.test, cor, cor.test, cov, fivenum, IQR, median,
## prop.test, quantile, sd, t.test, var
## The following objects are masked from 'package:base':
##
## max, mean, min, prod, range, sample, sum
## Loading required package: mosaicCore
##
## Attaching package: 'mosaicCore'
## The following objects are masked from 'package:dplyr':
##
## count, tally
## The following object is masked from 'package:plyr':
##
## count
## Loading required package: splines
##
## Attaching package: 'mosaicModel'
## The following objects are masked from 'package:mosaicCore':
##
## ci.mean, ci.median, ci.sd, coverage
## Loading required package: zoo
##
## Attaching package: 'zoo'
## The following objects are masked from 'package:base':
##
## as.Date, as.Date.numeric
## Loading required package: carData
##
## Attaching package: 'car'
## The following object is masked from 'package:mosaicCore':
##
## logit
## The following objects are masked from 'package:mosaic':
##
## deltaMethod, logit
## The following object is masked from 'package:dplyr':
##
## recode
## The following object is masked from 'package:purrr':
##
## some
#Introducción
En este trabajo estudiaremos la relación entre la edad media de la población con la población residente durante el año 2018.
A priori lo lógico sería pensar que a medida que los municipios tengan una población mayor la edad mediana de éstos también será mayor y que por tanto existirá una relación directa entre ambas variables. Podemos pensar esto ya que nos encontramos en un momento en que la natalidad ha descendido considerablemente y en el que el número hijos por mujer es cada vez menor en nuestro país pasando de los 2,86 en 1960 al 1,33 (2016). Todo esto acompañado por un aumento en la esperanza de vida gracias entre otras cosas a los numerosos avances médicos y el aumento de la calidad de vida, está provocando el envejecimiento de nuestra población, al igual que está ocurriendo en otros países como en Japón. Este es un tema que no debe de pasar desapercibido y que es de suma relevancia como podemos contemplar con la continua difusión en los medios de problemas relacionados con esta situación como es el caso de las pensiones. Por ello es razonable pensar que la proporción de personas adultas y ancianas es mayor que la de personas jóvenes y niños de manera que en aquellos municipios en los que la población sea mayor se presentarán un mayor número de personas de éste primer grupo y en consecuencia se arrastrará la edad media la población hacia arriba.
No obstante, para averiguar si esto es así o no realizaremos un estudio en el cual trataremos de elaborar un modelo que nos permita observar que tipo de relación se presenta entre nuestras dos variables.
Para ello lo primero para poder comenzar será indicar a R de dónde coger los datos necesarios con los que poder trabajar, que omita aquellos datos que no están disponibles (n/a) y eliminar aquellos referidos al Total Nacional:
Distinguimos dos variables en el trabajo: la variable explicada que será la edad mediana de la población, expresada en años, para la población total en el año 2018 y la variable explicativa será la población residente, expresada en logaritmos, para la población total y para el año 2018.
## Classes 'tbl_df', 'tbl' and 'data.frame': 405 obs. of 5 variables:
## $ Periodo : Factor w/ 4 levels "2018","2017",..: 1 1 1 1 1 1 1 1 1 1 ...
## $ Sexo : Factor w/ 3 levels "Total","Hombres",..: 1 1 1 1 1 1 1 1 1 1 ...
## $ Nivel.territorial : Factor w/ 406 levels "Total Nacional",..: 2 3 4 5 6 7 8 9 10 11 ...
## $ Población residente (Personas) : num 47280 24859 35031 31152 29341 ...
## $ Edad mediana de la población (años): num 39.2 39.2 40.7 40.9 43.1 ...
Transformaremos la tabla en función de nuestras necesidades y para poder trabajar de una forma más cómoda durante el trabajo, de manera que modificaremos la variable referida a la población residente, la cual se nos presenta en los datos en número de personas, para que podamos expresarla en logaritmos tal y como se nos pide en el trabajo. También eliminaremos las columnas de sexo y periodo para quedarnos únicamente con los datos necesarios para realizar nuestro estudio.
#Análisis Descriptivo
Una vez que hemos realizado las modificaciones apropiadas en nuestros datos con el objetivo de tener una mayor comodidad a la hora de trabajar con ellos podemos comenzar nuestro estudio. En primer lugar, realizaremos un estudio de los estadísticos descriptivos:
| Edad mediana de la población (años) | Poblacion residente en log | |
|---|---|---|
| Min. :34.58 | Min. : 9.904 | |
| 1st Qu.:40.75 | 1st Qu.:10.148 | |
| Median :42.41 | Median :10.480 | |
| Mean :42.51 | Mean :10.758 | |
| 3rd Qu.:44.01 | 3rd Qu.:11.210 | |
| Max. :52.25 | Max. :14.986 |
De este primer análisis podemos obtener algunas conclusiones. Podemos ver, en primer lugar, que la edad media de la población entre los diferentes municipios del país se encuentra en un rango de entre 34,58 y 52,25 años, lo cual nos puede llegar a hacer pensar que nuestra población es mayoritariamente adulta en estos momentos. También consideramos importante resaltar que la media y la mediana son prácticamente coincidentes, en torno a los 42 años, situándose esta última en la mitad del rango intercuartílico que se sitúa entre los 40,75 y los 44,01 años por lo que podemos decir que la mitad de los municipios estudiados sitúan su media de edad en este intervalo. En cuanto a la población residente, observamos que la media y la mediana (en torno a 10) las podemos encontrar considerablemente más próximas del valor mínimo (9,904) que del máximo (14,986), por lo que podemos asegurar que existe un mayor número de municipios cuya población se concentra en torno al valor mínimo en comparación con el valor máximo; no obstante, podremos encontrar municipios cuyas poblaciones presente atípicos.
Lo siguiente que haremos será realizar las funciones de densidad apropiadas para nuestro estudio:
En esta función de densidad relativa a la edad mediana de la población, expresada en años, se constata nuestra afirmación anterior de que nuestra población es mayoritariamente adulta con una densidad mucho mayor entre los 40 y los 45 años, llegando a superar un 15% de la densidad de la población para los 42 años de edad media. Esta función presenta una forma similar a una normal.
En cuanto a la función de densidad de la población residente, expresada en logaritmos, podemos afirmar que encontramos una mayor densidad en las poblaciones menos numerosas. A medida que aumentamos la población, la densidad disminuye. No obstante, como anteriormente habíamos mencionado, es posible que nos encontremos con algunos datos atípicos en algunos puntos en los que la población es mayor.
Posteriormente, realizaremos los diagramas de caja:
Este diagrama, acerca de la edad mediana de la población, nos indica que la mediana se encuentra aproximadamente a medio camino entre el primer y el tercer cuartil, en el medio de la caja, justo como habíamos advertido anteriormente. Asimismo, situamos los valores en una zona intermedia entre el valor máximo y el mínimo. También apreciamos posibles observaciones atípicas tanto por arriba como por debajo de los bigotes del gráfico.
Con este segundo gráfico, referido a la población residente, obtenemos conclusiones muy parejas a las que hemos realizado con los estadísticos anteriores. La mayoría de los datos los situamos en las poblaciones residentes más pequeñas, muy próximos al mínimo, así como podemos distinguir la mediana más cerca del primer cuartil que del tercero. Confirmamos nuevamente la existencia de datos atípicos, como podemos ver en la parte superior del presente gráfico, en torno al valor 13 y en adelante.
#Selección del Modelo
Conformamos a continuación nuestro modelo basándonos en nuestra variable explicativa y explicada:
##
## Call:
## lm(formula = `Edad mediana de la población (años)` ~ `Poblacion residente en log`,
## data = DatosFinal)
##
## Residuals:
## Min 1Q Median 3Q Max
## -8.2206 -1.7243 -0.1794 1.4948 9.8315
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 37.4394 1.7763 21.077 < 2e-16 ***
## `Poblacion residente en log` 0.4717 0.1646 2.865 0.00439 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.688 on 403 degrees of freedom
## Multiple R-squared: 0.01996, Adjusted R-squared: 0.01753
## F-statistic: 8.207 on 1 and 403 DF, p-value: 0.004392
Una vez conformado el modelo con nuestras dos variables obtenemos los primeros datos acerca de él que comentaremos más adelante con el objetivo de extraer conclusiones.
Pasamos a realizar el diagrama de dispersión con MLS y Loess que no es indicara si nuestro modelo estimado es adecuado o si por el contrario requiere alguna transformación:
Una vez obtenido el gráfico observamos que las bandas de confianza están prácticamente superpuestas y las líneas correspondientes a MLS (línea blanca) y a Loess (línea roja) son prácticamente coincidentes. Por consecuencia, diríamos que este modelo puede ser un buen modelo para el estudio de las variables ya que dichas estimaciones son muy semejantes.
No obstante, para poder confirmar que este modelo es adecuado haremos un test reset con el objetivo de que así lo corrobore ya que nos indicará si se cumple la hipótesis de normalidad:
##
## RESET test
##
## data: ModeloPrimero
## RESET = 1.0663, df1 = 2, df2 = 401, p-value = 0.3453
En este test tomaremos como punto de partida: -H0: hay linealidad en el modelo -H1: no existe linealidad en el modelo
A un nivel de significatividad del 5% no rechazaríamos la hipótesis nula ya que 0,3445>0,05, luego podemos concluir que nuestro modelo es lineal y que es apto para trabajar con él sin requerir ningún tipo de transformación.
#Diagnóstico del Modelo
Para seguir completando más aún el análisis pasamos a realizar otros 4 gráficos complementarios:
Con la función plot obtenemos hasta 4 gráficos que pasamos a comentar más detalladamente de forma individual:
-Gráfico Residuals vs Fitted: este gráfico nos permite ver si se cumple la hipótesis de esperanza condicional nula. Si la línea no se encontrara próxima a cero o realizase algún tipo de oscilación extraña, la hipótesis no se cumpliría. En este caso vemos que para la mayoría de observaciones esto no ocurre y se encuentran próximas a cero, sin embargo, observamos tres (219, 217 y 178) que se encuentra claramente distantes del cero y que son candidatas a ser atípicos.
-Gráfico Normal Q-Q: la función de este gráfico es que podamos determinar si se cumple o no la hipótesis de normalidad en la distribución de las perturbaciones. Observamos que sí que se cumple esta normalidad, de modo que, al hacer inferencia, nos apoyaremos en estadísticos habituales con distribuciones como la t-student o la F de Snedecor. No obstante, de nuevo en este gráfico se nos indica posibles atípicos en las observaciones (372, 219 y 178).
-Gráfico Scale-Location: por medio de este gráfico trataremos de averiguar si se cumple la hipótesis de homocedasticidad. Lo cierto es que en esta ocasión no podemos sacar conclusiones muy concluyentes, por lo que procederemos más adelante a realizar un test de Breus Pagan para confirmar o desestimar nuestras sospechas.
-Gráfica Residuals vs Leverage: nos indica la existencia de posibles atípicos (69 y otros que no podemos apreciar nítidamente). Con el objetivo de tratar de ser más rigurosos y específicos más adelante utilizaremos algunas herramientas que nos ayudarán a verificar si realmente se tratan de atípicos.
Como anteriormente hemos comentado, nos dispones a realizar a continuación el test de Breus Pagan, para determinar si hay o no heterocedasticidad. Para ello consideraremos como hipótesis nula el hecho de que hay homocedasticidad y como hipótesis alternativa que no hay homocedasticidad, y por tanto hay heterocedasticidad.
##
## studentized Breusch-Pagan test
##
## data: ModeloPrimero
## BP = 0.0015229, df = 1, p-value = 0.9689
Para interpretar los resultados de este test compararemos el p-valor obtenido con el nivel de significación (tomaremos como referencia el 5%). En nuestro caso como observamos que el p-value es mayor que el 5% (0,9668>0,05) aceptamos la hipótesis nula y por tanto podemos afirmar que existen evidencias de homocedasticidad en nuestro modelo, con un nivel de confianza del 95%.
Pasamos ahora a analizar los atípicos. Anteriormente habíamos encontrado posibles candidatos y ahora trataremos de concretar si realmente lo son. Para ello hallaremos los residuos studentizados, de aquí podemos indicar que hay posibles observaciones atípicas cuando éstas son superiores a 2 en valor absoluto.
## 1 2 3 4 5
## -1.251028576 -1.108572890 -0.627212023 -0.532165270 0.319627898
## 6 7 8 9 10
## -0.469738858 0.249156236 -0.974579458 -0.138768079 1.235400071
## 11 12 13 14 15
## -1.000578050 0.021425121 -0.670955037 0.336448559 0.886126562
## 16 17 18 19 20
## -0.657028773 0.224182018 -0.906887938 -0.028669005 -0.581918536
## 21 22 23 24 25
## -0.498495936 -0.989473398 -0.603041267 0.005613570 -1.023657335
## 26 27 28 29 30
## 0.705238065 -0.711919549 -0.745956980 -0.840677012 -0.908214520
## 31 32 33 34 35
## -0.854956190 0.886422567 1.161894158 0.120311577 -0.439756137
## 36 37 38 39 40
## 0.147287599 0.218735955 -0.123094387 0.856688628 -0.484204163
## 41 42 43 44 45
## -0.406935123 -1.179069003 -0.982603446 -1.081388916 2.170438689
## 46 47 48 49 50
## -1.477069152 -2.153159598 0.025683973 0.390945354 -0.343869872
## 51 52 53 54 55
## 0.495002596 2.445958741 0.122585349 -1.462503387 -0.523279736
## 56 57 58 59 60
## -0.133275229 1.238156524 1.309810411 -0.047346708 -0.303080956
## 61 62 63 64 65
## -0.188019914 -0.893352690 2.650746861 0.107055864 -0.337165776
## 66 67 68 69 70
## 0.179583764 0.515665830 -0.178556106 1.622744272 0.497584176
## 71 72 73 74 75
## -0.832877291 -1.016036355 -0.096104367 0.924350219 0.090011522
## 76 77 78 79 80
## 1.033105570 0.133790190 1.583384523 0.613030018 0.310937007
## 81 82 83 84 85
## 0.584611140 1.228533053 -0.340953348 0.962789246 -0.268052975
## 86 87 88 89 90
## 0.898827974 -0.145815294 1.022130101 -0.001167055 1.121081667
## 91 92 93 94 95
## -0.018369274 1.357215608 0.387319776 0.152767823 -0.713474497
## 96 97 98 99 100
## -1.572004999 0.168588978 -0.359625382 0.014041440 2.394530359
## 101 102 103 104 105
## 0.460854656 -0.300143753 0.390501570 -2.264169019 -1.042381964
## 106 107 108 109 110
## -0.613966170 -0.578065476 -0.015753096 -0.066763144 -0.573536913
## 111 112 113 114 115
## -0.603877991 -0.978802743 -0.526954617 -0.066164395 -1.021732114
## 116 117 118 119 120
## 0.240180347 1.295763153 0.251189971 -0.377856115 0.257920290
## 121 122 123 124 125
## 1.263632072 0.556496463 0.697052440 -0.439431103 1.578916673
## 126 127 128 129 130
## -1.178039005 0.813471951 -0.668566067 1.828031174 -1.170165755
## 131 132 133 134 135
## -2.153303100 -0.562326879 0.727838893 1.133347862 1.293732070
## 136 137 138 139 140
## 0.057189345 0.891110023 -0.495356464 2.478693530 2.841445522
## 141 142 143 144 145
## -1.172830674 0.723811082 -0.912545907 -1.662057038 -0.436239401
## 146 147 148 149 150
## 1.748208088 0.666601588 0.042230705 0.070479145 -0.343040353
## 151 152 153 154 155
## 1.822269530 2.011455519 -0.980959691 0.543349532 -1.198951689
## 156 157 158 159 160
## -0.136307087 -0.283869944 -0.407316796 -0.154803687 1.218228406
## 161 162 163 164 165
## -0.232793405 -0.127709320 0.504108075 0.415401995 1.122157430
## 166 167 168 169 170
## 0.107148526 -1.895585392 -1.074804808 -0.429789634 0.985668598
## 171 172 173 174 175
## -0.818338917 -0.055581130 1.580898784 -0.484356617 -1.072184436
## 176 177 178 179 180
## 0.354158055 1.945099342 2.872379643 -0.547198349 0.157398485
## 181 182 183 184 185
## 0.627451984 2.434973986 -1.460347304 0.360506941 -0.480583102
## 186 187 188 189 190
## 0.646825581 -0.138344836 0.414963283 -0.437310285 -0.313471996
## 191 192 193 194 195
## 0.509507241 0.227544821 -1.139641233 -0.937170418 1.062724970
## 196 197 198 199 200
## -0.264930259 -1.255810169 -0.961738751 -0.600636465 -0.561667566
## 201 202 203 204 205
## -0.859227127 0.054878037 -0.173252965 0.226394400 -0.062933685
## 206 207 208 209 210
## -0.650760368 -0.672747902 1.068734371 -0.337564475 -0.169988514
## 211 212 213 214 215
## -0.242238089 0.628341658 -0.399744513 -0.039335162 1.181330264
## 216 217 218 219 220
## -0.947361109 -3.096599737 -0.488864872 3.720154669 -0.859902795
## 221 222 223 224 225
## 1.548368897 0.422483022 -1.152336424 -1.154726382 0.171788566
## 226 227 228 229 230
## 0.035984920 0.454028348 -0.406559462 0.820993158 0.321409444
## 231 232 233 234 235
## -0.303746471 -0.745873684 -1.059247228 -0.221877633 0.570602568
## 236 237 238 239 240
## -1.475763234 1.488400195 -2.499099538 0.149190102 1.064893004
## 241 242 243 244 245
## -0.376930858 0.689320899 -0.973558265 0.242803714 -0.261722657
## 246 247 248 249 250
## 0.416897203 1.086506431 0.167942405 1.853504713 1.396662936
## 251 252 253 254 255
## -0.536861829 -1.494658949 -0.161453984 1.821485754 -0.993898366
## 256 257 258 259 260
## -0.099481796 0.214767085 0.644825090 -1.653685679 -1.787558655
## 261 262 263 264 265
## -0.888629903 0.030734948 -0.073361669 -0.633185953 0.192628326
## 266 267 268 269 270
## 0.701701910 -1.086784670 0.785920748 -0.815271724 1.854119431
## 271 272 273 274 275
## 0.222161287 0.666443152 2.801598679 -0.144981928 0.074375889
## 276 277 278 279 280
## 0.696279871 0.925313648 -0.374276856 1.865290099 -0.514414599
## 281 282 283 284 285
## -1.454797993 -0.419184831 0.736238041 1.093635874 0.389607663
## 286 287 288 289 290
## 1.373210568 0.907684333 -0.374661141 -0.340925268 0.889293258
## 291 292 293 294 295
## -0.641804089 -0.908072899 -0.512675481 -1.770642972 0.353355188
## 296 297 298 299 300
## -2.000173750 -0.317620402 -0.860276396 -0.533452912 -0.303952380
## 301 302 303 304 305
## 0.654755692 2.319269935 -0.639873128 -1.820330756 1.041725311
## 306 307 308 309 310
## 0.076120767 -0.178316491 -0.289098284 -0.178999065 -1.062327812
## 311 312 313 314 315
## -0.178002176 -1.207993567 -0.893712428 -0.878644150 -0.856839398
## 316 317 318 319 320
## -0.755171103 -0.493663188 -0.501848239 -1.448250757 0.062832225
## 321 322 323 324 325
## -0.962955661 0.487395884 0.276262786 0.090502515 0.140666211
## 326 327 328 329 330
## -1.216937569 -0.197988371 0.071630835 -0.182953670 0.370657190
## 331 332 333 334 335
## -0.891482788 -1.130792882 -0.226684203 0.052681334 1.890930873
## 336 337 338 339 340
## 1.050658304 1.871423315 1.627977339 -2.309222755 2.342262022
## 341 342 343 344 345
## -0.143245374 1.552941397 1.041541876 0.838986293 0.935266877
## 346 347 348 349 350
## 0.381431862 -0.049062625 -0.254117866 -0.137081746 -0.365399513
## 351 352 353 354 355
## -0.691106604 0.556942455 -0.494868524 -0.771165402 -0.516949152
## 356 357 358 359 360
## -1.105877115 1.993261679 -0.195044689 0.096918853 -0.618809130
## 361 362 363 364 365
## -1.892030278 -0.936569704 0.853393357 0.471220061 -1.128147409
## 366 367 368 369 370
## -0.804571848 0.103289250 0.197555584 -0.683717303 -1.309958201
## 371 372 373 374 375
## 0.143261967 0.281297298 0.511633356 1.991988645 -1.715350649
## 376 377 378 379 380
## 0.193778144 -0.588055744 0.054830404 -0.816666464 -2.416082012
## 381 382 383 384 385
## 0.858986031 -0.288349382 -0.170434927 0.801570271 0.478055103
## 386 387 388 389 390
## -0.315553417 -1.170534613 0.671514925 0.200800707 -1.378978761
## 391 392 393 394 395
## 0.078223277 -0.346386522 0.408638456 0.092813597 0.459202557
## 396 397 398 399 400
## 0.430072893 0.444300461 0.160961149 -0.690266979 2.158164055
## 401 402 403 404 405
## 0.439504697 0.912864892 -1.732222234 -0.052400020 2.134722683
Encontramos varios ejemplos de observaciones cuyo valor studentizado es superior a 2, tanto en positivo como en negativo, es decir, por exceso y defecto. Destacan entre otras la 217 (-3,096) y la 219 (3,72). Estas observaciones son candidatas a ser atípicos, lo cual comprobaremos finalmente con el contraste de Bonferroni. Este test en caso en el que el p-valor sea menor que el nivel de significación, 0,05 para nosotros, nos indicará la existencia de un atípico y nos lo manifestará.
## No Studentized residuals with Bonferroni p < 0.05
## Largest |rstudent|:
## rstudent unadjusted p-value Bonferroni p
## 219 3.720155 0.00022742 0.092105
Una vez efectuado el contraste se nos indica la observación 219 como la más potencialmente atípica, sin embargo, con el contraste de Bonferroni para esta observación (al 95% de confianza) no se rechaza (0,09>0,05) y por lo tanto no existiría ningún atípico. Si volvemos a nuestros datos podemos constatar que esta observación se corresponde con Mieres.
| StudRes | Hat | CookD | |
|---|---|---|---|
| 61 | -0.1880199 | 0.0494867 | 0.0009225 |
| 152 | 2.0114555 | 0.0140237 | 0.0285572 |
| 196 | -0.2649303 | 0.0695306 | 0.0026285 |
| 217 | -3.0965997 | 0.0038584 | 0.0181830 |
| 219 | 3.7201547 | 0.0026215 | 0.0176260 |
| 374 | 1.9919886 | 0.0153053 | 0.0306124 |
Observamos la influencia de los atípicos, en concreto se nos señalan varios con una importancia relevante y que son los que más influyen como el 219, el 196 o el 61.
Una vez realizado estudiado el modelo con mayor profundidad pasamos a comentar nuevas cosas sobre él:
##
## Call:
## lm(formula = `Edad mediana de la población (años)` ~ `Poblacion residente en log`,
## data = DatosFinal)
##
## Residuals:
## Min 1Q Median 3Q Max
## -8.2206 -1.7243 -0.1794 1.4948 9.8315
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 37.4394 1.7763 21.077 < 2e-16 ***
## `Poblacion residente en log` 0.4717 0.1646 2.865 0.00439 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.688 on 403 degrees of freedom
## Multiple R-squared: 0.01996, Adjusted R-squared: 0.01753
## F-statistic: 8.207 on 1 and 403 DF, p-value: 0.004392
Realizamos el contraste de significatividad individual, es decir, nuestra idea principal es conocer si la población residente (expresada mediante logaritmos) es relevante para explicar la edad media de la población. Para ello, tomaremos como hipótesis nula (Ho) que el coeficiente asociado a la población residente es igual a 0 y en consecuencia tomaremos como hipótesis alternativa que el coeficiente es distinto de 0. Para determinar si debemos aceptar o rechazar la hipótesis nula contrastaremos el p-valor con el nivel de significación, si este fuera menor rechazaríamos la hipótesis nula. Para ello utilizaremos de nuevo un nivel de significación del 5%.
Como podemos comprobar el p-valor nos da un resultado de 0,004392 por lo que es inferior a 0.05, lo cual significaría que rechazamos la hipótesis nula y en conclusión podemos afirmar que el coeficiente asociado a la población residente si que es relevante en el estudio de la edad mediana de la población, todo ello con una significatividad del 5%.
Es por tanto de especial relevancia la interpretación de este coeficiente asociado a la población residente, en nuestro caso 0.4717, con el que podemos concluir que a tenor de las características de las variables (explicativa y explicada) por cada punto porcentual que aumente la población residente, la edad mediana aumentará un 0,004717%.
Para terminar, especial mención merece también interpretar el R^2, cuyo valor es de 0,01996, que nos permite llegar a la conclusión de que el 1,996% de la variabilidad de la proporción de la edad mediana de la población esta explicada por el modelo.
#Discusión
Tal y como habíamos intuido en un primer momento existe una relación directa entre las variables de modo que al aumentar los valores de la variable explicativa aumentan también los valores de la variable explicada, así podemos decir que, a mayor población, mayor es la edad mediana de éste.
No obstante, es apropiado indicar que sería complejo intentar explicar la variable explicada solamente por medio de la variable explicativa, puesto que existen un gran número de factores que podrían influir. Por ello una opción interesante podría ser realizar un modelo lineal general que incluyera estas otras variables ya que de la manera en la que se encuentra ahora mismo nuestro modelo no sería apropiado sacar conclusiones concluyentes.