Introducción

En este apartado se nos presentan las dos variables que vamos a estudiar en este análisis. Obtenemos que la variable explicada (la que debe de ir en el eje Y) se corresponde con la Edad mediana de la población(en años) en el año 2018 para la población total.Por otro lado tambien sabemos que la variable explicativa (la que debe de ir en el eje X) se corresponde con el tamaño medio de los hogares en el año 2018 para la población total.Vamos a usar la base de datos urbanaudit que proviene del INE y contiene información acerca de municipios que superen los 2000 habitantes.

Como sabemos que la mediana no siempre tiene que coincidir con la media esto nos complica hacer un predicción de la relación causal esperada . Una relación causal de x e y existe si la ocurrencia del primero causa el otro.

En este caso tenemos que nuestra variable explicativa, tamaño medio del hogar, implicaria una cierta edad mediana de la población. Lo esperado es que ocurra asi,debido a que el tamaño del hogar en función del hogar tiene una relación aunque sea muy debil. Una persona de corta edad (un niño) vive con sus padre y puede tener hermanos. Una persona de una edad joven (unos 25 años) empieza ya a mudarse y a vivir solo , y mas adelante puede formar una familia y con lo cualn el tamaño de su hogar también aumentará , y cuando esos miembros de la familia crezcan y se independizen también se reducira.

Vemos que la relación causal es muy débil, es por ello que el análisis a desarrollar nos servirá de gran ayuda para evaluar si existe o no relación causal.

Análisis descriptivo

En este apartado pasaremos a estudiar los estadísticos descriptivos de las variables,asi como las funciones de densidad y diagramas de violín de las variables, con un comentario de los resultados observables de cada uno de los estudios.

Periodo Sexo Nivel.territorial EMedPob TMedHog
2018:316 Total :316 36008 Cangas : 1 Min. :34.58 Min. :2.150
2017: 0 Hombres: 0 30015 Caravaca de la Cruz: 1 1st Qu.:40.77 1st Qu.:2.527
2016: 0 Mujeres: 0 15019 Carballo : 1 Median :42.45 Median :2.650
2015: 0 NA 46083 Carcaixent : 1 Mean :42.54 Mean :2.654
NA NA 41024 Carmona : 1 3rd Qu.:44.07 3rd Qu.:2.770
NA NA ES506C1 Cartagena : 1 Max. :52.25 Max. :3.390
NA NA (Other) :310 NA NA

Podemos apreciar que los datos correspondientes a la edad mediana se van a comprender entre 34,58 y 52,25 . Mientras los del tamaño medio del hogar entre 2,15 y 3,39. Hay una observación curiosa ya que, conociendo que el intervalo entre el 1er y 3er cuartil corresponde con el 50% de los datos,vemos que la media de la Edad Mediana esta mas cerca del 1er cuartil que del 3er cuartil,mientras que en el tamaño medio del hogar es al reves. Con los que podemos ver que,si existe relación, todo hace indicar que sería inversa (a mas pequeña la edad mediana es mas grande el tamaño medio del hogar).

Procedamos ahora con las funciones de densidad de las variables,para ellos vamos a realizar un gráfico para poder verla mejor.

En este gráfico podemos apreciar la frecuencia con la que se repite la media del tamaño medio de los hogares de los municipios españoles.Podemos distinguir que la gráfica es similar a la que sigue la gráfica de una distribución normal,ya que tiene forma acampanada y parece tener simetria respecto a un parámetro estádistico.Podemos apreciar que la cifra mas repetida de las medias españolas se encuentra en torno al 2.65 de personas por hogar,que correspondera a la moda de dicho dato. Tiene un dominio desde 2.15 hasta 3.39,toma valores entre dichas cifras.

Aqui como en la gráfica anterior podemos apreciar como se distribuye el dato de la edad mediana a lo largo de los municipios españoles.Vemos que tambien se parece a una distribución normal. Vemos que el dato mas repetido se sitúa cerca de los 42 años.

Procedamos ahora con los diagramas de violín, que es una variable estética de los diagramas de cajas.

Nos vemos ningun atípico y vemos que los datos estan muy concentrados entorno al intervalo entre 40-45. Parece que sigue una distribucion normal con los datos centrados en el valor central de la gráfica.

Selección del modelo y diagnóstico

Para comenzar en este apartado empezaremos por analizar el diagrama de dispersión con MLS ajustado y LOESS.

## 
## Call:
## lm(formula = TMedHog ~ EMedPob, data = datos)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.42259 -0.07370 -0.01392  0.06150  0.57948 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  4.919069   0.111850   43.98   <2e-16 ***
## EMedPob     -0.053254   0.002624  -20.30   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.1299 on 314 degrees of freedom
## Multiple R-squared:  0.5674, Adjusted R-squared:  0.5661 
## F-statistic: 411.9 on 1 and 314 DF,  p-value: < 2.2e-16
## 
##  Linear Regression
## 
## Correlation coefficient r =  -0.7533 
## 
## Equation of Regression Line:
## 
##   TMedHog = 4.9191 + -0.0533 * EMedPob 
## 
## Residual Standard Error: s   = 0.1299 
## R^2 (unadjusted):        R^2 = 0.5674

Podemos ver en este gráfico que el modelo parece lineal y que no necesita nigún cambio en las variables a estudiar. Afirmamos esto ya que las lineas de regresión en ningún momento se sale de las bandas de confianza.Para asegurarnos de lo que decimos realizamos el Test de Reset.

## 
##  RESET test
## 
## data:  LM
## RESET = 0.36034, df1 = 2, df2 = 312, p-value = 0.6977

El valor de P es de 0,6977 por lo que no rechazamos la linealidad

Para conocer mas de este modelo nos pondremos a analizar estas gráficas que hemos obtenido de nuestro modelo:

-En primer lugar observamos la gráfica “Residuals vs Fitted”. Observamos que la linea que nos dibuja esta muy próxima al cero con lo cual nos dice que no hay evidencias de que haya una no linealidad.Dicho esto y una vez vista la gráfica inicial y el realizado el Test de Reset podemos confirmar que es Lineal.

-Lo siguiente en analizar sera la gráfica Scale-Location (la gráfica que nos dice si podemos rechazar la existencia de Homocedasticidad en el modelo) y por lo que vemos en la gráfica parece que hay Herterocastidad.Para comprobar este indicio realizamos el Test de Breusch-Pagan.

## 
##  studentized Breusch-Pagan test
## 
## data:  LM
## BP = 4.6177, df = 1, p-value = 0.03164

En este caso tenemos que H0 es que haya Homocedasticidad. Como nuestro valor de P es inferior a 0.05 tenemos que rechazar la Homocedasticidad.Por lo tanto habra que aplicar Test de contraste de robustos

-Ahora iremos a por a gráfica Normal Q-Q para comprobar la normalidad.Podemos ver que difiere mucho de la diagonal señalizada con lo cual es un indicio de que no existira la normalidad. Para comprobar esto acudiremos al contraste de normalidad Shapiro-Wilk

## 
##  Shapiro-Wilk normality test
## 
## data:  rstudent(LM)
## W = 0.94456, p-value = 1.622e-09

Vemos que el valor de P es muy pequeño por lo que debemos rechazar la normalidad.Al tener un tamaño muy amplio de observaciones podemos asumir esta falta de normalidad como algo normal y no debemos preocuparnos por ello

-Por último analizaremos la gráfica Residuals vs Leverage y podemos ver a simple vista que si existe un par de atípicos.Pero para comprobar esta afirmación realizaremos el contraste de Bonferroni

##     rstudent unadjusted p-value Bonferroni p
## 269 4.609741         5.8802e-06    0.0018581
## 185 4.187402         3.6722e-05    0.0116040

Nuestra Hipotesis Nula en este caso sería “No hay observaciones atipicas” y como nuestro valo de P es menor que 0.05 debemos rechazar que no hay atipicos. Podemos decir que nuestro modelo tiene un par de atipicos.Ahora una vez conocido esto valoraremos la influencia de las observaciones.

StudRes Hat CookD
128 2.4599964 0.0289797 0.0888738
130 0.1054794 0.0416563 0.0002426
185 4.1874021 0.0031710 0.0264939
269 4.6097405 0.0034772 0.0348281
314 -3.3269265 0.0135483 0.0736474

En esta tabla se puede observar las observaciones con mayor peso. En el gráfico podemos decir que los circulos más grandes son los que mayor distancia de Cook tienen. Podemos destacar en este apartado la observación 128 y la 314, que son dos observaciones muy influyentes visto tu peso y tamaño. Si acudimos a la gráfica Residuals VS Leverage podemos ver que si son dos datos a tener en cuenta. En el caso de la observacion 314 se corresponde a Pajara, en el caso de la observacion 128 a Melilla, el municipio con la edad mediana mas alta y el tamaño medio delhogar mas pequeño.

Ahora ya una vez obtenidos estos datos pasaremos a realizar el diagnostico general de nuestro modelo

## 
## Call:
## lm(formula = TMedHog ~ EMedPob, data = datos)
## 
## Coefficients:
## (Intercept)      EMedPob  
##     4.91907     -0.05325  
## 
## 
## ASSESSMENT OF THE LINEAR MODEL ASSUMPTIONS
## USING THE GLOBAL TEST ON 4 DEGREES-OF-FREEDOM:
## Level of Significance =  0.05 
## 
## Call:
##  gvlma(x = LM, timeseq = fitted(LM)) 
## 
##                       Value   p-value                   Decision
## Global Stat        155.6017 0.000e+00 Assumptions NOT satisfied!
## Skewness            40.7048 1.771e-10 Assumptions NOT satisfied!
## Kurtosis           103.2700 0.000e+00 Assumptions NOT satisfied!
## Link Function        0.5431 4.611e-01    Assumptions acceptable.
## Heteroscedasticity  11.0839 8.708e-04 Assumptions NOT satisfied!

Este diagnostico nos confirma lo que hemos dicho anteriormente.

## 
## Call:
## lm(formula = TMedHog ~ EMedPob, data = datos)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.42259 -0.07370 -0.01392  0.06150  0.57948 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  4.919069   0.111850   43.98   <2e-16 ***
## EMedPob     -0.053254   0.002624  -20.30   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.1299 on 314 degrees of freedom
## Multiple R-squared:  0.5674, Adjusted R-squared:  0.5661 
## F-statistic: 411.9 on 1 and 314 DF,  p-value: < 2.2e-16

Interpretación de coeficientes:

-La interpretación de la constante se basa en el valor esperado medio de la variable explicada cuando la variable explicativa es igual a 0.En nuestro caso nos indica que, siendo el Tamaño Medio de los hogares igual a cero, el valor esperando de la Edad Mediana de la población es de 4.91. Además,podemos rechazar que sea igual a cero al 99.9% por tener un valor de p menor del 0.001.

-La segunda variable correspondiente a Edad Mediana de la Población, tiene un valor de p muy bajo por lo que rechazamos que sea 0.Tambien conocemos que es negativa,eso nos quiere decir que es una parabola con un máximo. La función primero crece, toca un máximo y finalmente decrece.

-El valor de P es de 0.004869.Con esto podemos obtener la conclusión de que no podemos rechazar que el Tamaño Medio de los hogares tiene la capacidad de explicar una parte significativa de la variación de la variable dependiente, es decir, la edad Mediana de la población. Con lo que podemos confirmar la relación entre ambas variables.

-Por otra parte vemos que la relación es negativa, ya que la variación del Tamaño medio de la población es igual a la variacion de la Edad Mediana multiplicado por -0.053254

-Por último observamos que el valor de R es de 0,5661 (un valor bastante alto) con lo que se puede decir que el modelo es suficientemente preciso.

Discusión

Para comenzar con la discusión final empezaremos por comparar con la predicción inicial. En primer lugar nos hemos encontrado con que finalmente si existía una relación causal entre ambas variables y que esta era lineal como nos imaginabamos en la predicción inicial, esto significa que ambas variables si parecen que sean proporcionales. Como sabemos que la relación es negativa implica que cuanto mas grande es el Tamaño medio de los hogares mas pequeño es la Edad Mediana de la Población (en una proporción de -0.053254).

Para concluir podemos asumir que el modelo es apto y bueno, pero podemos mejorarlo si incluyesemos mas variables en el.