El trabajo que debo de realizar trata sobre la proporción de hogares de una persona sobre el total de hogares y sobre el tamaño medio de los hogares, ambas variables se valoraran en el año 2017 y sobre la población total.
Primero cargamos los paquetes necesarios para hacer el trabajo.Son los siguientes:
Ahora, debemos de cargar los datos urban audit del INE.
Eliminamos los datos NA, ya que no sirven para nada en el trabajo y nos podría llevar a la confusión. Selecciono las variables con la que voy a realiza el estudio que me exige el trabajo.
Elimino columnas que no son necesarias en el trabajo. Cambio el nombre de las variables para sintetizar mejor los datos y enterarnos mejor.
Eliminamos el Total Nacional.
## min Q1 median Q3 max mean sd n missing
## 1 2.16 2.52 2.64 2.76 3.39 2.650526 0.194003 399 0
## min Q1 median Q3 max mean sd n missing
## 1 13.72 22.555 25.59 28.495 39.5 25.48529 4.562408 399 0
En las siguientes gráficas relacionamos la densidad con la Media de Hogares (gráfica 1) y El total de Hogares, anteriorme cambiado el nombre por el nombre de Viviendas (gráfica 2) Y podemos observar como ambas gráficas son unimodales, es decir, solo tenemos una moda. Visualmente, en ambas, podemos ver como nuestros datos parecen ajustarse a una campana de Gauss o normal.
Para que quede una representación gráfica más exacta de los datos y se pueda ver de una manera más clara, he metido el paquete de histograma y quedaría de la siguiente manera:
Podemos observar como en la gráfica que la estimación Loess se aproxima a la estimación lineal, por lo tanto la relación sí que es lineal.
##
## RESET test
##
## data: Modelo
## RESET = 4.4078, df1 = 2, df2 = 395, p-value = 0.01279
El p-valor (0,01279) es menor que alfa por lo que rechazo la Ho (Hipotesis nula) entonces interpreto el modelo como no lineal.
##
## studentized Breusch-Pagan test
##
## data: Modelo
## BP = 1.1978, df = 1, p-value = 0.2738
Como el p-valor(0,2738) es mayor que alfa (0,05) por lo que no rechazo la Ho (Hipotesis nula) por lo tanto el modelo sería homocedastico.
## StudRes Hat CookD
## 67 0.9595883 0.026214380 0.01239660
## 103 4.4051801 0.002917280 0.02713079
## 215 4.9430395 0.007724917 0.08980757
## 277 1.8428541 0.025409336 0.04400578
## 356 2.6208317 0.015980105 0.05496053
Hay 5 datos atípicos y el más atipico es el más grande 215, con 4,9430395
Podemos observar como no existe ninguna relación lineal entre la variable explicada y la regresora.
##
## Shapiro-Wilk normality test
##
## data: rstudent(Modelo)
## W = 0.9718, p-value = 5.563e-07
Como p-valor es menor que alfa por lo que rechazo la Ho (Hipotesis Nula) por lo tanto los datos no provienen de una distribución normal.
La gráfica se ajusta muy bien a la nube de puntos y el modelo queda estimado.
## # A tibble: 2 x 5
## term estimate std.error statistic p.value
## <chr> <dbl> <dbl> <dbl> <dbl>
## 1 (Intercept) 3.56 0.0335 106. 1.19e-293
## 2 Viviendas -0.0357 0.00128 -27.9 1.09e- 95
Es un estimador robusto es decir con heterocedasticidad
##
## t test of coefficients:
##
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.5605201 0.0333070 106.900 < 2.2e-16 ***
## Viviendas -0.0357066 0.0012714 -28.084 < 2.2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Family: gaussian
## Link function: identity
##
## Formula:
## Media_Hogares ~ s(Viviendas)
##
## Parametric coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 2.650526 0.005218 507.9 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Approximate significance of smooth terms:
## edf Ref.df F p-value
## s(Viviendas) 3.954 4.952 198.3 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## R-sq.(adj) = 0.711 Deviance explained = 71.4%
## GCV = 0.011002 Scale est. = 0.010866 n = 399