#Problema
El sitio poblaciones.org es una plataforma abierta de datos espaciales de la Argentina, que posibilita la consulta, visualización y carga de información georreferenciada. Se trata de una iniciativa conjunta del Observatorio de la Deuda Social Argentina (ODSA) de la Universidad Católica Argentina (UCA) y el Consejo Nacional de Investigaciones Científicas y Técnicas (CONICET) con el objetivo de facilitar la publicación y la libre circulación de información pública y de resultados de investigación social de carácter espacial. Para este fin, pone a disposición de equipos de investigación, dependencias estatales y personas individuales la plataforma para publicar, consultar y descargar información georreferenciada. Se plantea la necesidad de seleccionar una muestra de viviendas en dos aglomerados, Reconquista/Avellaneda y Venado Tuerto, pertenecientes a la provincia de Santa Fe de Argentina. Debido a la imposibilidad de contar con un listado de viviendas para la selección de las mismas, se plantea aplicar un diseño muestral en dos etapas, seleccionando en la primera de ellas radios censales, y en la segunda una muestra de viviendas. El radio censal es una unidad geográfica que agrupa, en promedio 300 viviendas en las ciudades y de cuya construcción se encarga el Instituto Nacional de Estadística y Censos (INDEC).
Como es sabido, la condición socio demográfica de una localidad no es homogénea, existiendo distintas situaciones en diversos sectores de la misma. Es por ello que se planea agrupar los radios de acuerdo a ciertas características socio-económicas, y realizar una selección de radios dentro de cada uno de los grupos, para asegurar que todos los niveles socio-económicos se encuentren representados. Para ello, se va a utilizar información existente en el sitio web mencionado, que corresponde en su mayoría a la proveniente del Censo Nacional de Población, Hogares y Viviendas del año 2010 llevado a cabo por el INDEC.
Con respecto a las variables de estratificación, se piensa que utilizar en ambas localidades las siguientes variables:
h_hacinamiento: Hogares con hacinamiento (>= 3 personas por cuarto) h_heladera: Hogares sin heladeras h_cadena: Hogares sin sistema de botón, cadena o mochila para limpieza del inodoro. h_agua_red: Hogares sin agua para beber y cocinar proveniente de red pública h_agua_vivienda: Hogares sin cañería de agua en la vivienda h_cloaca: Hogares sin cloaca h_hoyo: Hogares con desagüe a hoyo o pozo ciego sin cámara h_techo: Hogares sin cobertura de techo tipo 1 (Membrana, baldosa, losa o teja) h_piso: Hogares sin piso tipo 1 (cerámica, baldosa, mosaico, mármol, madera, alfombrado) h_combustible: Hogares con garrafa o leña como combustible usado principalmente para cocinar h_propietarios: Hogares propietarios de la vivienda Las mismas pueden obtenerse de la sección Disponibilidad de Bienes.
Pero por otra parte, se sabe que el INDEC utiliza como variable de agrupamiento para sus encuestas a hogares, la proporción de hogares con jefes con primaria incompleta (h_jefe_solo_primaria). Es por ese motivo, que se considera evaluar una variable relacionada al nivel educativo del jefe, Hogares con jefes con primaria completa o secundaria incompleto, y trabajar con la misma en lugar de buscar formar grupos a través de todas las variables anteriores.
Estudiar en cada una de las ciudades si sería una buena opción utilizar la variable de educación para estratificar los radios en lugar de las variables anteriores.
Por otra parte, se piensa que el total de hogares con jefes con primaria completa o secundaria incompleto puede ser un buen predictor para el total de hogares con garrafa o leña como combustible usado principalmente para cocinar. Es por ello que se planea ajustar una regresión lineal en cada una de las ciudades, asumiendo los radios de cada localidad como una muestra de una población de radios. En cada uno de los puntos presentar el código utilizado, la salida y una breve conclusión.
Ajustar el modelo de regresión lineal y graficar la recta ajustada. Presentar una salida donde se observen los test de hipótesis sobre los parámetros del modelo. Evaluar si el modelo lineal es adecuado. Evaluar si hay homocedasticidad de los errores. Indicar la existencia de outliers. Evaluar si la distribución de los errores puede aproximarse a una distribución normal. Mostrar a través de un gráfico la bondad del modelo ajustado. Calcular en ambas localidades la correlación entre total de hogares y h_combustible. Estudiar gráficamente que pasaba con la provisión de gas natural en ambas ciudades en el 2010 y hacer un comentario general.
## New names:
## * `Total de hogares` -> `Total de hogares...2`
## * `Total de hogares` -> `Total de hogares...35`
## # A tibble: 6 x 38
## `Código de radio.` `Total de hogares...2` `Hogares con al me~ `Hogares con co~
## <chr> <dbl> <dbl> <dbl>
## 1 820490509 306 19 150
## 2 820490510 804 146 206
## 3 820490514 607 122 177
## 4 820490511 340 27 168
## 5 820490512 309 10 153
## 6 820490525 311 5 206
## # ... with 34 more variables: ...
## New names:
## * `Total de hogares` -> `Total de hogares...2`
## * `Total de hogares` -> `Total de hogares...35`
## # A tibble: 6 x 38
## `Código de radio.` `Total de hogares...2` `Hogares con al me~ `Hogares con co~
## <chr> <dbl> <dbl> <dbl>
## 1 820420919 372 54 134
## 2 820420701 283 14 193
## 3 820420920 316 26 141
## 4 820420921 481 28 240
## 5 820420922 417 59 186
## 6 820420715 441 81 152
## # ... with 34 more variables: ...
Reconquista_10 <-Reconquista %>% select(6:14, 17, 18)
Reconquista_primaria_sec<-Reconquista %>% select(23)
1.Estudiar en cada una de las ciudades si sería una buena opción utilizar la variable de educación para estratificar los radios en lugar de las variables anteriores. Análisis de Reconquista Se realiza un análisis de correlación de las 11 covariables para detectar multicolinearidad y se muestra que en el caso de Reconquista existe una alta correlación entre estas variables por lo que presentaria un problema de dependencias entre las mismas variables explicativas, produciendo un problema en una regresión múltiple y esto es debido a que los hogares pobres cuentan con estas mismas falencia, es por ello una de las causas de la alta correlación.
## h_hacinamiento h_heladera h_cadena h_agua_red
## h_hacinamiento 1.0000000 0.9702539 0.8642951 0.4877580
## h_heladera 0.9702539 1.0000000 0.8748464 0.4936131
## h_cadena 0.8642951 0.8748464 1.0000000 0.7695565
## h_agua_red 0.4877580 0.4936131 0.7695565 1.0000000
## h_agua_vivienda 0.8642951 0.8748464 1.0000000 0.7695565
## h_cloaca 0.7211939 0.7135217 0.8114887 0.7994146
## h_hoyo 0.8357165 0.8468893 0.8854442 0.6990908
## h_techo 0.8235467 0.7965486 0.7546460 0.5849462
## h_piso 0.9436329 0.9107018 0.9026170 0.6435709
## h_combustible 0.7793878 0.7510091 0.6996909 0.5188098
## h_propietarios 0.7883365 0.7583359 0.6888277 0.5134087
## h_jefe_solo_primaria_sec 0.8713036 0.8381228 0.7816702 0.5467816
## h_agua_vivienda h_cloaca h_hoyo h_techo
## h_hacinamiento 0.8642951 0.7211939 0.8357165 0.8235467
## h_heladera 0.8748464 0.7135217 0.8468893 0.7965486
## h_cadena 1.0000000 0.8114887 0.8854442 0.7546460
## h_agua_red 0.7695565 0.7994146 0.6990908 0.5849462
## h_agua_vivienda 1.0000000 0.8114887 0.8854442 0.7546460
## h_cloaca 0.8114887 1.0000000 0.9375355 0.8138440
## h_hoyo 0.8854442 0.9375355 1.0000000 0.7985400
## h_techo 0.7546460 0.8138440 0.7985400 1.0000000
## h_piso 0.9026170 0.8655212 0.9153513 0.8911925
## h_combustible 0.6996909 0.7506234 0.7461685 0.9686259
## h_propietarios 0.6888277 0.7207857 0.7141294 0.9471768
## h_jefe_solo_primaria_sec 0.7816702 0.7874278 0.8146745 0.9541283
## h_piso h_combustible h_propietarios
## h_hacinamiento 0.9436329 0.7793878 0.7883365
## h_heladera 0.9107018 0.7510091 0.7583359
## h_cadena 0.9026170 0.6996909 0.6888277
## h_agua_red 0.6435709 0.5188098 0.5134087
## h_agua_vivienda 0.9026170 0.6996909 0.6888277
## h_cloaca 0.8655212 0.7506234 0.7207857
## h_hoyo 0.9153513 0.7461685 0.7141294
## h_techo 0.8911925 0.9686259 0.9471768
## h_piso 1.0000000 0.8493712 0.8266796
## h_combustible 0.8493712 1.0000000 0.9538261
## h_propietarios 0.8266796 0.9538261 1.0000000
## h_jefe_solo_primaria_sec 0.9168964 0.9646976 0.9394092
## h_jefe_solo_primaria_sec
## h_hacinamiento 0.8713036
## h_heladera 0.8381228
## h_cadena 0.7816702
## h_agua_red 0.5467816
## h_agua_vivienda 0.7816702
## h_cloaca 0.7874278
## h_hoyo 0.8146745
## h_techo 0.9541283
## h_piso 0.9168964
## h_combustible 0.9646976
## h_propietarios 0.9394092
## h_jefe_solo_primaria_sec 1.0000000
Se realiza un análisis de correlación de las 11 covariables para detectar multicolinearidad y se muestra que en el caso de Venado Tuerta existe una alta correlación entre estas variables por lo que presentaria un problema de dependencias entre las mismas variables explicativas, produciendo un problema en una regresión múltiple y esto es debido a que los hogares pobres cuentan con estas mismas falencia, es por ello una de las causas de la alta correlación.
## h_hacinamiento h_heladera h_cadena h_agua_red
## h_hacinamiento 1.0000000 0.9042837 0.9487766 0.6293055
## h_heladera 0.9042837 1.0000000 0.8686977 0.6563472
## h_cadena 0.9487766 0.8686977 1.0000000 0.6349767
## h_agua_red 0.6293055 0.6563472 0.6349767 1.0000000
## h_agua_vivienda 0.9487766 0.8686977 1.0000000 0.6349767
## h_cloaca 0.8466963 0.7909435 0.8490149 0.7433243
## h_hoyo 0.9041721 0.8509561 0.9175209 0.7174746
## h_techo 0.7235382 0.7120390 0.7444582 0.6642734
## h_piso 0.9345027 0.9081700 0.9474410 0.7044616
## h_combustible 0.9205393 0.9069487 0.9356916 0.6822175
## h_propietarios 0.5378711 0.5978866 0.5861719 0.7550565
## h_jefe_solo_primaria_sec 0.7488274 0.7967243 0.7783283 0.8637524
## h_agua_vivienda h_cloaca h_hoyo h_techo
## h_hacinamiento 0.9487766 0.8466963 0.9041721 0.7235382
## h_heladera 0.8686977 0.7909435 0.8509561 0.7120390
## h_cadena 1.0000000 0.8490149 0.9175209 0.7444582
## h_agua_red 0.6349767 0.7433243 0.7174746 0.6642734
## h_agua_vivienda 1.0000000 0.8490149 0.9175209 0.7444582
## h_cloaca 0.8490149 1.0000000 0.9659927 0.6678773
## h_hoyo 0.9175209 0.9659927 1.0000000 0.6966783
## h_techo 0.7444582 0.6678773 0.6966783 1.0000000
## h_piso 0.9474410 0.8561903 0.9047069 0.8169374
## h_combustible 0.9356916 0.8533713 0.8997709 0.8468986
## h_propietarios 0.5861719 0.5525798 0.5575643 0.8701080
## h_jefe_solo_primaria_sec 0.7783283 0.7621816 0.7770823 0.8480943
## h_piso h_combustible h_propietarios
## h_hacinamiento 0.9345027 0.9205393 0.5378711
## h_heladera 0.9081700 0.9069487 0.5978866
## h_cadena 0.9474410 0.9356916 0.5861719
## h_agua_red 0.7044616 0.6822175 0.7550565
## h_agua_vivienda 0.9474410 0.9356916 0.5861719
## h_cloaca 0.8561903 0.8533713 0.5525798
## h_hoyo 0.9047069 0.8997709 0.5575643
## h_techo 0.8169374 0.8468986 0.8701080
## h_piso 1.0000000 0.9764400 0.6842100
## h_combustible 0.9764400 1.0000000 0.6981318
## h_propietarios 0.6842100 0.6981318 1.0000000
## h_jefe_solo_primaria_sec 0.8568831 0.8566257 0.8652389
## h_jefe_solo_primaria_sec
## h_hacinamiento 0.7488274
## h_heladera 0.7967243
## h_cadena 0.7783283
## h_agua_red 0.8637524
## h_agua_vivienda 0.7783283
## h_cloaca 0.7621816
## h_hoyo 0.7770823
## h_techo 0.8480943
## h_piso 0.8568831
## h_combustible 0.8566257
## h_propietarios 0.8652389
## h_jefe_solo_primaria_sec 1.0000000
#Respuesta 1
Para ambas localidades es mejor utilizar la variable de agrupamiento Hogares con jefes con primaria completa o secundaria incompleto, y trabajar con la misma en lugar de buscar formar grupos a través de todas las variables anteriores, debido a la alta correlación entre ellas producto que un hogar con ingreso bajo y/o relacionado con un nivel de educación bajo presenta todas las características del primer grupo de 11 variables.
Es importante mencionar que se puede realizar un análisis de variance inflation factor, a efecto de analizar cuanto es el impacto de la variable predictora en las otras. A continuación presento un ejemplo con Reconquista
##
## Call:
## lm(formula = Reconquista_11$h_combustible ~ . - h_agua_vivienda,
## data = Reconquista_11)
##
## Residuals:
## Min 1Q Median 3Q Max
## -68.481 -14.465 -0.288 11.575 66.844
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 18.30138 10.30710 1.776 0.0809 .
## h_hacinamiento -1.59979 0.61301 -2.610 0.0114 *
## h_heladera 0.07070 0.39254 0.180 0.8577
## h_cadena 0.01804 0.19168 0.094 0.9253
## h_agua_red -0.02464 0.04842 -0.509 0.6127
## h_cloaca -0.11245 0.07450 -1.509 0.1365
## h_hoyo 0.12141 0.14490 0.838 0.4054
## h_techo 0.48820 0.08596 5.679 4.19e-07 ***
## h_piso 0.12699 0.14732 0.862 0.3921
## h_propietarios 0.18375 0.09258 1.985 0.0517 .
## h_jefe_solo_primaria_sec 0.63806 0.10404 6.133 7.36e-08 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 24.75 on 60 degrees of freedom
## Multiple R-squared: 0.9756, Adjusted R-squared: 0.9715
## F-statistic: 239.6 on 10 and 60 DF, p-value: < 2.2e-16
El valor de VIF comienza en 1 y no tiene límite superior. Una regla general para interpretar los VIF es la siguiente:
Un valor de 1 indica que no hay correlación entre una variable predictora dada y cualquier otra variable predictora en el modelo.
Un valor entre 1 y 5 indica una correlación moderada entre una variable predictora dada y otras variables predictoras en el modelo, pero esto a menudo no es lo suficientemente grave como para requerir atención. Un valor mayor que 5 indica una correlación potencialmente severa entre una variable predictora dada y otras variables predictoras en el modelo. En este caso, las estimaciones de los coeficientes y los valores p en el resultado de la regresión probablemente no sean confiables. Tenga en cuenta que hay algunos casos en los que los valores altos de VIF se pueden ignorar de forma segura.
Ajustar el modelo de regresión lineal y graficar la recta ajustada. Presentar una salida donde se observen los test de hipótesis sobre los parámetros del modelo. Evaluar si el modelo lineal es adecuado. Evaluar si hay homocedasticidad de los errores. Indicar la existencia de outliers. Evaluar si la distribución de los errores puede aproximarse a una distribución normal. Mostrar a través de un gráfico la bondad del modelo ajustado.
#Respuesta 2 ##Reconquista
##
## Call:
## lm(formula = Reconquista_11$h_combustible ~ Reconquista_11$h_jefe_solo_primaria_sec,
## data = Reconquista_11)
##
## Residuals:
## Min 1Q Median 3Q Max
## -88.038 -20.369 -1.815 23.227 132.020
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 88.52620 9.39591 9.422 5.12e-14
## Reconquista_11$h_jefe_solo_primaria_sec 1.08264 0.03558 30.427 < 2e-16
##
## (Intercept) ***
## Reconquista_11$h_jefe_solo_primaria_sec ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 38.89 on 69 degrees of freedom
## Multiple R-squared: 0.9306, Adjusted R-squared: 0.9296
## F-statistic: 925.8 on 1 and 69 DF, p-value: < 2.2e-16
Los p values del modelo general y de los coeficientes son significativos
SUPUESTOS DE LA REGRESIÓN LINEAL_
Forma I
Los errores
ϵi tienen distribución normal. Los errores ϵitienen media cero. Los errores ϵi tiene varianza constante. Los errores ϵi no están correlacionados.
Forma II
La respuesta y tiene distribución normal. La varianza de la respuesta y es constante. Las observaciones son independientes y. Relación lineal entre la variable respuesta y las covariables.
Ambos conjuntos de supuestos son equivalentes, la forma I está dirigida hacia los errores mientras que en la forma II está dirigida hacia los yi.
En esta forma la variable respuesta Y tiene distribución normal con media que cambia en función de la variable
X pero con varianza constante. El modelo en esta forma se puede expresar como sigue:
Combustible sombrero (Y^) ∼ N (μ,σ^2)
μ= 88.52620+1.08264 (h_jefe_solo_primaria_sec) = 38.89, σ =38.89
## `geom_smooth()` using formula 'y ~ x'
## Loading required package: fit.models
## Registered S3 method overwritten by 'fit.models':
## method from
## vcov.default Hmisc
## Registered S3 methods overwritten by 'robust':
## method from
## plot.covfm fit.models
## print.covfm fit.models
## summary.covfm fit.models
## print.summary.covfm fit.models
## rlm is already registered in the fit.models registry
## covfm is already registered in the fit.models registry
##
## Attaching package: 'robust'
## The following objects are masked from 'package:fit.models':
##
## ddPlot.covfm, distancePlot.covfm, ellipsesPlot.covfm,
## screePlot.covfm
## `geom_smooth()` using formula 'y ~ x'
## `geom_smooth()` using formula 'y ~ x'
## Warning: Use of `datos$h_jefe_solo_primaria_sec` is discouraged. Use
## `h_jefe_solo_primaria_sec` instead.
## Warning: Use of `datos$h_combustible` is discouraged. Use `h_combustible`
## instead.
## Warning: Use of `datos$h_jefe_solo_primaria_sec` is discouraged. Use
## `h_jefe_solo_primaria_sec` instead.
## `geom_smooth()` using formula 'y ~ x'
## `geom_smooth()` using formula 'y ~ x'
El gráfico anterior muestra la varianza de los valores observados, la varianza de y sombrero de los valores del modelos ajustados y los residuos, el error que no puede ser explicado por el modelos. Observamos que el modelo según el R2 =0.9296, el modelo ajusta muy bien, pero el ultimo panel del error o residuos indica lo que no puede ser explicado por el mismo (lo deseado es que se comportara de manera horizontal)
Otra forma
Los outliers de Reconquista son las observaciones 20,21 y 36.
###Evaluar si la distribución de los errores puede aproximarse a una distribución normal.
##
## Shapiro-Wilk normality test
##
## data: model_2[["residuals"]]
## W = 0.977, p-value = 0.2173
Debido a que el p-value >0.05 no se rechaza la hipotesis nula de normalidad.
###Apéndice
##
## Call:
## lm(formula = venado_11$h_combustible ~ venado_11$h_jefe_solo_primaria_sec,
## data = venado_11)
##
## Residuals:
## Min 1Q Median 3Q Max
## -159.288 -26.540 -1.311 27.370 152.085
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -111.96699 16.46229 -6.801 2.56e-09 ***
## venado_11$h_jefe_solo_primaria_sec 1.03506 0.07347 14.088 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 60.55 on 72 degrees of freedom
## Multiple R-squared: 0.7338, Adjusted R-squared: 0.7301
## F-statistic: 198.5 on 1 and 72 DF, p-value: < 2.2e-16
Los p values del modelo general y de los coeficientes son significativos
## `geom_smooth()` using formula 'y ~ x'
## `geom_smooth()` using formula 'y ~ x'
## `geom_smooth()` using formula 'y ~ x'
## `geom_smooth()` using formula 'y ~ x'
Otra forma
Los outliers de Venado Tuerto son las observaciones 1,31,60 y 72.
###Apéndice
###Otras conclusiones
El gráfico residuals versus Leverage nos indica que hay puntos fuera de la línea discontinua de Cook´s Distance por lo que eliminar el outlier 60 interfiere y cambia todo el modelo, debido a la sensibilidad de esta observación con las demás.
#Conclusión general
El modelos de regresión de Reconquista es significativo mientras que el modelo de Venado Tuerto no es, debido a que la población no es homogénea como se puede observar en los los outliers que se presentan en la data, en otras palabras la población de Reconquista es mucho más homogénea.
#Respuesta 3
## Total de hogares...2 h_combustible
## Total de hogares...2 1.0000000 0.9630973
## h_combustible 0.9630973 1.0000000
## $p
## Total de hogares...2 h_combustible
## Total de hogares...2 0.000000e+00 4.643066e-41
## h_combustible 4.643066e-41 0.000000e+00
##
## $lowCI
## Total de hogares...2 h_combustible
## Total de hogares...2 1.0000000 0.9412977
## h_combustible 0.9412977 1.0000000
##
## $uppCI
## Total de hogares...2 h_combustible
## Total de hogares...2 1.0000000 0.9768978
## h_combustible 0.9768978 1.0000000
## Total de hogares...2 h_combustible
## Total de hogares...2 1.00 0.96
## h_combustible 0.96 1.00
##
## n= 71
##
##
## P
## Total de hogares...2 h_combustible
## Total de hogares...2 0
## h_combustible 0
## Total de hogares...2 h_combustible
## Total de hogares...2 NA 0
## h_combustible 0 NA
## Warning in text.default(pos.xlabel[, 1], pos.xlabel[, 2], newcolnames, srt =
## tl.srt, : "pos.text" is not a graphical parameter
## Warning in text.default(pos.xlabel[, 1], pos.xlabel[, 2], newcolnames, srt =
## tl.srt, : "addcolorkey" is not a graphical parameter
## Warning in text.default(pos.ylabel[, 1], pos.ylabel[, 2], newrownames, col =
## tl.col, : "pos.text" is not a graphical parameter
## Warning in text.default(pos.ylabel[, 1], pos.ylabel[, 2], newrownames, col =
## tl.col, : "addcolorkey" is not a graphical parameter
## Warning in title(title, ...): "pos.text" is not a graphical parameter
## Warning in title(title, ...): "addcolorkey" is not a graphical parameter
## `geom_smooth()` using formula 'y ~ x'
## Total de hogares...2 h_combustible
## Total de hogares...2 1.0000000 0.6377052
## h_combustible 0.6377052 1.0000000
La correlación de Venado Tuerto es < que la de Reconquista, lo que indica que en Venado Tuerto la gente cocina menos con leña, esto podría ser explicado, tal vez por un mayor nivel de urbanismo, ingreso u otras variables socio económicas. La provisión de gas es mayor en Reconquista que en Venado en el 2010, debido a su plot de correlación.