Expansión de la CASEN sobre el CENSO (Región 01 Urbano)

P17 ¿Trabajó por un pago o especie?: Correlación: 0.8717

VE-CC-AJ

DataIntelligence
date: 10-08-2021

1 Introducción

Expandiremos los ingresos promedios (multiplicando el ingreso promedio y los habitantes de una comuna) obtenidos de la CASEN 2017 sobre la categoría de respuesta: “Trabajó por un pago o especie” del campo P17 del CENSO de viviendas -del 2017-, que fue la categoría de respuesta que más alto correlacionó con los ingresos expandidos, ambos a nivel comunal.

Haremos el análisis sobre las 16 regiones y en el ambiente urbano.

Ensayaremos diferentes modelos dentro del análisis de regresión cuya variable independiente será: “frecuencia de población que posee la variable Censal respecto a la zona” y la dependiente: “ingreso expandido por zona por proporción zonal a nivel comunal (multipob)”

Lo anterior para elegir el que posea el mayor coeficiente de determinación y así contruir una tabla de valores predichos.

1.1 Criterios de exclusión. Son los motivos por los cuales cartográficamente no figura información zonal. Hemos determinado 4 causas:

  1. Que no existan en la base de datos original shp (pseudocriterio).

  2. Que en la zona en cuestión no exista la respuesta a la pregunta indagada. Error I

  3. Que no existan datos de ingreso comunal Casen para la zona. Error II

  4. Que se excluyan registros zonales con el criterio <1.5IQR >1.5IQR sobre frecuencias. Error III

  5. Que se excluyan registros zonales con el criterio <1.5IQR >1.5IQR sobre los ingresos medios zona. Error IV

En éste trabajo sólo excluiremos, en uno futuro reemplazaremos.

2 Variable CENSO

Necesitamos calcular las frecuencias a nivel censal de las respuestas correspondientes a la categoría: “Trabajó por un pago o especie” del campo P17 del Censo de personas. Recordemos que ésta fué la más alta correlación en relación a los ingresos expandidos (ver punto 2 Correlaciones aquí).

2.1 Lectura y filtrado de la tabla censal de personas

Leemos la tabla Censo 2017 de personas que ya tiene integrada la clave zonal:

tabla_con_clave_o <- 
readRDS("C:\\Users\\chris\\OneDrive\\Documentos\\GitHub\\ds_correlaciones_censo_casen\\corre_censo_casen_2017\\censos_con_clave\\censo_personas_con_clave_17")
abc <- tabla_con_clave_o[c(1:100),]
kbl(abc) %>%
  kable_styling(bootstrap_options = c("striped", "hover")) %>%
  kable_paper() %>%
  scroll_box(width = "100%", height = "300px")
REGION PROVINCIA COMUNA DC AREA ZC_LOC ID_ZONA_LOC NVIV NHOGAR PERSONAN P07 P08 P09 P10 P10COMUNA P10PAIS P11 P11COMUNA P11PAIS P12 P12COMUNA P12PAIS P12A_LLEGADA P12A_TRAMO P13 P14 P15 P15A P16 P16A P16A_OTRO P17 P18 P19 P20 P21M P21A P10PAIS_GRUPO P11PAIS_GRUPO P12PAIS_GRUPO ESCOLARIDAD P16A_GRUPO REGION_15R PROVINCIA_15R COMUNA_15R P10COMUNA_15R P11COMUNA_15R P12COMUNA_15R clave
15 152 15202 1 2 6 13225 1 1 1 1 1 73 1 98 998 3 15101 998 1 98 998 9998 98 2 4 6 2 1 2 98 7 98 98 98 98 9998 998 998 998 4 2 15 152 15202 98 15101 98 15202012006
15 152 15202 1 2 6 13225 3 1 1 1 1 78 1 98 998 2 98 998 1 98 998 9998 98 3 98 98 98 1 2 98 7 98 98 98 98 9998 998 998 998 0 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 3 1 2 2 2 78 1 98 998 2 98 998 1 98 998 9998 98 3 98 98 98 1 2 98 7 98 1 1 3 1965 998 998 998 0 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 3 1 3 5 2 52 1 98 998 2 98 998 1 98 998 9998 98 1 2 5 2 1 2 98 7 98 2 1 4 1995 998 998 998 2 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 3 1 4 11 1 44 1 98 998 2 98 998 1 98 998 9998 98 1 3 5 2 1 2 98 1 Z 98 98 98 9998 998 998 998 3 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 9 1 1 1 1 39 1 98 998 2 98 998 1 98 998 9998 98 2 8 5 1 1 2 98 8 98 98 98 98 9998 998 998 998 8 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 9 1 2 2 2 35 1 98 998 2 98 998 1 98 998 9998 98 2 6 5 2 1 2 98 1 Z 2 2 11 2004 998 998 998 6 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 9 1 3 5 1 13 1 98 998 2 98 998 1 98 998 9998 98 1 7 5 2 1 2 98 98 98 98 98 98 9998 998 998 998 7 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 9 1 4 5 1 12 1 98 998 2 98 998 1 98 998 9998 98 1 6 5 2 1 2 98 98 98 98 98 98 9998 998 998 998 6 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 10 1 1 1 2 65 1 98 998 2 98 998 1 98 998 9998 98 2 4 5 2 1 2 98 6 98 3 3 9 1992 998 998 998 4 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 13 1 1 1 1 50 1 98 998 2 98 998 1 98 998 9998 98 2 5 5 2 1 2 98 1 Z 98 98 98 9998 998 998 998 5 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 13 1 2 4 2 43 1 98 998 2 98 998 1 98 998 9998 98 2 6 5 2 1 2 98 6 98 2 2 3 2002 998 998 998 6 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 13 1 3 5 1 15 3 15201 998 2 98 998 1 98 998 9998 98 1 1 7 2 1 2 98 8 98 98 98 98 9998 998 998 998 9 2 15 152 15202 15201 98 98 15202012006
15 152 15202 1 2 6 13225 16 1 1 1 1 75 1 98 998 2 98 998 1 98 998 9998 98 3 98 98 98 1 2 98 7 98 98 98 98 9998 998 998 998 0 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 16 1 2 16 2 58 4 98 68 6 98 998 5 98 998 9999 1 3 98 98 98 1 2 98 7 98 4 4 99 9999 68 68 68 0 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 16 1 3 2 2 70 1 98 998 2 98 998 1 98 998 9998 98 3 98 98 98 1 2 98 7 98 5 4 99 9999 998 998 998 0 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 17 1 1 1 2 43 2 98 998 2 98 998 1 98 998 9998 98 2 8 5 1 1 2 98 1 I 3 3 9 2008 998 998 998 8 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 17 1 2 4 1 55 2 98 998 2 98 998 1 98 998 9998 98 2 6 5 2 1 2 98 6 98 98 98 98 9998 998 998 998 6 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 17 1 3 5 2 13 2 98 998 2 98 998 2 15101 998 9998 98 1 7 5 2 1 2 98 98 98 98 98 98 9998 998 998 998 7 2 15 152 15202 98 98 15101 15202012006
15 152 15202 1 2 6 13225 17 1 4 5 1 8 2 98 998 2 98 998 2 15101 998 9998 98 1 2 5 2 1 2 98 98 98 98 98 98 9998 998 998 998 2 2 15 152 15202 98 98 15101 15202012006
15 152 15202 1 2 6 13225 17 1 5 15 2 29 2 98 998 4 98 998 3 98 998 2015 1 2 6 5 2 1 2 98 6 98 5 5 11 2014 998 604 604 6 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 17 1 6 15 1 4 2 98 998 1 98 998 5 98 998 2015 1 1 0 1 2 1 2 98 98 98 98 98 98 9998 998 998 68 0 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 17 1 7 15 2 2 2 98 998 1 98 998 3 98 998 2015 1 1 0 1 2 1 2 98 98 98 98 98 98 9998 998 998 604 0 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 17 1 8 15 1 16 2 98 998 6 98 998 1 98 998 9998 98 2 4 5 2 1 2 98 6 98 98 98 98 9998 998 68 998 4 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 18 1 1 1 2 74 1 98 998 2 98 998 1 98 998 9998 98 2 2 5 2 1 2 98 6 98 2 2 12 1976 998 998 998 2 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 19 1 1 1 1 68 1 98 998 2 98 998 1 98 998 9998 98 3 98 98 98 1 2 98 7 98 98 98 98 9998 998 998 998 0 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 20 1 1 1 1 74 1 98 998 3 15101 998 1 98 998 9998 98 2 2 5 2 1 2 98 1 Z 98 98 98 9998 998 998 998 2 2 15 152 15202 98 15101 98 15202012006
15 152 15202 1 2 6 13225 20 1 2 2 2 65 1 98 998 3 997 998 3 98 998 9999 2 2 2 5 2 1 2 98 6 98 2 2 9 1982 998 998 604 2 2 15 152 15202 98 997 98 15202012006
15 152 15202 1 2 6 13225 25 1 1 1 2 76 1 98 998 2 98 998 1 98 998 9998 98 3 98 98 98 1 2 98 6 98 8 6 3 1981 998 998 998 0 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 25 1 2 5 2 36 1 98 998 2 98 998 1 98 998 9998 98 2 4 8 1 1 2 98 1 A 0 98 98 9998 998 998 998 12 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 28 1 1 1 2 31 1 98 998 2 98 998 5 98 998 2007 2 2 5 5 2 1 2 98 1 A 2 2 4 2008 998 998 68 5 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 28 1 2 4 1 35 1 98 998 2 98 998 5 98 998 2007 2 2 6 5 2 1 2 98 1 F 98 98 98 9998 998 998 68 6 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 28 1 3 5 1 11 1 98 998 2 98 998 5 98 998 2007 2 1 5 5 2 1 2 98 98 98 98 98 98 9998 998 998 68 5 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 28 1 4 5 1 8 1 98 998 2 98 998 1 98 998 9998 98 1 2 5 2 1 2 98 98 98 98 98 98 9998 998 998 998 2 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 28 1 5 15 2 74 1 98 998 2 98 998 1 98 998 9998 98 2 3 5 2 1 2 98 6 98 6 6 99 9999 998 998 998 3 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 33 1 1 1 1 41 1 98 998 2 98 998 1 98 998 9998 98 2 8 5 1 1 2 98 1 Z 98 98 98 9998 998 998 998 8 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 33 1 2 2 2 47 1 98 998 2 98 998 1 98 998 9998 98 2 8 5 1 1 2 98 1 A 2 1 4 1996 998 998 998 8 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 33 1 3 14 1 88 1 98 998 2 98 998 1 98 998 9998 98 3 98 98 98 1 2 98 7 98 98 98 98 9998 998 998 998 0 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 33 1 4 14 1 65 1 98 998 2 98 998 1 98 998 9998 98 2 2 5 2 1 2 98 7 98 98 98 98 9998 998 998 998 2 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 36 1 1 1 2 59 1 98 998 2 98 998 1 98 998 9998 98 2 2 5 2 1 2 98 6 98 8 8 2 1998 998 998 998 2 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 36 1 2 2 1 56 1 98 998 99 99 999 1 98 998 9998 98 2 2 5 2 1 2 98 6 98 98 98 98 9998 998 999 998 2 2 15 152 15202 98 99 98 15202012006
15 152 15202 1 2 6 13225 36 1 3 5 2 36 1 98 998 2 98 998 1 98 998 9998 98 2 8 5 1 1 2 98 6 98 2 2 7 2010 998 998 998 8 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 36 1 4 12 2 13 1 98 998 2 98 998 1 98 998 9998 98 1 7 5 2 1 2 98 98 98 98 98 98 9998 998 998 998 7 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 36 1 5 12 2 6 1 98 998 2 98 998 1 98 998 9998 98 1 0 3 1 1 2 98 98 98 98 98 98 9998 998 998 998 0 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 36 1 6 5 1 24 1 98 998 3 15101 998 1 98 998 9998 98 2 4 7 1 1 2 98 1 Z 98 98 98 9998 998 998 998 12 2 15 152 15202 98 15101 98 15202012006
15 152 15202 1 2 6 13225 36 1 7 11 2 24 1 98 998 3 15101 998 1 98 998 9998 98 2 4 7 1 1 2 98 1 N 2 2 11 2015 998 998 998 12 2 15 152 15202 98 15101 98 15202012006
15 152 15202 1 2 6 13225 36 1 8 12 1 6 1 98 998 2 98 998 2 15101 998 9998 98 1 0 3 1 1 2 98 98 98 98 98 98 9998 998 998 998 0 2 15 152 15202 98 98 15101 15202012006
15 152 15202 1 2 6 13225 36 1 9 12 2 1 1 98 998 1 98 998 2 15101 998 9998 98 3 98 98 98 1 2 98 98 98 98 98 98 9998 998 998 998 0 2 15 152 15202 98 98 15101 15202012006
15 152 15202 1 2 6 13225 38 1 1 1 1 19 1 98 998 3 15101 998 2 15101 998 9998 98 1 1 8 2 1 2 98 1 A 98 98 98 9998 998 998 998 9 2 15 152 15202 98 15101 15101 15202012006
15 152 15202 1 2 6 13225 39 1 1 1 1 21 1 98 998 2 98 998 1 98 998 9998 98 2 1 7 2 1 2 98 1 F 98 98 98 9998 998 998 998 9 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 39 1 2 4 2 22 1 98 998 2 98 998 1 98 998 9998 98 2 1 8 2 1 2 98 6 98 0 98 98 9998 998 998 998 9 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 43 1 1 1 2 26 1 98 998 2 98 998 1 98 998 9998 98 2 8 5 1 1 2 98 6 98 2 2 10 2013 998 998 998 8 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 43 1 2 2 1 24 1 98 998 2 98 998 1 98 998 9998 98 2 8 5 1 1 2 98 1 Z 98 98 98 9998 998 998 998 8 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 43 1 3 13 2 71 1 98 998 2 98 998 1 98 998 9998 98 2 1 5 2 1 2 98 6 98 3 3 12 1974 998 998 998 1 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 43 1 4 5 2 6 1 98 998 2 98 998 1 98 998 9998 98 1 0 3 1 1 2 98 98 98 98 98 98 9998 998 998 998 0 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 6 13225 43 1 5 5 2 3 1 98 998 1 98 998 1 98 998 9998 98 1 0 1 1 1 2 98 98 98 98 98 98 9998 998 998 998 0 2 15 152 15202 98 98 98 15202012006
15 152 15202 1 2 8 13910 5 1 1 1 1 44 1 98 998 2 98 998 3 98 998 2005 2 2 4 7 1 1 2 98 6 98 98 98 98 9998 998 998 604 12 2 15 152 15202 98 98 98 15202012008
15 152 15202 1 2 8 13910 5 1 2 2 2 42 1 98 998 2 98 998 1 98 998 9998 98 2 3 5 2 1 2 98 1 P 3 3 12 2006 998 998 998 3 2 15 152 15202 98 98 98 15202012008
15 152 15202 1 2 8 13910 5 1 3 5 2 10 1 98 998 2 98 998 1 98 998 9998 98 1 4 5 2 1 2 98 98 98 98 98 98 9998 998 998 998 4 2 15 152 15202 98 98 98 15202012008
15 152 15202 1 2 8 13910 7 1 1 1 2 70 1 98 998 2 98 998 1 98 998 9998 98 2 2 5 2 1 2 98 6 98 7 7 6 1994 998 998 998 2 2 15 152 15202 98 98 98 15202012008
15 152 15202 1 2 8 13910 7 1 2 5 1 44 1 98 998 2 98 998 1 98 998 9998 98 2 5 5 2 1 2 98 7 98 98 98 98 9998 998 998 998 5 2 15 152 15202 98 98 98 15202012008
15 152 15202 1 2 8 13910 8 1 1 1 1 58 1 98 998 2 98 998 3 98 998 2004 2 2 4 5 2 1 2 98 6 98 98 98 98 9998 998 998 604 4 2 15 152 15202 98 98 98 15202012008
15 152 15202 1 2 8 13910 8 1 2 2 2 59 1 98 998 2 98 998 3 98 998 2004 2 2 2 5 2 1 2 98 6 98 3 3 7 1999 998 998 604 2 2 15 152 15202 98 98 98 15202012008
15 152 15202 1 2 8 13910 19 1 1 1 1 58 99 99 999 99 99 999 99 99 999 9999 99 99 99 99 99 99 99 99 99 99 98 98 98 9998 999 999 999 99 99 15 152 15202 99 99 99 15202012008
15 152 15202 1 2 8 13910 21 1 1 1 1 53 1 98 998 2 98 998 1 98 998 9998 98 2 8 5 1 1 2 98 1 H 98 98 98 9998 998 998 998 8 2 15 152 15202 98 98 98 15202012008
15 152 15202 1 2 8 13910 21 1 2 2 2 46 1 98 998 2 98 998 1 98 998 9998 98 2 3 5 2 1 2 98 6 98 3 3 2 1990 998 998 998 3 2 15 152 15202 98 98 98 15202012008
15 152 15202 1 2 8 13910 22 1 1 1 2 73 1 98 998 2 98 998 1 98 998 9998 98 3 98 98 98 1 2 98 6 98 6 5 3 1979 998 998 998 0 2 15 152 15202 98 98 98 15202012008
15 152 15202 1 2 8 13910 30 1 1 1 1 57 1 98 998 2 98 998 2 997 998 9998 98 2 3 5 2 1 2 98 6 98 98 98 98 9998 998 998 998 3 2 15 152 15202 98 98 997 15202012008
15 152 15202 1 2 12 8394 3 1 1 2 2 64 1 98 998 2 98 998 3 98 998 1974 4 3 98 98 98 1 2 98 1 A 12 10 99 9999 998 998 604 0 2 15 152 15202 98 98 98 15202012012
15 152 15202 1 2 12 8394 3 1 2 1 1 74 2 98 998 2 98 998 1 98 998 9998 98 3 98 98 98 1 2 98 99 99 98 98 98 9998 998 998 998 0 2 15 152 15202 98 98 98 15202012012
15 152 15202 1 2 12 8394 3 1 3 5 2 38 1 98 998 2 98 998 1 98 998 9998 98 2 8 5 1 1 2 98 2 A 0 98 98 9998 998 998 998 8 2 15 152 15202 98 98 98 15202012012
15 152 15202 1 2 12 8394 3 1 4 14 1 38 99 99 999 99 99 999 99 99 999 9999 99 99 99 99 99 99 99 99 8 98 98 98 98 9998 999 999 999 99 99 15 152 15202 99 99 99 15202012012
15 152 15202 1 2 12 8394 9 1 1 1 2 79 1 98 998 2 98 998 1 98 998 9998 98 3 98 98 98 1 2 98 8 98 2 2 99 9999 998 998 998 0 2 15 152 15202 98 98 98 15202012012
15 152 15202 1 2 12 8394 19 1 1 1 1 46 99 99 999 99 99 999 99 99 999 9999 99 99 99 99 99 99 99 99 99 99 98 98 98 9998 999 999 999 99 99 15 152 15202 99 99 99 15202012012
15 152 15202 1 2 12 8394 20 1 1 1 2 58 1 98 998 2 98 998 1 98 998 9998 98 2 8 5 1 1 2 98 1 A 3 3 7 1982 998 998 998 8 2 15 152 15202 98 98 98 15202012012
15 152 15202 1 2 12 8394 21 1 1 1 2 45 1 98 998 6 98 998 2 997 998 9998 98 2 4 5 2 1 2 98 1 A 6 6 2 2007 998 68 998 4 2 15 152 15202 98 98 997 15202012012
15 152 15202 1 2 12 8394 21 1 2 5 2 10 1 98 998 6 98 998 2 3201 998 9998 98 1 4 5 2 1 2 98 98 98 98 98 98 9998 998 68 998 4 2 15 152 15202 98 98 3201 15202012012
15 152 15202 1 2 12 8394 24 1 1 1 1 67 1 98 998 2 98 998 1 98 998 9998 98 3 98 98 98 1 2 98 8 98 98 98 98 9998 998 998 998 0 2 15 152 15202 98 98 98 15202012012
15 152 15202 1 2 12 8394 24 1 2 2 2 53 1 98 998 2 98 998 3 98 998 9999 99 3 98 98 98 1 2 98 8 98 0 98 98 9998 998 998 604 0 2 15 152 15202 98 98 98 15202012012
15 152 15202 1 2 12 8394 27 1 1 1 1 48 1 98 998 2 98 998 1 98 998 9998 98 2 4 7 1 1 2 98 8 98 98 98 98 9998 998 998 998 12 2 15 152 15202 98 98 98 15202012012
15 152 15202 1 2 12 8394 31 1 1 1 1 49 1 98 998 4 98 998 3 98 998 2001 2 2 8 5 1 1 2 98 1 A 98 98 98 9998 998 604 604 8 2 15 152 15202 98 98 98 15202012012
15 152 15202 1 2 12 8394 42 1 1 1 1 46 1 98 998 2 98 998 3 98 998 1992 3 2 8 5 1 1 2 98 2 A 98 98 98 9998 998 998 604 8 2 15 152 15202 98 98 98 15202012012
15 152 15202 1 2 12 8394 42 1 2 2 2 24 1 98 998 6 98 998 5 98 998 2013 1 2 7 5 2 1 2 98 6 98 2 2 6 2016 998 68 68 7 2 15 152 15202 98 98 98 15202012012
15 152 15202 1 2 12 8394 42 1 3 6 2 2 1 98 998 1 98 998 1 98 998 9998 98 3 98 98 98 1 2 98 98 98 98 98 98 9998 998 998 998 0 2 15 152 15202 98 98 98 15202012012
15 152 15202 1 2 12 8394 42 1 4 5 1 0 1 98 998 1 98 998 2 15101 998 9998 98 99 99 99 99 1 2 98 98 98 98 98 98 9998 998 998 998 99 2 15 152 15202 98 98 15101 15202012012
15 152 15202 1 2 12 8394 42 1 5 5 2 13 1 98 998 2 98 998 3 98 998 9999 99 1 7 5 2 1 2 98 98 98 98 98 98 9998 998 998 604 7 2 15 152 15202 98 98 98 15202012012
15 152 15202 1 2 12 8394 42 1 6 5 1 6 1 98 998 2 98 998 2 15101 998 9998 98 1 0 3 1 1 2 98 98 98 98 98 98 9998 998 998 998 0 2 15 152 15202 98 98 15101 15202012012
15 152 15202 1 2 15 4094 2 1 1 1 1 41 1 98 998 2 98 998 1 98 998 9998 98 2 4 12 1 1 2 98 1 O 98 98 98 9998 998 998 998 16 2 15 152 15202 98 98 98 15202012015
15 152 15202 1 2 15 4094 8 1 1 17 1 70 2 98 998 2 98 998 1 98 998 9998 98 3 98 98 98 1 2 98 7 98 98 98 98 9998 998 998 998 0 2 15 152 15202 98 98 98 15202012015
15 152 15202 1 2 15 4094 8 1 2 17 1 47 2 98 998 3 15101 998 2 8101 998 9998 98 2 4 8 1 1 2 98 1 Z 98 98 98 9998 998 998 998 12 2 15 152 15202 98 15101 8101 15202012015
15 152 15202 1 2 15 4094 8 1 3 17 1 19 2 98 998 3 15101 998 2 15101 998 9998 98 1 99 7 99 1 2 98 1 I 98 98 98 9998 998 998 998 99 2 15 152 15202 98 15101 15101 15202012015
15 152 15202 1 2 15 4094 8 1 4 17 1 43 2 98 998 3 4302 998 2 8101 998 9998 98 99 4 8 1 1 2 98 1 N 98 98 98 9998 998 998 998 12 2 15 152 15202 98 4302 8101 15202012015
15 152 15202 1 2 15 4094 8 1 5 17 2 35 2 98 998 6 98 998 5 98 998 2016 1 2 8 5 1 1 2 98 1 I 2 2 3 2007 998 68 68 8 2 15 152 15202 98 98 98 15202012015
15 152 15202 1 2 15 4094 8 1 6 17 1 36 3 13123 998 3 13123 998 2 12101 998 9998 98 2 5 12 1 2 98 98 1 J 98 98 98 9998 998 998 998 17 98 15 152 15202 13123 13123 12101 15202012015
15 152 15202 1 2 15 4094 8 1 7 17 2 25 2 98 998 3 15101 998 2 15101 998 9998 98 2 5 12 1 1 2 98 1 Q 1 1 12 2011 998 998 998 17 2 15 152 15202 98 15101 15101 15202012015
15 152 15202 1 2 15 4094 9 1 1 1 1 72 1 98 998 2 98 998 1 98 998 9998 98 2 1 5 2 1 2 98 1 G 98 98 98 9998 998 998 998 1 2 15 152 15202 98 98 98 15202012015
15 152 15202 1 2 15 4094 12 1 1 1 1 21 1 98 998 3 15101 998 2 15101 998 9998 98 2 4 8 1 1 2 98 1 N 98 98 98 9998 998 998 998 12 2 15 152 15202 98 15101 15101 15202012015
15 152 15202 1 2 15 4094 15 1 1 1 1 61 1 98 998 2 98 998 1 98 998 9998 98 2 3 7 2 1 2 98 4 98 98 98 98 9998 998 998 998 11 2 15 152 15202 98 98 98 15202012015
15 152 15202 1 2 15 4094 15 1 2 5 2 31 1 98 998 3 15101 998 1 98 998 9998 98 2 4 12 1 1 2 98 1 P 1 1 10 2007 998 998 998 16 2 15 152 15202 98 15101 98 15202012015
15 152 15202 1 2 15 4094 16 1 1 1 1 34 1 98 998 3 15101 998 1 98 998 9998 98 2 5 12 1 1 2 98 1 O 98 98 98 9998 998 998 998 17 2 15 152 15202 98 15101 98 15202012015

2.2 Necesitamos una tabla que relacione claves zonales con codigos comunales:

tabla_clave_comuna <- tabla_con_clave_o %>% distinct(clave, .keep_all = TRUE)
tabla_clave_comuna <- tabla_clave_comuna[,-c(1:2,4:48), drop=FALSE]
codigos <- tabla_clave_comuna$COMUNA
rango <- seq(1:nrow(tabla_clave_comuna))
cadena <- paste("0",codigos[rango], sep = "")
cadena <- substr(cadena,(nchar(cadena)[rango])-(4),6)
codigos <- as.data.frame(codigos)
cadena <- as.data.frame(cadena)
comuna_corr <- cbind(tabla_clave_comuna,cadena)
comuna_corr <- comuna_corr[,-(1)] 
names(comuna_corr)[2] <- "código" 
head(comuna_corr,10)
##          clave código
## 1  15202012006  15202
## 2  15202012008  15202
## 3  15202012012  15202
## 4  15202012015  15202
## 5  15202022004  15202
## 6  15202022005  15202
## 7  15202022009  15202
## 8  15202022011  15202
## 9  15202022901  15202
## 10 15202032001  15202

2.3 Leemos la tabla shp original que contempla 221 zonas más.

archivo_shp <- read_sf("../shp/lim_ZONLOC_codigos.shp")
head(data.frame(archivo_shp),10)
##     COD_ZonLoc   Geocodigo                       geometry
## 1  10101011001 10101011001 MULTIPOLYGON (((-72.94394 -...
## 2  10101011002 10101011002 MULTIPOLYGON (((-72.92106 -...
## 3  10101021001 10101021001 MULTIPOLYGON (((-72.9591 -4...
## 4  10101021002 10101021002 MULTIPOLYGON (((-72.95028 -...
## 5  10101021003 10101021003 MULTIPOLYGON (((-72.95514 -...
## 6  10101021004 10101021004 MULTIPOLYGON (((-72.95628 -...
## 7  10101021005 10101021005 MULTIPOLYGON (((-72.96549 -...
## 8  10101031001 10101031001 MULTIPOLYGON (((-72.96078 -...
## 9  10101031002 10101031002 MULTIPOLYGON (((-72.96557 -...
## 10 10101031003 10101031003 MULTIPOLYGON (((-72.96938 -...
nrow(archivo_shp)
## [1] 15721

3 Análisis de zonas Región 1

3.1 Zonas totales

fyt <- filter(tabla_con_clave_o, tabla_con_clave_o$AREA == 1 || tabla_con_clave_o$AREA == 2)
fyt2 <- filter(fyt, fyt$REGION == 1)
fyt3 <- filter(fyt2, fyt2$P09 > 15)
f_zona_urbana_y_rural <- unique(fyt3$clave)
length(f_zona_urbana_y_rural)
## [1] 199

3.2 Zonas totales urbanas

fyt <- filter(tabla_con_clave_o, tabla_con_clave_o$AREA == 1)
fyt22 <- filter(fyt, fyt$REGION ==1)
fyt33 <- filter(fyt22, fyt22$P09 > 15)
f_zona_urbana <- unique(fyt33$clave)
length(f_zona_urbana)
## [1] 86

3.3 Zonas totales rurales

fyt <- filter(tabla_con_clave_o, tabla_con_clave_o$AREA == 2)
fyt222 <- filter(fyt, fyt$REGION == 1)
fyt333 <- filter(fyt222, fyt222$P09 > 15)
f_zona_rural <- unique(fyt333$clave)
length(f_zona_rural)
## [1] 113

Somos responsables de 86 registros que cumplen el criterio AREA == 1, REGION ==1, P09 > 15):

length(f_zona_urbana)
## [1] 86

3.4 Verificación criterio 2:

Aplicamos todos nuestros filtros a la tabla Censal original:

fyt <- filter(tabla_con_clave_o, tabla_con_clave_o$AREA == 1)
fyt22 <- filter(fyt, fyt$REGION ==1)
fyt33 <- filter(fyt22, fyt22$P09 > 15)
tabla_con_clave_f <- filter(fyt33,fyt33$P17 == 1)
tabla_con_clave_f  <- as.data.frame(tabla_con_clave_f)
tabla_con_clave_f <-tabla_con_clave_f[,-c(2,4,6:31,33:48), drop=FALSE]
tabla_con_clave_f <- as.data.frame(tabla_con_clave_f)
f_zona_urbana <- unique(tabla_con_clave_f$clave)
length(f_zona_urbana)
## [1] 86

I Obtenemos todos los registros urbanos de la tabla original, por lo que no hay problemas de exclusión con el Error I

3.5 Cálculo de frecuencias a la pregunta P17

e <- xtabs(~clave+P17, data=tabla_con_clave_f)
e <- as.data.frame(e)
head(e,10)
##         clave P17 Freq
## 1  1101011001   1 1255
## 2  1101011002   1  621
## 3  1101021001   1  493
## 4  1101021002   1   33
## 5  1101021003   1 1224
## 6  1101021004   1  968
## 7  1101021005   1 1927
## 8  1101031001   1 1179
## 9  1101031002   1 1582
## 10 1101031003   1 2111

3.5.1 Unir los codigos comunales correctos a las frecuencias

tabla_1 = merge( x = e, y = comuna_corr, by = "clave", all.x = TRUE)
head(tabla_1,10)
##         clave P17 Freq código
## 1  1101011001   1 1255  01101
## 2  1101011002   1  621  01101
## 3  1101021001   1  493  01101
## 4  1101021002   1   33  01101
## 5  1101021003   1 1224  01101
## 6  1101021004   1  968  01101
## 7  1101021005   1 1927  01101
## 8  1101031001   1 1179  01101
## 9  1101031002   1 1582  01101
## 10 1101031003   1 2111  01101

3.5.2 Unimos ingresos expandidos con frecuencias

tabla_1 <- data.frame(lapply(tabla_1, as.character), stringsAsFactors=FALSE)
ingresos_expandidos_urbanos <- readRDS("ingresos_expandidos_casen_2017_totales_u.rds")
tabla_3 = merge( x =  tabla_1 , y = ingresos_expandidos_urbanos, by = "código", all.x = TRUE)
names(tabla_3)[2] <- "zona" 
names(tabla_3)[5] <- "comuna" 
names(tabla_3)[6] <- "tipo" 
tabla_3$zona <- as.character(tabla_3$zona) 
head(tabla_3,10)
##    código       zona P17 Freq  comuna   tipo promedio_i  año personas
## 1   01101 1101021001   1  493 Iquique Urbano   356487.6 2017   191468
## 2   01101 1101021002   1   33 Iquique Urbano   356487.6 2017   191468
## 3   01101 1101011001   1 1255 Iquique Urbano   356487.6 2017   191468
## 4   01101 1101011002   1  621 Iquique Urbano   356487.6 2017   191468
## 5   01101 1101021005   1 1927 Iquique Urbano   356487.6 2017   191468
## 6   01101 1101031001   1 1179 Iquique Urbano   356487.6 2017   191468
## 7   01101 1101031002   1 1582 Iquique Urbano   356487.6 2017   191468
## 8   01101 1101031003   1 2111 Iquique Urbano   356487.6 2017   191468
## 9   01101 1101031004   1 1532 Iquique Urbano   356487.6 2017   191468
## 10  01101 1101041001   1  712 Iquique Urbano   356487.6 2017   191468
##    Ingresos_expandidos
## 1          68255976664
## 2          68255976664
## 3          68255976664
## 4          68255976664
## 5          68255976664
## 6          68255976664
## 7          68255976664
## 8          68255976664
## 9          68255976664
## 10         68255976664

3.5.3 hay que integrar las proporciones poblacionales zonales

tabla_de_prop_pob <- readRDS("tabla_de_prop_pob.rds")
names(tabla_de_prop_pob)[1] <- "zona" 
tabla_de_prop_pob$zona <- as.character(tabla_de_prop_pob$zona) 
tabla_4 = merge( x = tabla_3, y = tabla_de_prop_pob, by = "zona", all.x = TRUE)
names(tabla_4)[4] <- "frecuencia" 
tabla_5 <- tabla_4[, -c( 11,13)]
head(tabla_5,10)
##          zona código.x P17 frecuencia  comuna   tipo promedio_i  año personas
## 1  1101011001    01101   1       1255 Iquique Urbano   356487.6 2017   191468
## 2  1101011002    01101   1        621 Iquique Urbano   356487.6 2017   191468
## 3  1101021001    01101   1        493 Iquique Urbano   356487.6 2017   191468
## 4  1101021002    01101   1         33 Iquique Urbano   356487.6 2017   191468
## 5  1101021003    01101   1       1224 Iquique Urbano   356487.6 2017   191468
## 6  1101021004    01101   1        968 Iquique Urbano   356487.6 2017   191468
## 7  1101021005    01101   1       1927 Iquique Urbano   356487.6 2017   191468
## 8  1101031001    01101   1       1179 Iquique Urbano   356487.6 2017   191468
## 9  1101031002    01101   1       1582 Iquique Urbano   356487.6 2017   191468
## 10 1101031003    01101   1       2111 Iquique Urbano   356487.6 2017   191468
##    Ingresos_expandidos            p
## 1          68255976664 0.0130100069
## 2          68255976664 0.0077036372
## 3          68255976664 0.0052384733
## 4          68255976664 0.0002820315
## 5          68255976664 0.0151200201
## 6          68255976664 0.0125242860
## 7          68255976664 0.0236331920
## 8          68255976664 0.0142321432
## 9          68255976664 0.0185618485
## 10         68255976664 0.0273988343

3.5.4 Construir multipob

3.5.4.1 Verificación criterio 3:

tabla_5$multipob <- tabla_5$Ingresos_expandidos*tabla_5$p
sum(is.na(tabla_5$promedio_i))
## [1] 2

2 Perdemos dos registros por el Error II.

frec_sin <- subset(tabla_5,!is.na(promedio_i))

Como sabemos cuales son?

frec_con <- subset(tabla_5,is.na(promedio_i))
frec_con
##          zona código.x P17 frecuencia comuna tipo promedio_i  año personas
## 83 1404011001    01404   1        448   <NA> <NA>         NA <NA>       NA
## 84 1404991999    01404   1         21   <NA> <NA>         NA <NA>       NA
##    Ingresos_expandidos          p multipob
## 83                  NA 0.39633700       NA
## 84                  NA 0.00989011       NA

Corroboramos la exclusión de los dos registros:

nrow(frec_sin)
## [1] 84

4 Análisis de regresión CON OUTLIERS

Aplicaremos un análisis de regresión donde:

\[ Y(dependiente) = ingreso \ expandido \ por \ zona \ (multi\_pob)\]

\[ X(independiente) = frecuencia \ de \ población \ que \ posee \ la \ variable \ Censal \ respecto \ a \ la \ zona \ (Freq.x) \]

4.1 Modelo lineal

Aplicaremos un análisis de regresión lineal del ingreso expandido por zona sobre las frecuencias de respuestas zonales.

frec_sin$frecuencia <- as.numeric(frec_sin$frecuencia)
linearMod <- lm( multipob~(frecuencia) , data=frec_sin)
summary(linearMod) 
## 
## Call:
## lm(formula = multipob ~ (frecuencia), data = frec_sin)
## 
## Residuals:
##        Min         1Q     Median         3Q        Max 
## -315501962  -49447152   16823609   59843648  177323100 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -46244637   27223954  -1.699   0.0932 .  
## frecuencia     823807      16363  50.344   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 88900000 on 82 degrees of freedom
## Multiple R-squared:  0.9687, Adjusted R-squared:  0.9683 
## F-statistic:  2535 on 1 and 82 DF,  p-value: < 2.2e-16

4.1.1 Gráfica de la recta de regresión lineal

ggplot(frec_sin, aes(x = (frecuencia), y = (multipob))) + 
  geom_point() +
  stat_smooth(method = "lm", col = "red")

Si bien obtenemos nuestro modelo lineal da cuenta del xxx de la variabilidad de los datos de respuesta en torno a su media, modelos alternativos pueden ofrecernos una explicación de la variable dependiente aún mayor.

4.1.2 Modelos alternativos

### 8.1 Modelo cuadrático

linearMod <- lm( multipob~(frecuencia^2) , data=frec_sin)
datos <- summary(linearMod)
dato <- datos$adj.r.squared
modelo <- "cuadrático"
sintaxis <- "linearMod <- lm( multi_pob~(Freq.x^2) , data=h_y_m_comuna_corr_01)"

modelos1 <- cbind(modelo,dato,sintaxis)


modelos1 <- cbind(modelo,dato,sintaxis)
 
### 8.2 Modelo cúbico
 
linearMod <- lm( multipob~(frecuencia^3) , data=frec_sin)
datos <- summary(linearMod)
dato <- datos$adj.r.squared
modelo <- "cúbico"
sintaxis <- "linearMod <- lm( multi_pob~(Freq.x^3) , data=h_y_m_comuna_corr_01)"

modelos2 <- cbind(modelo,dato,sintaxis)
 
### 8.3 Modelo logarítmico
 
linearMod <- lm( multipob~log(frecuencia) , data=frec_sin)
datos <- summary(linearMod)
dato <- datos$adj.r.squared
modelo <- "logarítmico"
sintaxis <- "linearMod <- lm( multi_pob~log(Freq.x) , data=h_y_m_comuna_corr_01)"

modelos3 <- cbind(modelo,dato,sintaxis)
 
### 8.5 Modelo con raíz cuadrada 
 
linearMod <- lm( multipob~sqrt(frecuencia) , data=frec_sin)
datos <- summary(linearMod)
dato <- datos$adj.r.squared
modelo <- "raíz cuadrada"
sintaxis <- "linearMod <- lm( multi_pob~sqrt(Freq.x) , data=h_y_m_comuna_corr_01)"

modelos5 <- cbind(modelo,dato,sintaxis)
 
### 8.6 Modelo raíz-raíz
 
linearMod <- lm( sqrt(multipob)~sqrt(frecuencia) , data=frec_sin)
datos <- summary(linearMod)
dato <- datos$adj.r.squared
modelo <- "raíz-raíz"
sintaxis <- "linearMod <- lm( sqrt(multi_pob)~sqrt(Freq.x) , data=h_y_m_comuna_corr_01)"

modelos6 <- cbind(modelo,dato,sintaxis)
 
### 8.7 Modelo log-raíz
 
linearMod <- lm( log(multipob)~sqrt(frecuencia) , data=frec_sin)
datos <- summary(linearMod)
dato <- datos$adj.r.squared
modelo <- "log-raíz"
sintaxis <- "linearMod <- lm( log(multi_pob)~sqrt(Freq.x) , data=h_y_m_comuna_corr_01)"

modelos7 <- cbind(modelo,dato,sintaxis)
 
### 8.8 Modelo raíz-log
 
linearMod <- lm( sqrt(multipob)~log(frecuencia) , data=frec_sin)
datos <- summary(linearMod)
dato <- datos$adj.r.squared
modelo <- "raíz-log"
sintaxis <- "linearMod <- lm( sqrt(multi_pob)~log(Freq.x) , data=h_y_m_comuna_corr_01)"

modelos8 <- cbind(modelo,dato,sintaxis)
 
### 8.9 Modelo log-log
 
linearMod <- lm( log(multipob)~log(frecuencia) , data=frec_sin)
datos <- summary(linearMod)
dato <- datos$adj.r.squared
modelo <- "log-log"
sintaxis <- "linearMod <- lm( log(multi_pob)~log(Freq.x) , data=h_y_m_comuna_corr_01)"

modelos9 <- cbind(modelo,dato,sintaxis)
 
modelos_bind <- rbind(modelos1, modelos2,modelos3,modelos5,modelos6,modelos7,modelos8,modelos9)
modelos_bind <- as.data.frame(modelos_bind)

modelos_bind <<- modelos_bind[order(modelos_bind$dato, decreasing = T ),]

#h_y_m_comuna_corr_01 <<- comunas_censo_casen

kbl(modelos_bind) %>%
  kable_styling(bootstrap_options = c("striped", "hover")) %>%
  kable_paper() %>%
  scroll_box(width = "100%", height = "400px")
modelo dato sintaxis
8 log-log 0.97989629522072 linearMod <- lm( log(multi_pob)~log(Freq.x) , data=h_y_m_comuna_corr_01)
5 raíz-raíz 0.970322106713924 linearMod <- lm( sqrt(multi_pob)~sqrt(Freq.x) , data=h_y_m_comuna_corr_01)
1 cuadrático 0.968279027105152 linearMod <- lm( multi_pob~(Freq.x^2) , data=h_y_m_comuna_corr_01)
2 cúbico 0.968279027105152 linearMod <- lm( multi_pob~(Freq.x^3) , data=h_y_m_comuna_corr_01)
4 raíz cuadrada 0.906187228583836 linearMod <- lm( multi_pob~sqrt(Freq.x) , data=h_y_m_comuna_corr_01)
6 log-raíz 0.859772208419047 linearMod <- lm( log(multi_pob)~sqrt(Freq.x) , data=h_y_m_comuna_corr_01)
7 raíz-log 0.832839000077064 linearMod <- lm( sqrt(multi_pob)~log(Freq.x) , data=h_y_m_comuna_corr_01)
3 logarítmico 0.645781469772034 linearMod <- lm( multi_pob~log(Freq.x) , data=h_y_m_comuna_corr_01)


4.1.3 Elección del modelo.

Elegimos el modelo log-log (8) pues tiene el más alto \(R^2\)

metodo <-8
switch (metodo,
        case = linearMod <- lm( multipob~(frecuencia^2) , data=frec_sin),
        case = linearMod <- lm( multipob~(frecuencia^3) , data=frec_sin),
        case = linearMod <- lm( multipob~log(frecuencia) , data=frec_sin),
        case = linearMod <- lm( multipob~sqrt(frecuencia) , data=frec_sin),
        case = linearMod <- lm( sqrt(multipob)~sqrt(frecuencia) , data=frec_sin),
        case = linearMod <- lm( log(multipob)~sqrt(frecuencia) , data=frec_sin),
        case = linearMod <- lm( sqrt(multipob)~log(frecuencia) , data=frec_sin),
        case = linearMod <- lm( log(multipob)~log(frecuencia) , data=frec_sin)
)
summary(linearMod)
## 
## Call:
## lm(formula = log(multipob) ~ log(frecuencia), data = frec_sin)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.81033 -0.03828  0.01306  0.06634  0.18759 
## 
## Coefficients:
##                 Estimate Std. Error t value Pr(>|t|)    
## (Intercept)     13.10277    0.12102  108.27   <2e-16 ***
## log(frecuencia)  1.06412    0.01673   63.61   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.1179 on 82 degrees of freedom
## Multiple R-squared:  0.9801, Adjusted R-squared:  0.9799 
## F-statistic:  4047 on 1 and 82 DF,  p-value: < 2.2e-16

4.1.3.1 Modelo log-log (log-log)

Es éste el modelo que nos entrega el mayor coeficiente de determinación de todos (xxx).

ggplot(frec_sin, aes(x = log(frecuencia) , y = log(multipob))) + geom_point() + stat_smooth(method = "lm", col = "red")

4.1.3.2 Análisis de residuos

par(mfrow = c (2,2))
plot(linearMod)

4.1.3.3 Modelo log-log

\[ \hat Y = e^{\beta_0+\beta_1 ln{X}} \]

4.1.3.4 Modelo real:

\[ \hat Y = e^{13.10277 + 1.06412 \cdot ln{X}} \]


linearMod <- lm( log(multipob)~log(frecuencia) , data=frec_sin)
aa <- linearMod$coefficients[1]
bb <- linearMod$coefficients[2]
aa
## (Intercept) 
##    13.10277
bb
## log(frecuencia) 
##        1.064123


5 Dos modelos

En nuestro trabajo sobre al área urbana nos encontramos sólo con dos modelos óptimos: todos son log-log a excepción del raíz-raíz que se utiliza en la región 15.

5.1 Modelo log-log

\[ \hat Y = e^{\beta_0+\beta_1 ln{X}} \]

head(frec_sin,10)
##          zona código.x P17 frecuencia  comuna   tipo promedio_i  año personas
## 1  1101011001    01101   1       1255 Iquique Urbano   356487.6 2017   191468
## 2  1101011002    01101   1        621 Iquique Urbano   356487.6 2017   191468
## 3  1101021001    01101   1        493 Iquique Urbano   356487.6 2017   191468
## 4  1101021002    01101   1         33 Iquique Urbano   356487.6 2017   191468
## 5  1101021003    01101   1       1224 Iquique Urbano   356487.6 2017   191468
## 6  1101021004    01101   1        968 Iquique Urbano   356487.6 2017   191468
## 7  1101021005    01101   1       1927 Iquique Urbano   356487.6 2017   191468
## 8  1101031001    01101   1       1179 Iquique Urbano   356487.6 2017   191468
## 9  1101031002    01101   1       1582 Iquique Urbano   356487.6 2017   191468
## 10 1101031003    01101   1       2111 Iquique Urbano   356487.6 2017   191468
##    Ingresos_expandidos            p   multipob
## 1          68255976664 0.0130100069  888010727
## 2          68255976664 0.0077036372  525819278
## 3          68255976664 0.0052384733  357557109
## 4          68255976664 0.0002820315   19250333
## 5          68255976664 0.0151200201 1032031736
## 6          68255976664 0.0125242860  854857376
## 7          68255976664 0.0236331920 1613106600
## 8          68255976664 0.0142321432  971428836
## 9          68255976664 0.0185618485 1266957095
## 10         68255976664 0.0273988343 1870134193
frec_sin$est_ing <- exp(aa+ bb*log(frec_sin$frecuencia))

5.2 Modelo raíz-raíz

\[ \hat Y = {\beta_0}^2 + 2 \beta_0 \beta_1 \sqrt{X}+ \beta_1^2 X \]

# solo para la region 15
# tabla_5$est_ing <- aa^2+2*aa*bb*sqrt(tabla_5$frecuencia) + bb^2*tabla_5$frecuencia

6 Aplicación la regresión a los valores de la variable a nivel de zona

La variable estimada se llamará: est_ing

head(frec_sin,10)
##          zona código.x P17 frecuencia  comuna   tipo promedio_i  año personas
## 1  1101011001    01101   1       1255 Iquique Urbano   356487.6 2017   191468
## 2  1101011002    01101   1        621 Iquique Urbano   356487.6 2017   191468
## 3  1101021001    01101   1        493 Iquique Urbano   356487.6 2017   191468
## 4  1101021002    01101   1         33 Iquique Urbano   356487.6 2017   191468
## 5  1101021003    01101   1       1224 Iquique Urbano   356487.6 2017   191468
## 6  1101021004    01101   1        968 Iquique Urbano   356487.6 2017   191468
## 7  1101021005    01101   1       1927 Iquique Urbano   356487.6 2017   191468
## 8  1101031001    01101   1       1179 Iquique Urbano   356487.6 2017   191468
## 9  1101031002    01101   1       1582 Iquique Urbano   356487.6 2017   191468
## 10 1101031003    01101   1       2111 Iquique Urbano   356487.6 2017   191468
##    Ingresos_expandidos            p   multipob    est_ing
## 1          68255976664 0.0130100069  888010727  972289284
## 2          68255976664 0.0077036372  525819278  459886409
## 3          68255976664 0.0052384733  357557109  359731066
## 4          68255976664 0.0002820315   19250333   20246207
## 5          68255976664 0.0151200201 1032031736  946752960
## 6          68255976664 0.0125242860  854857376  737557917
## 7          68255976664 0.0236331920 1613106600 1534530600
## 8          68255976664 0.0142321432  971428836  909758113
## 9          68255976664 0.0185618485 1266957095 1243960523
## 10         68255976664 0.0273988343 1870134193 1690914875


7 División del valor estimado entre la población total de la zona para obtener el ingreso medio por zona


\[ Ingreso \_ Medio\_zona = est\_ing / (personas * p\_poblacional) \]


frec_sin$ing_medio_zona <- as.numeric(frec_sin$est_ing /(frec_sin$personas  * frec_sin$p))
nrow(frec_sin)
## [1] 84
pp <- ggplot(data = frec_sin) + geom_boxplot(aes(x=comuna, y=ing_medio_zona, color=comuna))
pp + theme(axis.text.x = element_text(angle = 40, vjust = 1, hjust=1))

pp <- ggplot(data = frec_sin) + geom_boxplot(aes(ing_medio_zona))
pp + theme(axis.text.x = element_text(angle = 40, vjust = 1, hjust=1))

nrow(frec_sin)
## [1] 84
yyy <- frec_sin$zona

8 Análisis de regresión SIN OUTLIERS

8.1 Criterio para excluir outliers de frecuencias:

Q <- quantile(frec_sin$frecuencia, probs=c(.25, .75), na.rm = T)
iqr <- IQR(frec_sin$frecuencia, na.rm = T)
casen_2017_sin_o <- subset(frec_sin, frec_sin$frecuencia > (Q[1] - 1.5*iqr) & frec_sin$frecuencia < (Q[2]+1.5*iqr))
casen_2017_sin_o <- data.frame(lapply(casen_2017_sin_o, as.character), stringsAsFactors=FALSE)
# head(casen_2017_sin_o,10)
nrow(casen_2017_sin_o)
## [1] 83
xxx <- casen_2017_sin_o$zona
print(setdiff(yyy,xxx))
## [1] "1107011003"

3 Perdemos un registro, con lo que hay problemas de exclusión con el Error III.

casen_2017_sin_o$frecuencia <- as.numeric(casen_2017_sin_o$frecuencia)
casen_2017_sin_o$promedio_i <- as.numeric(casen_2017_sin_o$promedio_i)
casen_2017_sin_o$Ingresos_expandidos <- as.numeric(casen_2017_sin_o$Ingresos_expandidos)
casen_2017_sin_o$multipob <- as.numeric(casen_2017_sin_o$multipob)
casen_2017_sin_o$est_ing <- as.numeric(casen_2017_sin_o$est_ing)
casen_2017_sin_o$ing_medio_zona <- as.numeric(casen_2017_sin_o$ing_medio_zona)
casen_2017_sin_o$personas <- as.numeric(casen_2017_sin_o$personas)
casen_2017_sin_o$p <- as.numeric(casen_2017_sin_o$p)
# setdiff(casen_2017_sin_o,frec_sin )
pp <- ggplot(data = casen_2017_sin_o) + geom_boxplot(aes(x=comuna, y=ing_medio_zona, color=comuna))
pp + theme(axis.text.x = element_text(angle = 40, vjust = 1, hjust=1))

8.2 Criterio para excluir outliers de ing_medio_zona:

casen_2017_sin_o2 <- casen_2017_sin_o
casen_2017_sin_o2$ing_medio_zona <- as.numeric(casen_2017_sin_o$ing_medio_zona)
Q <- quantile(casen_2017_sin_o2$ing_medio_zona, probs=c(.1, .9), na.rm = T)
iqr <- IQR(casen_2017_sin_o2$ing_medio_zona, na.rm = T)
casen_2017_sin_o2 <- subset(casen_2017_sin_o2, casen_2017_sin_o2$ing_medio_zona > (Q[1] - 1.5*iqr) & casen_2017_sin_o2$ing_medio_zona < (Q[2]+1.5*iqr))
casen_2017_sin_o2 <- data.frame(lapply(casen_2017_sin_o2, as.character), stringsAsFactors=FALSE)
casen_2017_sin_o2$multipob <- as.numeric(casen_2017_sin_o2$multipob)
casen_2017_sin_o2$frecuencia <- as.numeric(casen_2017_sin_o2$frecuencia)
casen_2017_sin_o2$ing_medio_zona <- as.numeric(casen_2017_sin_o2$ing_medio_zona)
# head(casen_2017_sin_o,10)
nrow(casen_2017_sin_o2)
## [1] 82

4 Perdemos un registro, con lo que hay problemas de exclusión con el Error IV.

Identifiquemoslo:

yyy <- casen_2017_sin_o$zona
xxx <- casen_2017_sin_o2$zona
print(setdiff(yyy,xxx))
## [1] "1401991999"
pp <- ggplot(data = casen_2017_sin_o2) + geom_boxplot(aes(ing_medio_zona))
pp + theme(axis.text.x = element_text(angle = 40, vjust = 1, hjust=1))

casen_2017_sin_o$razon_de_exclusion <- "ninguno"

9 Tabla Región 01 final

Añadimos los excluídos con su razón de exclusión:

1404011001 no existe dato Casen

1404991999 no existe dato Casen

1107011003 outlier frecuencias

1401991999 outlier ingreso medio

z1<-data.frame(zona=c(1404011001),
              código.x = c(0),
              P17= c(0),
              frecuencia= c(0),
              comuna= c(0),
              tipo= c(0),
              promedio_i= c(0),
              año= c(0),
              personas= c(0),
              Ingresos_expandidos= c(0),
              p= c(0),
              multipob= c(0),
              est_ing= c(0),
              ing_medio_zona= c(0),
              razon_de_exclusion=c("no existe dato Casen")) 

z2<-data.frame(zona=c(1404991999),
              código.x = c(0),
              P17= c(0),
              frecuencia= c(0),
              comuna= c(0),
              tipo= c(0),
              promedio_i= c(0),
              año= c(0),
              personas= c(0),
              Ingresos_expandidos= c(0),
              p= c(0),
              multipob= c(0),
              est_ing= c(0),
              ing_medio_zona= c(0),
              razon_de_exclusion=c("no existe dato Casen")) 

z3<-data.frame(zona=c(1107011003),
              código.x = c(0),
              P17= c(0),
              frecuencia= c(0),
              comuna= c(0),
              tipo= c(0),
              promedio_i= c(0),
              año= c(0),
              personas= c(0),
              Ingresos_expandidos= c(0),
              p= c(0),
              multipob= c(0),
              est_ing= c(0),
              ing_medio_zona= c(0),
              razon_de_exclusion=c("outlier frecuencias")) 

z4<-data.frame(zona=c(1401991999),
              código.x = c(0),
              P17= c(0),
              frecuencia= c(0),
              comuna= c(0),
              tipo= c(0),
              promedio_i= c(0),
              año= c(0),
              personas= c(0),
              Ingresos_expandidos= c(0),
              p= c(0),
              multipob= c(0),
              est_ing= c(0),
              ing_medio_zona= c(0),
              razon_de_exclusion=c("outlier ingreso medio")) 
casen_2017_sin_o<-rbind(casen_2017_sin_o,z1)
casen_2017_sin_o<-rbind(casen_2017_sin_o,z2)
casen_2017_sin_o<-rbind(casen_2017_sin_o,z3)
casen_2017_sin_o<-rbind(casen_2017_sin_o,z4)
saveRDS(casen_2017_sin_o, "urbanidad/region_01_P17_u_final.rds")
write_xlsx(casen_2017_sin_o, "urbanidad/region_01_P17_u_final.xlsx")


11 Anexo:

11.1 Modelos alternativos

11.1.1 Modelo cuadrático

\[ \hat Y = \beta_0 + \beta_1 X^2 \]

11.1.2 Modelo cúbico

\[ \hat Y = \beta_0 + \beta_1 X^3 \]

11.1.3 Modelo logarítmico

\[ \hat Y = \beta_0 + \beta_1 ln X \]

11.1.4 Modelo exponencial

\[ \hat Y = \beta_0 + \beta_1 e^X \]

No es aplicable sin una transformación pues los valores elevados a \(e\) de Freq.x tienden a infinito.

11.1.5 Modelo con raíz cuadrada

\[ \hat Y = \beta_0 + \beta_1 \sqrt {X} \]

11.1.6 raiz raiz

\[ \hat Y = {\beta_0}^2 + 2 \beta_0 \beta_1 \sqrt{X}+ \beta_1^2 X \]

11.1.7 Modelo log-raíz

\[ \hat Y = e^{\beta_0 + \beta_1 \sqrt{X}} \]

11.1.8 Modelo raíz-log

\[ \hat Y = {\beta_0}^2 + 2 \beta_0 \beta_1 \ln{X}+ \beta_1^2 ln^2X \]

11.1.9 Modelo log-log

\[ \hat Y = e^{\beta_0+\beta_1 ln{X}} \]


https://www.investopedia.com/terms/e/empirical-rule.asp

# archivos <- dir("urbanidad/", pattern = "*.rds")
# unadataframe <- data.frame()
# for(i in archivos ){
#   tablilla <- paste0('urbanidad/',i)
#   region <- readRDS(tablilla)
#   unadataframe = rbind( unadataframe, region )
# }
# saveRDS(unadataframe, "urbanidad/nacional_P17_u_nuevo.rds")