Expansión de la CASEN sobre el CENSO a nivel de manzana (PASO 2)

P17 ¿Trabajó por un pago o especie?: Correlación: 0.8717

VE-CC-AJ

DataIntelligence

date: 22-07-2021

1 Leemos el archivo censo2017_manzanas.csv

manzanas <- read.csv('../../../archivos_grandes/censo2017_manzanas.csv',sep=";")
nrow(manzanas)
## [1] 180499
abc <- head(manzanas,15)
kbl(abc) %>%
  kable_styling(bootstrap_options = c("striped", "hover")) %>%
  kable_paper() %>%
  scroll_box(width = "100%", height = "300px")
REGION PROVINCIA COMUNA DC AREA ZC_LOC MZ_ENT ID_ZONA_LOC ID_MANZENT PERSONAS HOMBRES MUJERES EDAD_0A5 EDAD_6A14 EDAD_15A64 EDAD_65YMAS INMIGRANTES PUEBLO VIV_PART VIV_COL VPOMP TOTAL_VIV CANT_HOG P01_1 P01_2 P01_3 P01_4 P01_5 P01_6 P01_7 P03A_1 P03A_2 P03A_3 P03A_4 P03A_5 P03A_6 P03B_1 P03B_2 P03B_3 P03B_4 P03B_5 P03B_6 P03B_7 P03C_1 P03C_2 P03C_3 P03C_4 P03C_5 MATACEP MATREC MATIRREC P05_1 P05_2 P05_3 P05_4 REGION_15R PROVINCIA_15R COMUNA_15R ID_MANZENT_15R
1 11 1101 1 1 1 1 7849 1.10101e+12 15
0 0 15 0 0 0 1 2 0 3 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 11 1101 1.10101e+12
1 11 1101 1 1 1 10 7849 1.10101e+12 70 38 32
54 10 12 13 17 1 15 18 24 16 0 0 1 0 0 0 0 1 13 1 0 0 8 0 7 0 0 0 0 15 0 0 0 0 14 1 0 15 0 0 0 1 11 1101 1.10101e+12
1 11 1101 1 1 1 11 7849 1.10101e+12 36 21 15
0 28
11 7 15 1 15 16 15 2 0 0 13 0 0 0 0 0 15 0 0 0 0 0 15 0 0 0 0 10 0 0 5 0 10 5 0 15 0 0 0 1 11 1101 1.10101e+12
1 11 1101 1 1 1 12 7849 1.10101e+12 65 34 31
7 49
27 4 24 0 24 24 28 24 0 0 0 0 0 0 2 4 11 7 0 0 5 2 13 0 0 3 1 18 1 4 1 0 11 9 4 24 0 0 0 1 11 1101 1.10101e+12
1 11 1101 1 1 1 13 7849 1.10101e+12 39 12 27
26 7 4 17 11 2 9 13 9 9 1 0 0 1 0 0 0 4 5 0 0 0 6 0 3 0 0 0 0 9 0 0 0 0 9 0 0 9 0 0 0 1 11 1101 1.10101e+12
1 11 1101 1 1 1 14 7849 1.10101e+12 160 69 91 18 17 116 9 62 19 75 0 62 75 64 29 17 0 29 0 0 0 22 13 25 2 0 0 30 0 32 0 0 0 0 59 0 2 1 0 57 5 0 61 0 0 0 1 11 1101 1.10101e+12
1 11 1101 1 1 1 15 7849 1.10101e+12 19
14
8 0 7 8 7 8 0 0 0 0 0 0 4 2 1 0 0 0 0 1 6 0 0 0 0 5 0 2 0 0 5 2 0 7 0 0 0 1 11 1101 1.10101e+12
1 11 1101 1 1 1 16 7849 1.10101e+12 456 223 233 39 47 334 36 40 77 213 0 163 213 170 44 168 0 1 0 0 0 107 31 21 3 0 0 30 114 16 1 0 1 0 160 1 1 0 0 157 4 1 163 0 0 0 1 11 1101 1.10101e+12
1 11 1101 1 1 1 17 7849 1.10101e+12 203 111 92 18 26 144 15 53 49 100 1 80 101 80 44 0 0 56 0 0 0 14 4 42 17 2 0 46 2 28 3 0 0 0 60 0 6 12 0 42 35 0 80 0 0 0 1 11 1101 1.10101e+12
1 11 1101 1 1 1 18 7849 1.10101e+12 132 68 64 8 17 93 14 30 23 72 0 43 72 45 42 0 0 30 0 0 0 6 11 16 9 0 0 32 0 11 0 0 0 0 38 0 5 0 0 28 14 0 43 0 0 0 1 11 1101 1.10101e+12
1 11 1101 1 1 1 19 7849 1.10101e+12 34 14 20 0 4 18 12
16 0 14 16 14 14 1 0 0 0 0 1 1 7 3 3 0 0 8 0 6 0 0 0 0 14 0 0 0 0 11 3 0 14 0 0 0 1 11 1101 1.10101e+12
1 11 1101 1 1 1 20 7849 1.10101e+12 54 31 23 8 5 36 5 8 12 23 0 13 23 14 19 0 0 1 0 0 3 0 2 8 2 0 0 10 0 2 0 0 0 0 11 0 0 1 0 10 2 0 12 0 0 0 1 11 1101 1.10101e+12
1 11 1101 1 1 1 22 7849 1.10101e+12 0 0 0 0 0 0 0 0 0 1 0 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 11 1101 1.10101e+12
1 11 1101 1 1 1 23 7849 1.10101e+12 62 37 25
10 45
16 31 0 28 31 30 8 21 0 0 0 0 2 8 14 4 1 0 0 9 15 3 0 0 0 0 27 0 0 0 0 25 1 0 27 0 1 0 1 11 1101 1.10101e+12
1 11 1101 1 1 1 24 7849 1.10101e+12 0 0 0 0 0 0 0 0 0 1 0 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 11 1101 1.10101e+12

2 Creación del campo zonas y manzanas

No tenemos un campo que identifique de manera inequívoca una manzana, así que en el dataframe “manzanas” construiremos una columna que se llame “zona” y otra que se llame “manzana”, ésta última que integre al final de su propio código siempre tres dígitos añadiendo ceros cuando corresponda.

2.1 Generación del campo zona

Seguimos los pasos del primer apartado de https://rpubs.com/dataintelligence/censo_2017_personas

2.1.1 Analicemos la estructura del código de Comuna:

manzanas <- manzanas
head(unique(manzanas$COMUNA),50)
##  [1] 1101 1107 1401 1402 1403 1404 1405 2101 2102 2103 2104 2201 2202 2203 2301
## [16] 2302 3101 3102 3103 3201 3202 3301 3302 3303 3304 4101 4102 4103 4104 4105
## [31] 4106 4201 4202 4203 4204 4301 4302 4303 4304 4305 5101 5102 5103 5104 5105
## [46] 5107 5109 5201 5301 5302

Estructura que permanece inalterada en la forma del código zona.

2.1.2 Analicemos la estructura del código de DC:

head(unique(manzanas$DC),10000)
##  [1]  1 10 11  2  3  4  5  6  7  8  9 99 12 13 14 15 16 17 18 19 20 21 22 23 24
## [26] 25 26 27 28 29 30 31 32 33

Debemos agregar un cero a la izquierda a todos los códigos DC que contengan un dígito:

codigos <- manzanas$DC
rango <- seq(1:nrow(manzanas))
cadena <- paste("0",codigos[rango], sep = "")
cadena <- substr(cadena,(nchar(cadena)[rango])-(1),(nchar(cadena)[rango]))
codigos <- as.data.frame(codigos)
cadena <- as.data.frame(cadena)
dc <- cbind(codigos,cadena)

Lo verificamos

head(unique(dc$cadena),50)
##  [1] "01" "10" "11" "02" "03" "04" "05" "06" "07" "08" "09" "99" "12" "13" "14"
## [16] "15" "16" "17" "18" "19" "20" "21" "22" "23" "24" "25" "26" "27" "28" "29"
## [31] "30" "31" "32" "33"

Analicemos la estructura del código de zc_loc:

a002 <- head(unique(manzanas$ZC_LOC),50)
a002
##  [1]   1   2   3   4   5   6  10  11  12  13  14   7   8   9  19  25 901  16  17
## [20]  18  20  21  22  23  24 999  15  29  26  27  34  28  36  37  33  35  32  31
## [39]  30  47  38  48  50  40  45  39  41  44  55  59

Deben todos los codigos poseer tres dígitos, agregándole un cero a los que tienen 2 y dos ceros a los que tienen uno.

codigos <- manzanas$ZC_LOC
rango <- seq(1:nrow(manzanas))
cadena<- paste("00",codigos[rango], sep = "")
cadena <- substr(cadena,(nchar(cadena)[rango])-(2),nchar(cadena)[rango])
codigos <- as.data.frame(codigos)
cadena <- as.data.frame(cadena)
cadena_c <- cbind(codigos,cadena)

lo verificamos

head(unique(cadena_c$cadena),50)
##  [1] "001" "002" "003" "004" "005" "006" "010" "011" "012" "013" "014" "007"
## [13] "008" "009" "019" "025" "901" "016" "017" "018" "020" "021" "022" "023"
## [25] "024" "999" "015" "029" "026" "027" "034" "028" "036" "037" "033" "035"
## [37] "032" "031" "030" "047" "038" "048" "050" "040" "045" "039" "041" "044"
## [49] "055" "059"

Unimos nuestra nueva clave a nuestro dataframe original con el nombre de campo clave:

manzanas$clave <- paste(manzanas$COMUNA, dc$cadena, manzanas$AREA,  cadena_c$cadena, sep="")

Verificamos para los primeros 50 registros y vemos que la última columna contiene la clave.

tablamadre <- head(manzanas,50)

kbl(tablamadre) %>%
  kable_styling(bootstrap_options = c("striped", "hover")) %>%
  kable_paper() %>%
  scroll_box(width = "100%", height = "300px")
REGION PROVINCIA COMUNA DC AREA ZC_LOC MZ_ENT ID_ZONA_LOC ID_MANZENT PERSONAS HOMBRES MUJERES EDAD_0A5 EDAD_6A14 EDAD_15A64 EDAD_65YMAS INMIGRANTES PUEBLO VIV_PART VIV_COL VPOMP TOTAL_VIV CANT_HOG P01_1 P01_2 P01_3 P01_4 P01_5 P01_6 P01_7 P03A_1 P03A_2 P03A_3 P03A_4 P03A_5 P03A_6 P03B_1 P03B_2 P03B_3 P03B_4 P03B_5 P03B_6 P03B_7 P03C_1 P03C_2 P03C_3 P03C_4 P03C_5 MATACEP MATREC MATIRREC P05_1 P05_2 P05_3 P05_4 REGION_15R PROVINCIA_15R COMUNA_15R ID_MANZENT_15R clave
1 11 1101 1 1 1 1 7849 1.10101e+12 15
0 0 15 0 0 0 1 2 0 3 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 11 1101 1.10101e+12 1101011001
1 11 1101 1 1 1 10 7849 1.10101e+12 70 38 32
54 10 12 13 17 1 15 18 24 16 0 0 1 0 0 0 0 1 13 1 0 0 8 0 7 0 0 0 0 15 0 0 0 0 14 1 0 15 0 0 0 1 11 1101 1.10101e+12 1101011001
1 11 1101 1 1 1 11 7849 1.10101e+12 36 21 15
0 28
11 7 15 1 15 16 15 2 0 0 13 0 0 0 0 0 15 0 0 0 0 0 15 0 0 0 0 10 0 0 5 0 10 5 0 15 0 0 0 1 11 1101 1.10101e+12 1101011001
1 11 1101 1 1 1 12 7849 1.10101e+12 65 34 31
7 49
27 4 24 0 24 24 28 24 0 0 0 0 0 0 2 4 11 7 0 0 5 2 13 0 0 3 1 18 1 4 1 0 11 9 4 24 0 0 0 1 11 1101 1.10101e+12 1101011001
1 11 1101 1 1 1 13 7849 1.10101e+12 39 12 27
26 7 4 17 11 2 9 13 9 9 1 0 0 1 0 0 0 4 5 0 0 0 6 0 3 0 0 0 0 9 0 0 0 0 9 0 0 9 0 0 0 1 11 1101 1.10101e+12 1101011001
1 11 1101 1 1 1 14 7849 1.10101e+12 160 69 91 18 17 116 9 62 19 75 0 62 75 64 29 17 0 29 0 0 0 22 13 25 2 0 0 30 0 32 0 0 0 0 59 0 2 1 0 57 5 0 61 0 0 0 1 11 1101 1.10101e+12 1101011001
1 11 1101 1 1 1 15 7849 1.10101e+12 19
14
8 0 7 8 7 8 0 0 0 0 0 0 4 2 1 0 0 0 0 1 6 0 0 0 0 5 0 2 0 0 5 2 0 7 0 0 0 1 11 1101 1.10101e+12 1101011001
1 11 1101 1 1 1 16 7849 1.10101e+12 456 223 233 39 47 334 36 40 77 213 0 163 213 170 44 168 0 1 0 0 0 107 31 21 3 0 0 30 114 16 1 0 1 0 160 1 1 0 0 157 4 1 163 0 0 0 1 11 1101 1.10101e+12 1101011001
1 11 1101 1 1 1 17 7849 1.10101e+12 203 111 92 18 26 144 15 53 49 100 1 80 101 80 44 0 0 56 0 0 0 14 4 42 17 2 0 46 2 28 3 0 0 0 60 0 6 12 0 42 35 0 80 0 0 0 1 11 1101 1.10101e+12 1101011001
1 11 1101 1 1 1 18 7849 1.10101e+12 132 68 64 8 17 93 14 30 23 72 0 43 72 45 42 0 0 30 0 0 0 6 11 16 9 0 0 32 0 11 0 0 0 0 38 0 5 0 0 28 14 0 43 0 0 0 1 11 1101 1.10101e+12 1101011001
1 11 1101 1 1 1 19 7849 1.10101e+12 34 14 20 0 4 18 12
16 0 14 16 14 14 1 0 0 0 0 1 1 7 3 3 0 0 8 0 6 0 0 0 0 14 0 0 0 0 11 3 0 14 0 0 0 1 11 1101 1.10101e+12 1101011001
1 11 1101 1 1 1 20 7849 1.10101e+12 54 31 23 8 5 36 5 8 12 23 0 13 23 14 19 0 0 1 0 0 3 0 2 8 2 0 0 10 0 2 0 0 0 0 11 0 0 1 0 10 2 0 12 0 0 0 1 11 1101 1.10101e+12 1101011001
1 11 1101 1 1 1 22 7849 1.10101e+12 0 0 0 0 0 0 0 0 0 1 0 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 11 1101 1.10101e+12 1101011001
1 11 1101 1 1 1 23 7849 1.10101e+12 62 37 25
10 45
16 31 0 28 31 30 8 21 0 0 0 0 2 8 14 4 1 0 0 9 15 3 0 0 0 0 27 0 0 0 0 25 1 0 27 0 1 0 1 11 1101 1.10101e+12 1101011001
1 11 1101 1 1 1 24 7849 1.10101e+12 0 0 0 0 0 0 0 0 0 1 0 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 11 1101 1.10101e+12 1101011001
1 11 1101 1 1 1 25 7849 1.10101e+12 0 0 0 0 0 0 0 0 0 2 0 0 2 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 11 1101 1.10101e+12 1101011001
1 11 1101 1 1 1 26 7849 1.10101e+12 401 197 204 42 35 275 49 26 58 130 1 113 131 114 76 54 0 0 0 0 0 63 46 3 0 0 0 34 52 25 1 0 0 0 110 0 2 0 0 109 3 0 111 0 0 0 1 11 1101 1.10101e+12 1101011001
1 11 1101 1 1 1 27 7849 1.10101e+12 307 151 156 31 32 230 14 51 37 168 0 130 168 131 46 121 0 0 0 0 1 92 25 10 1 0 2 27 89 10 1 0 3 0 129 0 0 0 0 124 2 3 128 0 0 0 1 11 1101 1.10101e+12 1101011001
1 11 1101 1 1 1 28 7849 1.10101e+12 43 21 22
27 10
0 14 1 13 15 13 14 0 0 0 0 0 0 7 3 2 1 0 0 5 1 7 0 0 0 0 13 0 0 0 0 12 1 0 13 0 0 0 1 11 1101 1.10101e+12 1101011001
1 11 1101 1 1 1 29 7849 1.10101e+12 94 43 51 5 7 78 4 10 12 116 0 46 116 50 5 111 0 0 0 0 0 42 2 2 0 0 0 8 36 0 2 0 0 0 46 0 0 0 0 44 2 0 45 0 0 0 1 11 1101 1.10101e+12 1101011001
1 11 1101 1 1 1 3 7849 1.10101e+12 21 12 9 0 6 15 0 4 0 9 0 8 9 9 0 9 0 0 0 0 0 6 2 0 0 0 0 2 6 0 0 0 0 0 8 0 0 0 0 8 0 0 8 0 0 0 1 11 1101 1.10101e+12 1101011001
1 11 1101 1 1 1 6 7849 1.10101e+12 82 48 34
57 17 13 6 21 1 21 22 30 16 5 0 0 0 0 0 3 3 12 3 0 0 1 4 16 0 0 0 0 21 0 0 0 0 18 3 0 21 0 0 0 1 11 1101 1.10101e+12 1101011001
1 11 1101 1 1 1 8 7849 1.10101e+12 28 14 14 0 0 23 5
0 4 1 0 5 0 3 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 11 1101 1.10101e+12 1101011001
1 11 1101 1 1 1 9 7849 1.10101e+12 135 64 71 20 23 82 10 46 37 54 0 44 54 44 20 5 0 28 0 0 1 5 0 34 5 0 0 34 2 8 0 0 0 0 44 0 0 0 0 39 5 0 44 0 0 0 1 11 1101 1.10101e+12 1101011001
1 11 1101 1 1 1 901 7849 1.10101e+12 35 27 8
4 28
5
14 2 10 16 11 9 0 0 0 0 1 4 1 0 8 1 0 0 3 0 7 0 0 0 0 10 0 0 0 0 9 1 0 8 0 1 0 1 11 1101 1.10101e+12 1101011001
1 11 1101 1 1 2 2 15400 1.10101e+12 632 319 313 70 129 409 24 7 60 197 0 182 197 185 4 193 0 0 0 0 0 147 34 0 0 0 0 43 111 25 0 0 0 0 178 0 0 0 0 177 0 0 179 0 0 0 1 11 1101 1.10101e+12 1101011002
1 11 1101 1 1 2 3 15400 1.10101e+12 408 195 213 26 63 274 45 11 39 162 0 140 162 140 2 160 0 0 0 0 0 112 28 0 0 0 0 13 125 2 0 0 0 0 140 0 0 0 0 140 0 0 140 0 0 0 1 11 1101 1.10101e+12 1101011002
1 11 1101 1 1 2 4 15400 1.10101e+12 94 51 43 5 8 71 10 0 7 32 0 29 32 29 0 32 0 0 0 0 0 25 4 0 0 0 0 5 24 0 0 0 0 0 29 0 0 0 0 29 0 0 29 0 0 0 1 11 1101 1.10101e+12 1101011002
1 11 1101 1 1 2 6 15400 1.10101e+12 254 134 120
61 170
0 35 66 0 65 66 65 1 65 0 0 0 0 0 59 6 0 0 0 0 26 35 4 0 0 0 0 65 0 0 0 0 65 0 0 65 0 0 0 1 11 1101 1.10101e+12 1101011002
1 11 1101 1 1 2 8 15400 1.10101e+12 87 50 37
6 73
8 12 58 0 40 58 40 11 47 0 0 0 0 0 29 10 1 0 0 0 8 31 1 0 0 0 0 40 0 0 0 0 40 0 0 39 0 0 0 1 11 1101 1.10101e+12 1101011002
1 11 1101 10 1 1 1 11127 1.10110e+12 77 40 37 4 6 59 8 13 10 23 0 21 23 26 23 0 0 0 0 0 0 0 19 2 0 0 0 6 1 14 0 0 0 0 18 1 2 0 0 18 3 0 21 0 0 0 1 11 1101 1.10110e+12 1101101001
1 11 1101 10 1 1 11 11127 1.10110e+12 36 16 20
9 22
0
8 0 8 8 8 8 0 0 0 0 0 0 8 0 0 0 0 0 0 3 5 0 0 0 0 7 0 1 0 0 7 1 0 8 0 0 0 1 11 1101 1.10110e+12 1101101001
1 11 1101 10 1 1 12 11127 1.10110e+12 68 39 29
13 45
0 8 19 0 18 19 19 19 0 0 0 0 0 0 18 0 0 0 0 0 0 0 18 0 0 0 0 18 0 0 0 0 18 0 0 18 0 0 0 1 11 1101 1.10110e+12 1101101001
1 11 1101 10 1 1 13 11127 1.10110e+12 237 111 126 16 34 172 15 80 54 68 0 63 68 64 54 2 0 9 1 0 2 23 15 18 7 0 0 10 3 50 0 0 0 0 42 2 16 3 0 40 23 0 63 0 0 0 1 11 1101 1.10110e+12 1101101001
1 11 1101 10 1 1 14 11127 1.10110e+12 72 37 35 5 7 52 8 23 7 25 0 25 25 25 13 0 0 12 0 0 0 1 10 13 1 0 0 2 1 22 0 0 0 0 22 3 0 0 0 21 4 0 25 0 0 0 1 11 1101 1.10110e+12 1101101001
1 11 1101 10 1 1 16 11127 1.10110e+12 108 59 49 10 12 77 9 14 22 40 0 38 40 38 31 9 0 0 0 0 0 8 26 3 1 0 0 1 8 29 0 0 0 0 35 3 0 0 0 34 4 0 36 0 0 0 1 11 1101 1.10110e+12 1101101001
1 11 1101 10 1 1 17 11127 1.10110e+12 136 76 60 12 19 84 21 11 25 47 0 44 47 47 39 0 0 8 0 0 0 6 37 1 0 0 0 22 0 20 0 0 1 1 40 0 3 1 0 39 3 2 42 0 0 0 1 11 1101 1.10110e+12 1101101001
1 11 1101 10 1 1 18 11127 1.10110e+12 110 57 53 8 9 79 14 14 19 30 0 28 30 34 27 0 0 3 0 0 0 1 23 2 0 0 0 8 0 17 0 0 0 1 26 0 0 1 0 25 0 1 27 0 0 0 1 11 1101 1.10110e+12 1101101001
1 11 1101 10 1 1 2 11127 1.10110e+12 82 37 45 9 8 53 12 7 15 13 0 13 13 23 13 0 0 0 0 0 0 0 13 0 0 0 0 1 0 11 0 0 1 0 13 0 0 0 0 12 0 1 13 0 0 0 1 11 1101 1.10110e+12 1101101001
1 11 1101 10 1 1 20 11127 1.10110e+12 13 5 8
10 0
0 4 0 4 4 4 4 0 0 0 0 0 0 1 0 3 0 0 0 0 0 1 3 0 0 0 4 0 0 0 0 1 3 0 4 0 0 0 1 11 1101 1.10110e+12 1101101001
1 11 1101 10 1 1 21 11127 1.10110e+12 62 30 32 7 12 34 9 0 19 10 0 8 10 16 10 0 0 0 0 0 0 0 7 0 1 0 0 6 0 2 0 0 0 0 1 0 7 0 0 1 7 0 8 0 0 0 1 11 1101 1.10110e+12 1101101001
1 11 1101 10 1 1 22 11127 1.10110e+12 95 48 47 8 11 60 16 18 22 28 0 23 28 27 27 0 0 0 1 0 0 4 16 2 0 0 1 7 2 12 1 0 0 1 20 1 0 2 0 19 2 2 23 0 0 0 1 11 1101 1.10110e+12 1101101001
1 11 1101 10 1 1 23 11127 1.10110e+12 89 52 37 5 13 61 10 9 32 33 0 29 33 30 28 0 0 4 1 0 0 1 16 8 3 0 0 10 0 18 0 0 0 0 20 0 7 0 0 19 8 0 23 0 0 0 1 11 1101 1.10110e+12 1101101001
1 11 1101 10 1 1 24 11127 1.10110e+12 170 80 90 16 13 133 8 44 47 55 0 47 55 57 35 0 0 20 0 0 0 11 26 7 3 0 0 22 4 20 1 0 0 0 44 0 2 1 0 40 7 0 47 0 0 0 1 11 1101 1.10110e+12 1101101001
1 11 1101 10 1 1 25 11127 1.10110e+12 106 59 47 7 6 79 14 16 8 28 0 28 28 38 18 0 0 9 0 0 1 7 11 3 7 0 0 4 6 18 0 0 0 0 13 0 8 7 0 11 17 0 28 0 0 0 1 11 1101 1.10110e+12 1101101001
1 11 1101 10 1 1 26 11127 1.10110e+12 21 10 11
11 6 0 0 9 0 8 9 8 3 0 0 2 4 0 0 0 2 5 0 0 1 3 0 4 1 0 0 0 6 2 0 0 0 6 1 1 8 0 0 0 1 11 1101 1.10110e+12 1101101001
1 11 1101 10 1 1 28 11127 1.10110e+12 179 85 94 13 22 119 25 14 31 50 0 50 50 56 37 0 0 13 0 0 0 7 34 4 5 0 0 36 0 14 0 0 0 0 45 5 0 0 0 40 10 0 50 0 0 0 1 11 1101 1.10110e+12 1101101001
1 11 1101 10 1 1 30 11127 1.10110e+12 105 51 54 6 13 72 14 18 9 28 0 28 28 33 23 0 0 5 0 0 0 1 15 2 10 0 0 21 0 7 0 0 0 0 12 0 16 0 0 12 16 0 28 0 0 0 1 11 1101 1.10110e+12 1101101001
1 11 1101 10 1 1 31 11127 1.10110e+12 81 41 40 7 6 55 13 23 24 21 0 19 21 26 11 0 0 8 1 0 1 4 8 1 6 0 0 9 0 7 0 0 2 0 15 0 2 1 1 9 7 2 19 0 0 0 1 11 1101 1.10110e+12 1101101001
1 11 1101 10 1 1 32 11127 1.10110e+12 73 40 33 10
52
13 10 18 0 17 18 26 18 0 0 0 0 0 0 1 14 0 0 0 2 5 1 10 0 0 1 0 15 1 1 0 0 13 2 2 17 0 0 0 1 11 1101 1.10110e+12 1101101001

2.2 Generación del campo zona manzanal

Analicemos la estructura del código de MZ_ENT

MZ_ENT_1 <- head(unique(manzanas$MZ_ENT),50)
MZ_ENT_1
##  [1]   1  10  11  12  13  14  15  16  17  18  19  20  22  23  24  25  26  27  28
## [20]  29   3   6   8   9 901   2   4  21  30  31  32  33  34   7  37  40   5 500
## [39]  35  38  39 502 503 504 505 506  36  41 501  43

Deben todos los codigos poseer tres dígitos, agregándole un cero a los que tienen 2 y dos ceros a los que tienen uno.

codigos <- manzanas$MZ_ENT
rango <- seq(1:nrow(manzanas))
cade<- paste("00",codigos[rango], sep = "")
cade <- substr(cade,(nchar(cade)[rango])-(2),nchar(cade)[rango])
codigos <- as.data.frame(codigos)
cade <- as.data.frame(cade)
cade_c <- cbind(codigos,cade)

lo verificamos:

head(unique(cade_c$cade),50)
##  [1] "001" "010" "011" "012" "013" "014" "015" "016" "017" "018" "019" "020"
## [13] "022" "023" "024" "025" "026" "027" "028" "029" "003" "006" "008" "009"
## [25] "901" "002" "004" "021" "030" "031" "032" "033" "034" "007" "037" "040"
## [37] "005" "500" "035" "038" "039" "502" "503" "504" "505" "506" "036" "041"
## [49] "501" "043"

Creamos clave y clave_manzana

manzanas$clave <- paste(manzanas$COMUNA, dc$cadena, manzanas$AREA,  cadena_c$cadena, sep="")
manzanas$clave_manzana <- paste(manzanas$COMUNA, dc$cadena, manzanas$AREA,  cadena_c$cadena, cade_c$cade, sep="")
abc <- head(manzanas,15)
kbl(abc) %>%
  kable_styling(bootstrap_options = c("striped", "hover")) %>%
  kable_paper() %>%
  scroll_box(width = "100%", height = "300px")
REGION PROVINCIA COMUNA DC AREA ZC_LOC MZ_ENT ID_ZONA_LOC ID_MANZENT PERSONAS HOMBRES MUJERES EDAD_0A5 EDAD_6A14 EDAD_15A64 EDAD_65YMAS INMIGRANTES PUEBLO VIV_PART VIV_COL VPOMP TOTAL_VIV CANT_HOG P01_1 P01_2 P01_3 P01_4 P01_5 P01_6 P01_7 P03A_1 P03A_2 P03A_3 P03A_4 P03A_5 P03A_6 P03B_1 P03B_2 P03B_3 P03B_4 P03B_5 P03B_6 P03B_7 P03C_1 P03C_2 P03C_3 P03C_4 P03C_5 MATACEP MATREC MATIRREC P05_1 P05_2 P05_3 P05_4 REGION_15R PROVINCIA_15R COMUNA_15R ID_MANZENT_15R clave clave_manzana
1 11 1101 1 1 1 1 7849 1.10101e+12 15
0 0 15 0 0 0 1 2 0 3 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 11 1101 1.10101e+12 1101011001 1101011001001
1 11 1101 1 1 1 10 7849 1.10101e+12 70 38 32
54 10 12 13 17 1 15 18 24 16 0 0 1 0 0 0 0 1 13 1 0 0 8 0 7 0 0 0 0 15 0 0 0 0 14 1 0 15 0 0 0 1 11 1101 1.10101e+12 1101011001 1101011001010
1 11 1101 1 1 1 11 7849 1.10101e+12 36 21 15
0 28
11 7 15 1 15 16 15 2 0 0 13 0 0 0 0 0 15 0 0 0 0 0 15 0 0 0 0 10 0 0 5 0 10 5 0 15 0 0 0 1 11 1101 1.10101e+12 1101011001 1101011001011
1 11 1101 1 1 1 12 7849 1.10101e+12 65 34 31
7 49
27 4 24 0 24 24 28 24 0 0 0 0 0 0 2 4 11 7 0 0 5 2 13 0 0 3 1 18 1 4 1 0 11 9 4 24 0 0 0 1 11 1101 1.10101e+12 1101011001 1101011001012
1 11 1101 1 1 1 13 7849 1.10101e+12 39 12 27
26 7 4 17 11 2 9 13 9 9 1 0 0 1 0 0 0 4 5 0 0 0 6 0 3 0 0 0 0 9 0 0 0 0 9 0 0 9 0 0 0 1 11 1101 1.10101e+12 1101011001 1101011001013
1 11 1101 1 1 1 14 7849 1.10101e+12 160 69 91 18 17 116 9 62 19 75 0 62 75 64 29 17 0 29 0 0 0 22 13 25 2 0 0 30 0 32 0 0 0 0 59 0 2 1 0 57 5 0 61 0 0 0 1 11 1101 1.10101e+12 1101011001 1101011001014
1 11 1101 1 1 1 15 7849 1.10101e+12 19
14
8 0 7 8 7 8 0 0 0 0 0 0 4 2 1 0 0 0 0 1 6 0 0 0 0 5 0 2 0 0 5 2 0 7 0 0 0 1 11 1101 1.10101e+12 1101011001 1101011001015
1 11 1101 1 1 1 16 7849 1.10101e+12 456 223 233 39 47 334 36 40 77 213 0 163 213 170 44 168 0 1 0 0 0 107 31 21 3 0 0 30 114 16 1 0 1 0 160 1 1 0 0 157 4 1 163 0 0 0 1 11 1101 1.10101e+12 1101011001 1101011001016
1 11 1101 1 1 1 17 7849 1.10101e+12 203 111 92 18 26 144 15 53 49 100 1 80 101 80 44 0 0 56 0 0 0 14 4 42 17 2 0 46 2 28 3 0 0 0 60 0 6 12 0 42 35 0 80 0 0 0 1 11 1101 1.10101e+12 1101011001 1101011001017
1 11 1101 1 1 1 18 7849 1.10101e+12 132 68 64 8 17 93 14 30 23 72 0 43 72 45 42 0 0 30 0 0 0 6 11 16 9 0 0 32 0 11 0 0 0 0 38 0 5 0 0 28 14 0 43 0 0 0 1 11 1101 1.10101e+12 1101011001 1101011001018
1 11 1101 1 1 1 19 7849 1.10101e+12 34 14 20 0 4 18 12
16 0 14 16 14 14 1 0 0 0 0 1 1 7 3 3 0 0 8 0 6 0 0 0 0 14 0 0 0 0 11 3 0 14 0 0 0 1 11 1101 1.10101e+12 1101011001 1101011001019
1 11 1101 1 1 1 20 7849 1.10101e+12 54 31 23 8 5 36 5 8 12 23 0 13 23 14 19 0 0 1 0 0 3 0 2 8 2 0 0 10 0 2 0 0 0 0 11 0 0 1 0 10 2 0 12 0 0 0 1 11 1101 1.10101e+12 1101011001 1101011001020
1 11 1101 1 1 1 22 7849 1.10101e+12 0 0 0 0 0 0 0 0 0 1 0 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 11 1101 1.10101e+12 1101011001 1101011001022
1 11 1101 1 1 1 23 7849 1.10101e+12 62 37 25
10 45
16 31 0 28 31 30 8 21 0 0 0 0 2 8 14 4 1 0 0 9 15 3 0 0 0 0 27 0 0 0 0 25 1 0 27 0 1 0 1 11 1101 1.10101e+12 1101011001 1101011001023
1 11 1101 1 1 1 24 7849 1.10101e+12 0 0 0 0 0 0 0 0 0 1 0 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 11 1101 1.10101e+12 1101011001 1101011001024
nrow(manzanas)
## [1] 180499

Esta tabla es mas compleja de lo que parece.

No es necesario construir una tabla de contingencia, Hay que solo leer bien la tabla.

manzanas$clave <- as.numeric(manzanas$clave)
manzanas$clave_manzana <- as.numeric(manzanas$clave_manzana)
manzanas_2 <- manzanas[,c(10,60,61)]
options(scipen = 999)
head(manzanas_2,5)
##   PERSONAS      clave clave_manzana
## 1       15 1101011001 1101011001001
## 2       70 1101011001 1101011001010
## 3       36 1101011001 1101011001011
## 4       65 1101011001 1101011001012
## 5       39 1101011001 1101011001013

2.3 Construcción de una tabla de proporciones de personas por manzana dentro de una área zonal

codigos_com <- unique(manzanas_2$clave)
frec_man_com_parcial_total <- data.frame()
for(i in codigos_com){
  frec_man_com_parcial <- filter(manzanas_2, manzanas_2$clave == i)
  frec_man_com_parcial$p <- frec_man_com_parcial$PERSONAS*100/sum(frec_man_com_parcial$PERSONAS)/100
  frec_man_com_parcial_total <- rbind(frec_man_com_parcial_total,frec_man_com_parcial)
}
tablamadre <- head(frec_man_com_parcial_total,50)
kbl(tablamadre) %>%
  kable_styling(bootstrap_options = c("striped", "hover")) %>%
  kable_paper() %>%
  scroll_box(width = "100%", height = "300px")
PERSONAS clave clave_manzana p
15 1101011001 1101011001001 0.0060217
70 1101011001 1101011001010 0.0281012
36 1101011001 1101011001011 0.0144520
65 1101011001 1101011001012 0.0260939
39 1101011001 1101011001013 0.0156564
160 1101011001 1101011001014 0.0642312
19 1101011001 1101011001015 0.0076275
456 1101011001 1101011001016 0.1830590
203 1101011001 1101011001017 0.0814934
132 1101011001 1101011001018 0.0529908
34 1101011001 1101011001019 0.0136491
54 1101011001 1101011001020 0.0216780
0 1101011001 1101011001022 0.0000000
62 1101011001 1101011001023 0.0248896
0 1101011001 1101011001024 0.0000000
0 1101011001 1101011001025 0.0000000
401 1101011001 1101011001026 0.1609795
307 1101011001 1101011001027 0.1232437
43 1101011001 1101011001028 0.0172621
94 1101011001 1101011001029 0.0377358
21 1101011001 1101011001003 0.0084303
82 1101011001 1101011001006 0.0329185
28 1101011001 1101011001008 0.0112405
135 1101011001 1101011001009 0.0541951
35 1101011001 1101011001901 0.0140506
632 1101011002 1101011002002 0.4284746
408 1101011002 1101011002003 0.2766102
94 1101011002 1101011002004 0.0637288
254 1101011002 1101011002006 0.1722034
87 1101011002 1101011002008 0.0589831
77 1101101001 1101101001001 0.0288174
36 1101101001 1101101001011 0.0134731
68 1101101001 1101101001012 0.0254491
237 1101101001 1101101001013 0.0886976
72 1101101001 1101101001014 0.0269461
108 1101101001 1101101001016 0.0404192
136 1101101001 1101101001017 0.0508982
110 1101101001 1101101001018 0.0411677
82 1101101001 1101101001002 0.0306886
13 1101101001 1101101001020 0.0048653
62 1101101001 1101101001021 0.0232036
95 1101101001 1101101001022 0.0355539
89 1101101001 1101101001023 0.0333084
170 1101101001 1101101001024 0.0636228
106 1101101001 1101101001025 0.0396707
21 1101101001 1101101001026 0.0078593
179 1101101001 1101101001028 0.0669910
105 1101101001 1101101001030 0.0392964
81 1101101001 1101101001031 0.0303144
73 1101101001 1101101001032 0.0273204
nrow(frec_man_com_parcial_total)
## [1] 180499

Verifiquemos que la suma de p para la clave 1101011001 sea 1.

frec_man_com_parcial_total_f <- filter(frec_man_com_parcial_total, frec_man_com_parcial_total$clave == "1101011001")
frec_man_com_parcial_total_f
##    PERSONAS      clave clave_manzana           p
## 1        15 1101011001 1101011001001 0.006021678
## 2        70 1101011001 1101011001010 0.028101164
## 3        36 1101011001 1101011001011 0.014452027
## 4        65 1101011001 1101011001012 0.026093938
## 5        39 1101011001 1101011001013 0.015656363
## 6       160 1101011001 1101011001014 0.064231232
## 7        19 1101011001 1101011001015 0.007627459
## 8       456 1101011001 1101011001016 0.183059012
## 9       203 1101011001 1101011001017 0.081493376
## 10      132 1101011001 1101011001018 0.052990767
## 11       34 1101011001 1101011001019 0.013649137
## 12       54 1101011001 1101011001020 0.021678041
## 13        0 1101011001 1101011001022 0.000000000
## 14       62 1101011001 1101011001023 0.024889603
## 15        0 1101011001 1101011001024 0.000000000
## 16        0 1101011001 1101011001025 0.000000000
## 17      401 1101011001 1101011001026 0.160979526
## 18      307 1101011001 1101011001027 0.123243677
## 19       43 1101011001 1101011001028 0.017262144
## 20       94 1101011001 1101011001029 0.037735849
## 21       21 1101011001 1101011001003 0.008430349
## 22       82 1101011001 1101011001006 0.032918507
## 23       28 1101011001 1101011001008 0.011240466
## 24      135 1101011001 1101011001009 0.054195102
## 25       35 1101011001 1101011001901 0.014050582
sum( frec_man_com_parcial_total_f$p)
## [1] 1

3 Unificación de las tablas construídas para zonas y manzanas

# primer_paso <- read_excel("censo_casen_urb_2017.xlsx")
primer_paso <- readRDS("urbano_rural_final.rds")
names(primer_paso)[1] <- "clave"
names(primer_paso)[2] <- "código"
names(primer_paso)[3] <- "frecuencia"
#primer_paso <- primer_paso[,-c(9,11)]
head(primer_paso,5)
##        clave código frecuencia personas  comuna promedio_i  año
## 1 1101092001   1101         32   191468 Iquique   272529.7 2017
## 2 1101092004   1101          5   191468 Iquique   272529.7 2017
## 3 1101092005   1101          1   191468 Iquique   272529.7 2017
## 4 1101092006   1101         12   191468 Iquique   272529.7 2017
## 5 1101092007   1101          1   191468 Iquique   272529.7 2017
##   ingresos_expandidos Freq.y            p código.y  multipob   est_ing
## 1         52180713221     57 0.0002976999     1101  15534192 122458911
## 2         52180713221    247 0.0012900328     1101  67314832  35519363
## 3         52180713221     76 0.0003969332     1101  20712256  16930749
## 4         52180713221    603 0.0031493513     1101 164335398  60729796
## 5         52180713221     84 0.0004387156     1101  22892493  16930749
##   ing_medio_zona identificador urb_rur
## 1      2148402.0     region_01       2
## 2       143803.1     region_01       2
## 3       222773.0     region_01       2
## 4       100712.8     region_01       2
## 5       201556.5     region_01       2

3.1 p es la proporcion de personas por manzana dentro de una área zonal

head(frec_man_com_parcial_total,5)
##   PERSONAS      clave clave_manzana           p
## 1       15 1101011001 1101011001001 0.006021678
## 2       70 1101011001 1101011001010 0.028101164
## 3       36 1101011001 1101011001011 0.014452027
## 4       65 1101011001 1101011001012 0.026093938
## 5       39 1101011001 1101011001013 0.015656363

3.2 Acá hacemos la union entre las proporciones de habitantes en cada manzana por zona y el primer paso

union <- merge(x=primer_paso, y= frec_man_com_parcial_total, by="clave", all.x = TRUE)
#head(union,5)
head(union,5)
##         clave código frecuencia personas       comuna promedio_i  año
## 1 10101011001  10101        320   245902 Puerto Montt   304409.6 2017
## 2 10101011001  10101        320   245902 Puerto Montt   304409.6 2017
## 3 10101011001  10101        320   245902 Puerto Montt   304409.6 2017
## 4 10101011001  10101        320   245902 Puerto Montt   304409.6 2017
## 5 10101011001  10101        320   245902 Puerto Montt   304409.6 2017
##   ingresos_expandidos Freq.y        p.x código.y  multipob   est_ing
## 1         74854925754    584 0.00237493    10101 177775198 201230325
## 2         74854925754    584 0.00237493    10101 177775198 201230325
## 3         74854925754    584 0.00237493    10101 177775198 201230325
## 4         74854925754    584 0.00237493    10101 177775198 201230325
## 5         74854925754    584 0.00237493    10101 177775198 201230325
##   ing_medio_zona identificador urb_rur PERSONAS  clave_manzana        p.y
## 1       344572.5     region_10       1        0 10101011001006 0.00000000
## 2       344572.5     region_10       1        8 10101011001041 0.01369863
## 3       344572.5     region_10       1       45 10101011001043 0.07705479
## 4       344572.5     region_10       1        0 10101011001022 0.00000000
## 5       344572.5     region_10       1       11 10101011001017 0.01883562
#unique(union$PERSONAS)

4 El campo multipob manzana

union$multipobmz <- union$ing_medio_zona*union$personas*union$p.x
head(union,5)
##         clave código frecuencia personas       comuna promedio_i  año
## 1 10101011001  10101        320   245902 Puerto Montt   304409.6 2017
## 2 10101011001  10101        320   245902 Puerto Montt   304409.6 2017
## 3 10101011001  10101        320   245902 Puerto Montt   304409.6 2017
## 4 10101011001  10101        320   245902 Puerto Montt   304409.6 2017
## 5 10101011001  10101        320   245902 Puerto Montt   304409.6 2017
##   ingresos_expandidos Freq.y        p.x código.y  multipob   est_ing
## 1         74854925754    584 0.00237493    10101 177775198 201230325
## 2         74854925754    584 0.00237493    10101 177775198 201230325
## 3         74854925754    584 0.00237493    10101 177775198 201230325
## 4         74854925754    584 0.00237493    10101 177775198 201230325
## 5         74854925754    584 0.00237493    10101 177775198 201230325
##   ing_medio_zona identificador urb_rur PERSONAS  clave_manzana        p.y
## 1       344572.5     region_10       1        0 10101011001006 0.00000000
## 2       344572.5     region_10       1        8 10101011001041 0.01369863
## 3       344572.5     region_10       1       45 10101011001043 0.07705479
## 4       344572.5     region_10       1        0 10101011001022 0.00000000
## 5       344572.5     region_10       1       11 10101011001017 0.01883562
##   multipobmz
## 1  201230325
## 2  201230325
## 3  201230325
## 4  201230325
## 5  201230325

5 Proporción de frecuencias de respuesta a: P17 ¿Trabajó por un pago o especie?

Debemos crear un campo que sea proporción de respuesta por manzana dentro de una comuna:

codigos_com <- unique(union$código)
frec_man_com_parcial_total <- data.frame()
for(i in codigos_com){
  frec_man_com_parcial <- filter(union, union$código == i)
  frec_man_com_parcial$prop_variable <- frec_man_com_parcial$frecuencia*100/sum(frec_man_com_parcial$frecuencia)/100
  frec_man_com_parcial_total <- rbind(frec_man_com_parcial_total,frec_man_com_parcial)
}
tablamadre <- head(frec_man_com_parcial_total,50)
kbl(tablamadre) %>%
  kable_styling(bootstrap_options = c("striped", "hover")) %>%
  kable_paper() %>%
  scroll_box(width = "100%", height = "300px")
clave código frecuencia personas comuna promedio_i año ingresos_expandidos Freq.y p.x código.y multipob est_ing ing_medio_zona identificador urb_rur PERSONAS clave_manzana p.y multipobmz prop_variable
10101011001 10101 320 245902 Puerto Montt 304409.6 2017 74854925754 584 0.0023749 10101 177775198 201230325 344572.5 region_10 1 0 10101011001006 0.0000000 201230325 0.0000837
10101011001 10101 320 245902 Puerto Montt 304409.6 2017 74854925754 584 0.0023749 10101 177775198 201230325 344572.5 region_10 1 8 10101011001041 0.0136986 201230325 0.0000837
10101011001 10101 320 245902 Puerto Montt 304409.6 2017 74854925754 584 0.0023749 10101 177775198 201230325 344572.5 region_10 1 45 10101011001043 0.0770548 201230325 0.0000837
10101011001 10101 320 245902 Puerto Montt 304409.6 2017 74854925754 584 0.0023749 10101 177775198 201230325 344572.5 region_10 1 0 10101011001022 0.0000000 201230325 0.0000837
10101011001 10101 320 245902 Puerto Montt 304409.6 2017 74854925754 584 0.0023749 10101 177775198 201230325 344572.5 region_10 1 11 10101011001017 0.0188356 201230325 0.0000837
10101011001 10101 320 245902 Puerto Montt 304409.6 2017 74854925754 584 0.0023749 10101 177775198 201230325 344572.5 region_10 1 32 10101011001020 0.0547945 201230325 0.0000837
10101011001 10101 320 245902 Puerto Montt 304409.6 2017 74854925754 584 0.0023749 10101 177775198 201230325 344572.5 region_10 1 0 10101011001018 0.0000000 201230325 0.0000837
10101011001 10101 320 245902 Puerto Montt 304409.6 2017 74854925754 584 0.0023749 10101 177775198 201230325 344572.5 region_10 1 12 10101011001023 0.0205479 201230325 0.0000837
10101011001 10101 320 245902 Puerto Montt 304409.6 2017 74854925754 584 0.0023749 10101 177775198 201230325 344572.5 region_10 1 17 10101011001039 0.0291096 201230325 0.0000837
10101011001 10101 320 245902 Puerto Montt 304409.6 2017 74854925754 584 0.0023749 10101 177775198 201230325 344572.5 region_10 1 0 10101011001021 0.0000000 201230325 0.0000837
10101011001 10101 320 245902 Puerto Montt 304409.6 2017 74854925754 584 0.0023749 10101 177775198 201230325 344572.5 region_10 1 64 10101011001008 0.1095890 201230325 0.0000837
10101011001 10101 320 245902 Puerto Montt 304409.6 2017 74854925754 584 0.0023749 10101 177775198 201230325 344572.5 region_10 1 34 10101011001004 0.0582192 201230325 0.0000837
10101011001 10101 320 245902 Puerto Montt 304409.6 2017 74854925754 584 0.0023749 10101 177775198 201230325 344572.5 region_10 1 0 10101011001033 0.0000000 201230325 0.0000837
10101011001 10101 320 245902 Puerto Montt 304409.6 2017 74854925754 584 0.0023749 10101 177775198 201230325 344572.5 region_10 1 10 10101011001005 0.0171233 201230325 0.0000837
10101011001 10101 320 245902 Puerto Montt 304409.6 2017 74854925754 584 0.0023749 10101 177775198 201230325 344572.5 region_10 1 0 10101011001025 0.0000000 201230325 0.0000837
10101011001 10101 320 245902 Puerto Montt 304409.6 2017 74854925754 584 0.0023749 10101 177775198 201230325 344572.5 region_10 1 41 10101011001010 0.0702055 201230325 0.0000837
10101011001 10101 320 245902 Puerto Montt 304409.6 2017 74854925754 584 0.0023749 10101 177775198 201230325 344572.5 region_10 1 0 10101011001016 0.0000000 201230325 0.0000837
10101011001 10101 320 245902 Puerto Montt 304409.6 2017 74854925754 584 0.0023749 10101 177775198 201230325 344572.5 region_10 1 33 10101011001007 0.0565068 201230325 0.0000837
10101011001 10101 320 245902 Puerto Montt 304409.6 2017 74854925754 584 0.0023749 10101 177775198 201230325 344572.5 region_10 1 94 10101011001901 0.1609589 201230325 0.0000837
10101011001 10101 320 245902 Puerto Montt 304409.6 2017 74854925754 584 0.0023749 10101 177775198 201230325 344572.5 region_10 1 30 10101011001003 0.0513699 201230325 0.0000837
10101011001 10101 320 245902 Puerto Montt 304409.6 2017 74854925754 584 0.0023749 10101 177775198 201230325 344572.5 region_10 1 0 10101011001015 0.0000000 201230325 0.0000837
10101011001 10101 320 245902 Puerto Montt 304409.6 2017 74854925754 584 0.0023749 10101 177775198 201230325 344572.5 region_10 1 0 10101011001009 0.0000000 201230325 0.0000837
10101011001 10101 320 245902 Puerto Montt 304409.6 2017 74854925754 584 0.0023749 10101 177775198 201230325 344572.5 region_10 1 57 10101011001012 0.0976027 201230325 0.0000837
10101011001 10101 320 245902 Puerto Montt 304409.6 2017 74854925754 584 0.0023749 10101 177775198 201230325 344572.5 region_10 1 96 10101011001014 0.1643836 201230325 0.0000837
10101011002 10101 1309 245902 Puerto Montt 304409.6 2017 74854925754 2941 0.0119600 10101 895268589 870842011 296104.1 region_10 1 19 10101011002901 0.0064604 870842011 0.0003426
10101011002 10101 1309 245902 Puerto Montt 304409.6 2017 74854925754 2941 0.0119600 10101 895268589 870842011 296104.1 region_10 1 98 10101011002040 0.0333220 870842011 0.0003426
10101011002 10101 1309 245902 Puerto Montt 304409.6 2017 74854925754 2941 0.0119600 10101 895268589 870842011 296104.1 region_10 1 39 10101011002003 0.0132608 870842011 0.0003426
10101011002 10101 1309 245902 Puerto Montt 304409.6 2017 74854925754 2941 0.0119600 10101 895268589 870842011 296104.1 region_10 1 20 10101011002039 0.0068004 870842011 0.0003426
10101011002 10101 1309 245902 Puerto Montt 304409.6 2017 74854925754 2941 0.0119600 10101 895268589 870842011 296104.1 region_10 1 95 10101011002041 0.0323019 870842011 0.0003426
10101011002 10101 1309 245902 Puerto Montt 304409.6 2017 74854925754 2941 0.0119600 10101 895268589 870842011 296104.1 region_10 1 43 10101011002008 0.0146209 870842011 0.0003426
10101011002 10101 1309 245902 Puerto Montt 304409.6 2017 74854925754 2941 0.0119600 10101 895268589 870842011 296104.1 region_10 1 38 10101011002048 0.0129208 870842011 0.0003426
10101011002 10101 1309 245902 Puerto Montt 304409.6 2017 74854925754 2941 0.0119600 10101 895268589 870842011 296104.1 region_10 1 242 10101011002005 0.0822849 870842011 0.0003426
10101011002 10101 1309 245902 Puerto Montt 304409.6 2017 74854925754 2941 0.0119600 10101 895268589 870842011 296104.1 region_10 1 59 10101011002026 0.0200612 870842011 0.0003426
10101011002 10101 1309 245902 Puerto Montt 304409.6 2017 74854925754 2941 0.0119600 10101 895268589 870842011 296104.1 region_10 1 15 10101011002031 0.0051003 870842011 0.0003426
10101011002 10101 1309 245902 Puerto Montt 304409.6 2017 74854925754 2941 0.0119600 10101 895268589 870842011 296104.1 region_10 1 29 10101011002042 0.0098606 870842011 0.0003426
10101011002 10101 1309 245902 Puerto Montt 304409.6 2017 74854925754 2941 0.0119600 10101 895268589 870842011 296104.1 region_10 1 89 10101011002043 0.0302618 870842011 0.0003426
10101011002 10101 1309 245902 Puerto Montt 304409.6 2017 74854925754 2941 0.0119600 10101 895268589 870842011 296104.1 region_10 1 123 10101011002011 0.0418225 870842011 0.0003426
10101011002 10101 1309 245902 Puerto Montt 304409.6 2017 74854925754 2941 0.0119600 10101 895268589 870842011 296104.1 region_10 1 49 10101011002037 0.0166610 870842011 0.0003426
10101011002 10101 1309 245902 Puerto Montt 304409.6 2017 74854925754 2941 0.0119600 10101 895268589 870842011 296104.1 region_10 1 35 10101011002044 0.0119007 870842011 0.0003426
10101011002 10101 1309 245902 Puerto Montt 304409.6 2017 74854925754 2941 0.0119600 10101 895268589 870842011 296104.1 region_10 1 63 10101011002027 0.0214213 870842011 0.0003426
10101011002 10101 1309 245902 Puerto Montt 304409.6 2017 74854925754 2941 0.0119600 10101 895268589 870842011 296104.1 region_10 1 103 10101011002023 0.0350221 870842011 0.0003426
10101011002 10101 1309 245902 Puerto Montt 304409.6 2017 74854925754 2941 0.0119600 10101 895268589 870842011 296104.1 region_10 1 107 10101011002010 0.0363822 870842011 0.0003426
10101011002 10101 1309 245902 Puerto Montt 304409.6 2017 74854925754 2941 0.0119600 10101 895268589 870842011 296104.1 region_10 1 58 10101011002028 0.0197212 870842011 0.0003426
10101011002 10101 1309 245902 Puerto Montt 304409.6 2017 74854925754 2941 0.0119600 10101 895268589 870842011 296104.1 region_10 1 50 10101011002007 0.0170010 870842011 0.0003426
10101011002 10101 1309 245902 Puerto Montt 304409.6 2017 74854925754 2941 0.0119600 10101 895268589 870842011 296104.1 region_10 1 218 10101011002045 0.0741244 870842011 0.0003426
10101011002 10101 1309 245902 Puerto Montt 304409.6 2017 74854925754 2941 0.0119600 10101 895268589 870842011 296104.1 region_10 1 38 10101011002035 0.0129208 870842011 0.0003426
10101011002 10101 1309 245902 Puerto Montt 304409.6 2017 74854925754 2941 0.0119600 10101 895268589 870842011 296104.1 region_10 1 63 10101011002036 0.0214213 870842011 0.0003426
10101011002 10101 1309 245902 Puerto Montt 304409.6 2017 74854925754 2941 0.0119600 10101 895268589 870842011 296104.1 region_10 1 26 10101011002032 0.0088405 870842011 0.0003426
10101011002 10101 1309 245902 Puerto Montt 304409.6 2017 74854925754 2941 0.0119600 10101 895268589 870842011 296104.1 region_10 1 52 10101011002019 0.0176811 870842011 0.0003426
10101011002 10101 1309 245902 Puerto Montt 304409.6 2017 74854925754 2941 0.0119600 10101 895268589 870842011 296104.1 region_10 1 59 10101011002018 0.0200612 870842011 0.0003426

5.1 La prueba:

head(frec_man_com_parcial_total,5)
##         clave código frecuencia personas       comuna promedio_i  año
## 1 10101011001  10101        320   245902 Puerto Montt   304409.6 2017
## 2 10101011001  10101        320   245902 Puerto Montt   304409.6 2017
## 3 10101011001  10101        320   245902 Puerto Montt   304409.6 2017
## 4 10101011001  10101        320   245902 Puerto Montt   304409.6 2017
## 5 10101011001  10101        320   245902 Puerto Montt   304409.6 2017
##   ingresos_expandidos Freq.y        p.x código.y  multipob   est_ing
## 1         74854925754    584 0.00237493    10101 177775198 201230325
## 2         74854925754    584 0.00237493    10101 177775198 201230325
## 3         74854925754    584 0.00237493    10101 177775198 201230325
## 4         74854925754    584 0.00237493    10101 177775198 201230325
## 5         74854925754    584 0.00237493    10101 177775198 201230325
##   ing_medio_zona identificador urb_rur PERSONAS  clave_manzana        p.y
## 1       344572.5     region_10       1        0 10101011001006 0.00000000
## 2       344572.5     region_10       1        8 10101011001041 0.01369863
## 3       344572.5     region_10       1       45 10101011001043 0.07705479
## 4       344572.5     region_10       1        0 10101011001022 0.00000000
## 5       344572.5     region_10       1       11 10101011001017 0.01883562
##   multipobmz prop_variable
## 1  201230325 0.00008374745
## 2  201230325 0.00008374745
## 3  201230325 0.00008374745
## 4  201230325 0.00008374745
## 5  201230325 0.00008374745
frec_man_com_parcial_total <- filter(frec_man_com_parcial_total, frec_man_com_parcial_total$código == "10101")
head(frec_man_com_parcial_total,5)
##         clave código frecuencia personas       comuna promedio_i  año
## 1 10101011001  10101        320   245902 Puerto Montt   304409.6 2017
## 2 10101011001  10101        320   245902 Puerto Montt   304409.6 2017
## 3 10101011001  10101        320   245902 Puerto Montt   304409.6 2017
## 4 10101011001  10101        320   245902 Puerto Montt   304409.6 2017
## 5 10101011001  10101        320   245902 Puerto Montt   304409.6 2017
##   ingresos_expandidos Freq.y        p.x código.y  multipob   est_ing
## 1         74854925754    584 0.00237493    10101 177775198 201230325
## 2         74854925754    584 0.00237493    10101 177775198 201230325
## 3         74854925754    584 0.00237493    10101 177775198 201230325
## 4         74854925754    584 0.00237493    10101 177775198 201230325
## 5         74854925754    584 0.00237493    10101 177775198 201230325
##   ing_medio_zona identificador urb_rur PERSONAS  clave_manzana        p.y
## 1       344572.5     region_10       1        0 10101011001006 0.00000000
## 2       344572.5     region_10       1        8 10101011001041 0.01369863
## 3       344572.5     region_10       1       45 10101011001043 0.07705479
## 4       344572.5     region_10       1        0 10101011001022 0.00000000
## 5       344572.5     region_10       1       11 10101011001017 0.01883562
##   multipobmz prop_variable
## 1  201230325 0.00008374745
## 2  201230325 0.00008374745
## 3  201230325 0.00008374745
## 4  201230325 0.00008374745
## 5  201230325 0.00008374745
sum( frec_man_com_parcial_total$prop_variable)
## [1] 1
saveRDS(frec_man_com_parcial_total, "paso_2_total.rds")

Hagamos un subset con la region = 1, y área URBANA = 1.

# frec_total <- filter(frec_man_com_parcial_total, frec_man_com_parcial_total$identificador == "region_01") 
# frec_total<- filter(frec_man_com_parcial_total, frec_man_com_parcial_total$urb_rur== "1") 

frec_total <- frec_man_com_parcial_total
head(frec_total,5)
##         clave código frecuencia personas       comuna promedio_i  año
## 1 10101011001  10101        320   245902 Puerto Montt   304409.6 2017
## 2 10101011001  10101        320   245902 Puerto Montt   304409.6 2017
## 3 10101011001  10101        320   245902 Puerto Montt   304409.6 2017
## 4 10101011001  10101        320   245902 Puerto Montt   304409.6 2017
## 5 10101011001  10101        320   245902 Puerto Montt   304409.6 2017
##   ingresos_expandidos Freq.y        p.x código.y  multipob   est_ing
## 1         74854925754    584 0.00237493    10101 177775198 201230325
## 2         74854925754    584 0.00237493    10101 177775198 201230325
## 3         74854925754    584 0.00237493    10101 177775198 201230325
## 4         74854925754    584 0.00237493    10101 177775198 201230325
## 5         74854925754    584 0.00237493    10101 177775198 201230325
##   ing_medio_zona identificador urb_rur PERSONAS  clave_manzana        p.y
## 1       344572.5     region_10       1        0 10101011001006 0.00000000
## 2       344572.5     region_10       1        8 10101011001041 0.01369863
## 3       344572.5     region_10       1       45 10101011001043 0.07705479
## 4       344572.5     region_10       1        0 10101011001022 0.00000000
## 5       344572.5     region_10       1       11 10101011001017 0.01883562
##   multipobmz prop_variable
## 1  201230325 0.00008374745
## 2  201230325 0.00008374745
## 3  201230325 0.00008374745
## 4  201230325 0.00008374745
## 5  201230325 0.00008374745

6 Análisis de regresión

Aplicaremos un análisis de regresión donde:

\[ Y(dependiente) = ingreso \ expandido \ por \ zona \ (multi\_pob)\]

\[ X(independiente) = frecuencia \ de \ población \ que \ posee \ la \ variable \ Censal \ respecto \ a \ la \ zona \ (Freq.x) \]

6.1 Diagrama de dispersión loess

scatter.smooth(x=frec_total$multipobmz, y=frec_total$prop_variable
, main="multipobmz ~ prop_variable",
     xlab = "prop_variable",
     ylab = "multipobmz",
           col = 2) 

6.2 Outliers

Hemos demostrado en el punto 5.7.2 de aquí que la exclusión de ouliers no genera ninguna mejora en el modelo de regresión.

6.3 Modelo lineal

Aplicaremos un análisis de regresión lineal del ingreso expandido por zona sobre las frecuencias de respuestas zonales.

linearMod <- lm(multipobmz~(prop_variable) , data=frec_total)
summary(linearMod) 
## 
## Call:
## lm(formula = multipobmz ~ (prop_variable), data = frec_total)
## 
## Residuals:
##         Min          1Q      Median          3Q         Max 
## -1010411218  -399803914  -221076510    91931008 16958884514 
## 
## Coefficients:
##                   Estimate   Std. Error t value             Pr(>|t|)    
## (Intercept)     1029517046     65931981  15.615 < 0.0000000000000002 ***
## prop_variable 432771579079 155892161160   2.776              0.00554 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1553000000 on 2656 degrees of freedom
## Multiple R-squared:  0.002893,   Adjusted R-squared:  0.002518 
## F-statistic: 7.707 on 1 and 2656 DF,  p-value: 0.00554

6.4 Gráfica de la recta de regresión lineal

ggplot(frec_total, aes(x = prop_variable , y = multipobmz)) + 
  geom_point() +
  stat_smooth(method = "lm", col = "red")

Si bien obtenemos nuestro modelo lineal da cuenta del 0.9994 de la variabilidad de los datos de respuesta en torno a su media, modelos alternativos pueden ofrecernos una explicación de la variable dependiente aún mayor.

6.4.1 Análisis de residuos

par(mfrow = c (2,2))
plot(linearMod)

7 Modelos alternativos

frecuencia <- frec_total$prop_variable
union <- frec_total
### 8.1 Modelo cuadrático

linearMod <- lm( multipobmz~(frecuencia^2) , data=union)
datos <- summary(linearMod)
dato <- datos$adj.r.squared
modelo <- "cuadrático"
sintaxis <- "linearMod <- lm( multi_pob~(frecuencia^2) , data=h_y_m_comuna_corr_01)"

modelos1 <- cbind(modelo,dato,sintaxis)


modelos1 <- cbind(modelo,dato,sintaxis)
 
### 8.2 Modelo cúbico
 
linearMod <- lm( multipobmz~(frecuencia^3) , data=union)
datos <- summary(linearMod)
dato <- datos$adj.r.squared
modelo <- "cúbico"
sintaxis <- "linearMod <- lm( multi_pob~(frecuencia^3) , data=h_y_m_comuna_corr_01)"

modelos2 <- cbind(modelo,dato,sintaxis)
 
### 8.3 Modelo logarítmico
 
linearMod <- lm( multipobmz~log(frecuencia) , data=union)
datos <- summary(linearMod)
dato <- datos$adj.r.squared
modelo <- "logarítmico"
sintaxis <- "linearMod <- lm( multi_pob~log(frecuencia) , data=h_y_m_comuna_corr_01)"

modelos3 <- cbind(modelo,dato,sintaxis)
 
### 8.5 Modelo con raíz cuadrada 
 
linearMod <- lm( multipobmz~sqrt(frecuencia) , data=union)
datos <- summary(linearMod)
dato <- datos$adj.r.squared
modelo <- "raíz cuadrada"
sintaxis <- "linearMod <- lm( multi_pob~sqrt(frecuencia) , data=h_y_m_comuna_corr_01)"

modelos5 <- cbind(modelo,dato,sintaxis)
 
### 8.6 Modelo raíz-raíz
 
linearMod <- lm( sqrt(multipobmz)~sqrt(frecuencia) , data=union)
datos <- summary(linearMod)
dato <- datos$adj.r.squared
modelo <- "raíz-raíz"
sintaxis <- "linearMod <- lm( sqrt(multi_pob)~sqrt(frecuencia) , data=h_y_m_comuna_corr_01)"

modelos6 <- cbind(modelo,dato,sintaxis)
 
### 8.7 Modelo log-raíz
 
linearMod <- lm( log(multipobmz)~sqrt(frecuencia) , data=union)
datos <- summary(linearMod)
dato <- datos$adj.r.squared
modelo <- "log-raíz"
sintaxis <- "linearMod <- lm( log(multi_pob)~sqrt(frecuencia) , data=h_y_m_comuna_corr_01)"

modelos7 <- cbind(modelo,dato,sintaxis)
 
### 8.8 Modelo raíz-log
 
linearMod <- lm( sqrt(multipobmz)~log(frecuencia) , data=union)
datos <- summary(linearMod)
dato <- datos$adj.r.squared
modelo <- "raíz-log"
sintaxis <- "linearMod <- lm( sqrt(multi_pob)~log(frecuencia) , data=h_y_m_comuna_corr_01)"

modelos8 <- cbind(modelo,dato,sintaxis)
 
### 8.9 Modelo log-log
 
linearMod <- lm( log(multipobmz)~log(frecuencia) , data=union)
datos <- summary(linearMod)
dato <- datos$adj.r.squared
modelo <- "log-log"
sintaxis <- "linearMod <- lm( log(multi_pob)~log(frecuencia) , data=h_y_m_comuna_corr_01)"

modelos9 <- cbind(modelo,dato,sintaxis)
 
modelos_bind <- rbind(modelos1, modelos2,modelos3,modelos5,modelos6,modelos7,modelos8,modelos9)
modelos_bind <- as.data.frame(modelos_bind)

modelos_bind <<- modelos_bind[order(modelos_bind$dato, decreasing = T ),]
h_y_m_comuna_corr_01 <<- union

kbl(modelos_bind) %>%
  kable_styling(bootstrap_options = c("striped", "hover")) %>%
  kable_paper() %>%
  scroll_box(width = "100%", height = "300px")
modelo dato sintaxis
6 log-raíz 0.321960410111249 linearMod <- lm( log(multi_pob)~sqrt(frecuencia) , data=h_y_m_comuna_corr_01)
8 log-log 0.252947896587329 linearMod <- lm( log(multi_pob)~log(frecuencia) , data=h_y_m_comuna_corr_01)
5 raíz-raíz 0.0687147844495207 linearMod <- lm( sqrt(multi_pob)~sqrt(frecuencia) , data=h_y_m_comuna_corr_01)
7 raíz-log 0.0267138362763014 linearMod <- lm( sqrt(multi_pob)~log(frecuencia) , data=h_y_m_comuna_corr_01)
3 logarítmico 0.00800326887225755 linearMod <- lm( multi_pob~log(frecuencia) , data=h_y_m_comuna_corr_01)
1 cuadrático 0.00251781025919018 linearMod <- lm( multi_pob~(frecuencia^2) , data=h_y_m_comuna_corr_01)
2 cúbico 0.00251781025919018 linearMod <- lm( multi_pob~(frecuencia^3) , data=h_y_m_comuna_corr_01)
4 raíz cuadrada 0.00128415458280939 linearMod <- lm( multi_pob~sqrt(frecuencia) , data=h_y_m_comuna_corr_01)