dataset2013 <- readRDS("dataset2013.rds")
dataset2015 <- readRDS("dataset2015.rds")
dataset2017 <- readRDS("dataset2017.rds")
El INE mantiene vigente al año 2015 un marco muestral conformado por dos marcos independientes, el marco de manzanas para la parte urbana y el marco de secciones para la parte rural.
Las unidades que lo componen se denominan conglomerados, que corresponden a conjuntos de viviendas agrupadas y contenidas en áreas geográficas definidas por límites de calles, pasajes, alturas de calles o aglomeraciones de viviendas particulares conformadas a partir de una o más entidades pobladas.
A través del tiempo, estos conglomerados han sido denominados segmentos (secciones y manzanas) y corresponden a las unidades primarias de muestreo o UPM, obedeciendo a distintos criterios de agrupación, tanto en límites como en tamaño. A través de estos conglomerados se accede a la vivienda y al hogar, cuyos integrantes son las personas, generalmente el objeto final de estudio. A petición del Ministerio de Desarrollo Social, para la encuesta Casen 2015 el INE realizó una actualización parcial menor y focalizado no superior al 2% de viviendas del marco de manzanas.
Tenemos que el factor de expansión comunal esta asociado al codigo de la zona y el segmento, por lo que si determinamos que éstos códigos son los mismos en el 2015 que en el 2017 (o en el 2013), podemos reemplazar los factores de expansión de éste último en el primero en las comunas que faltan.
Analicemos como se construye el codigo para el campo folio en la Casen 2015.
la descomposición del folio es:
Region-Comuna
Zona-Segmento
Vivienda-Hogar
Tomemos un ejemplo de folio:
# eliminamos la notacion científica:
options(scipen=999)
huara_2015 <- dataset2015[dataset2015$comuna == "huara", ]
head(huara_2015$folio, 1)
## [1] 14043001011
01-404 3-001 01-1
1 Determinemos las comunas sin fdee en el 2015
new_DF <- subset(dataset2015, is.na(dataset2015$expc))
newdata <- new_DF[c("comuna", "expc")]
newdata <- distinct(newdata, comuna, .keep_all = TRUE)
head(newdata,50)
## comuna expc
## 7732 camiña NA
## 7864 huara NA
## 8132 pica NA
## 11220 mejillones NA
## 11557 sierra gorda NA
## 11655 taltal NA
## 13569 san pedro de atacama NA
## 14829 maría elena NA
## 24073 caldera NA
## 24497 tierra amarilla NA
## 26582 diego de almagro NA
## 28198 alto del carmen NA
## 28309 freirina NA
## 28626 huasco NA
## 35756 andacollo NA
## 35982 la higuera NA
## 36267 paiguano NA
## 37754 canela NA
## 38009 los vilos NA
## 38443 salamanca NA
## 40442 combarbalá NA
## 40640 monte patria NA
## 41043 punitaqui NA
## 41318 río hurtado NA
## 44529 casablanca NA
## 46030 puchuncaví NA
## 46285 quintero NA
## 50853 calle larga NA
## 51027 rinconada NA
## 51241 san esteban NA
## 52893 cabildo NA
## 53156 papudo NA
## 53310 petorca NA
## 53547 zapallar NA
## 55342 hijuelas NA
## 55607 la cruz NA
## 55921 nogales NA
## 57810 algarrobo NA
## 57992 cartagena NA
## 59058 el tabo NA
## 59178 santo domingo NA
## 61518 catemu NA
## 61719 llaillay NA
## 62029 panquehue NA
## 62261 putaendo NA
## 62442 santa maría NA
## 67617 olmué NA
## 72969 coinco NA
## 75201 doñihue NA
## 76283 las cabras NA
La idea es que el producto entre el número de muestras y el factor de expansión dé la población de la comuna del año respectivo, lo que veremos es cierto. El problema es que dos variables lo son simultáneamente: la frecuencia y el fdeec.
Tomemos como ejemplo el caso de ALgarrobo.
Generemos una tabla sólo para verificar los NA en los fdee.
huara_2015 <- dataset2015[dataset2015$comuna == "algarrobo", ]
huara_2015_sub <- str_sub(huara_2015$folio, 5,8)
huara_2015_fdee <- huara_2015$expc
huara_2015_unido <- cbind(huara_2015_sub, huara_2015_fdee)
unique(huara_2015_unido)
## huara_2015_sub huara_2015_fdee
## [1,] "1001" NA
## [2,] "1002" NA
## [3,] "1003" NA
## [4,] "1004" NA
## [5,] "1005" NA
## [6,] "1006" NA
## [7,] "1007" NA
## [8,] "3001" NA
## [9,] "3002" NA
Tenemos que en algarrobo existen 2 zonas para el 2015: en la primera 7segmentos; en la segunda 2.
Multipliquemos las frecuencias de las muestras de cada código, con el fdeec para el 2017 y sumémoslos. Veamos si se acercan a la población proyectada del INE al año.
La siguiente tabla asocia el código extraído del folio con el fdeec:
options(scipen=999)
huara_2017 <- dataset2017[dataset2017$comuna == "Algarrobo", ]
huara_2017_sub <- str_sub(huara_2017$folio, 5,8)
huara_2017_fdee <- huara_2017$expc
huara_2017_unido <- cbind(huara_2017_sub, huara_2017_fdee)
colnames(huara_2017_unido)[1] <- "Codigo"
colnames(huara_2017_unido)[2] <- "fdeec_2017"
sss <- unique(huara_2017_unido)
sss <- data.frame(sss)
sss$fdeec_2017 <- strtoi(sss$fdeec_2017)
sss
## Codigo fdeec_2017
## 1 1001 141
## 2 1002 88
## 3 1003 174
## 4 1004 71
## 5 1006 94
## 6 1007 56
## 7 1008 56
## 8 1009 99
## 9 3001 41
## 10 3002 89
¿Cuántos n tiene cada código?
ggg <- table(huara_2017_unido[,1])
ggg <- data.frame(ggg)
ggg
## Var1 Freq
## 1 1001 7
## 2 1002 5
## 3 1003 7
## 4 1004 6
## 5 1006 10
## 6 1007 13
## 7 1008 10
## 8 1009 57
## 9 3001 48
## 10 3002 34
Multipliquemos frecuencia por n y sumémoslas:
mmm <- sss$fdeec_2017 * ggg$Freq
sum(mmm)
## [1] 15936
Comparemos con la poblacion proyectada del INE para Algarrobo el 2017 que veremos es 14221.
pob_chilena <- readRDS("poblacion_chilena.rds")
Visualicemos sus cuatro primeras líneas:
head(pob_chilena,4)
## Region Nombre.Region Provincia Nombre.Provincia Comuna Nombre.Comuna
## 1 1 Tarapacá 11 Iquique 1101 Iquique
## 2 1 Tarapacá 11 Iquique 1101 Iquique
## 3 1 Tarapacá 11 Iquique 1101 Iquique
## 4 1 Tarapacá 11 Iquique 1101 Iquique
## Sexo.1.Hombre.2.Mujer Edad Poblacion.2002 Poblacion.2003 Poblacion.2004
## 1 1 0 1469 1395 1392
## 2 1 1 1472 1379 1342
## 3 1 2 1461 1377 1323
## 4 1 3 1464 1376 1329
## Poblacion.2005 Poblacion.2006 Poblacion.2007 Poblacion.2008 Poblacion.2009
## 1 1376 1360 1409 1466 1550
## 2 1360 1360 1350 1402 1461
## 3 1310 1342 1348 1342 1395
## 4 1298 1299 1337 1345 1340
## Poblacion.2010 Poblacion.2011 Poblacion.2012 Poblacion.2013 Poblacion.2014
## 1 1583 1615 1608 1590 1596
## 2 1547 1582 1615 1605 1588
## 3 1455 1543 1580 1608 1600
## 4 1394 1454 1541 1574 1600
## Poblacion.2015 Poblacion.2016 Poblacion.2017 Poblacion.2018 Poblacion.2019
## 1 1588 1546 1435 1442 1491
## 2 1591 1586 1543 1449 1460
## 3 1583 1584 1583 1556 1470
## 4 1588 1570 1576 1590 1576
## Poblacion.2020 Poblacion.2021 Poblacion.2022 Poblacion.2023 Poblacion.2024
## 1 1550 1576 1575 1564 1553
## 2 1507 1550 1567 1565 1553
## 3 1481 1508 1538 1554 1552
## 4 1490 1478 1492 1520 1535
## Poblacion.2025 Poblacion.2026 Poblacion.2027 Poblacion.2028 Poblacion.2029
## 1 1534 1518 1500 1483 1466
## 2 1539 1523 1507 1489 1470
## 3 1541 1526 1509 1492 1477
## 4 1532 1521 1508 1491 1474
## Poblacion.2030 Poblacion.2031 Poblacion.2032 Poblacion.2033 Poblacion.2034
## 1 1446 1441 1425 1410 1395
## 2 1454 1434 1429 1413 1397
## 3 1458 1440 1420 1412 1401
## 4 1457 1439 1422 1401 1395
## Poblacion.2035
## 1 1378
## 2 1383
## 3 1383
## 4 1380
Ésta información la tenemos desglosada por sexo y edad, pero la queremos simplemente agregada a nivel de comuna y 2017.
pob_por_comuna_ine_2017 <- aggregate(pob_chilena$Poblacion.2017, by=list(Comuna=pob_chilena$Nombre.Comuna), FUN=sum)
Despleguemos la población para las primeras 4 comunas del dataset para el 2017:
head(pob_por_comuna_ine_2017,4)
## Comuna sum.pob_chilena$Poblacion.2017
## 1 Algarrobo 14221
## 2 Alhué 6835
## 3 Alto Biobío 6719
## 4 Alto del Carmen 5575
Vemos que la población de Algarrobo para el 2017 estimada era de 14221 personas.
La siguiente tabla asocia el código extraído del folio con el fdeec:
options(scipen=999)
huara_2017 <- dataset2013[dataset2013$comuna == "algarrobo", ]
huara_2017_sub <- str_sub(huara_2017$folio, 5,8)
huara_2017_fdee <- huara_2017$expc
huara_2017_unido <- cbind(huara_2017_sub, huara_2017_fdee)
colnames(huara_2017_unido)[1] <- "Codigo"
colnames(huara_2017_unido)[2] <- "fdeec_2017"
sss <- unique(huara_2017_unido)
sss <- data.frame(sss)
sss$fdeec_2017 <- strtoi(sss$fdeec_2017)
sss
## Codigo fdeec_2017
## 1 1001 64
## 2 1002 49
## 3 1003 55
## 4 1004 82
## 5 1005 30
## 6 1006 766
## 7 1007 55
## 8 1008 81
## 9 1009 194
## 10 1010 27
## 11 3001 32
## 12 3002 19
¿Cuántos n tiene cada código?
ggg <- table(huara_2017_unido[,1])
ggg <- data.frame(ggg)
ggg
## Var1 Freq
## 1 1001 1
## 2 1002 19
## 3 1003 1
## 4 1004 8
## 5 1005 31
## 6 1006 5
## 7 1007 12
## 8 1008 16
## 9 1009 17
## 10 1010 9
## 11 3001 31
## 12 3002 53
Multipliquemos frecuencia por n y sumémoslas:
mmm <- sss$fdeec_2017 * ggg$Freq
sum(mmm)
## [1] 13962
Comparemos con la poblacion proyectada del INE para Algarrobo el 2013 que veremos es 12992.
pob_chilena <- readRDS("poblacion_chilena.rds")
Visualicemos sus cuatro primeras líneas:
head(pob_chilena,4)
## Region Nombre.Region Provincia Nombre.Provincia Comuna Nombre.Comuna
## 1 1 Tarapacá 11 Iquique 1101 Iquique
## 2 1 Tarapacá 11 Iquique 1101 Iquique
## 3 1 Tarapacá 11 Iquique 1101 Iquique
## 4 1 Tarapacá 11 Iquique 1101 Iquique
## Sexo.1.Hombre.2.Mujer Edad Poblacion.2002 Poblacion.2003 Poblacion.2004
## 1 1 0 1469 1395 1392
## 2 1 1 1472 1379 1342
## 3 1 2 1461 1377 1323
## 4 1 3 1464 1376 1329
## Poblacion.2005 Poblacion.2006 Poblacion.2007 Poblacion.2008 Poblacion.2009
## 1 1376 1360 1409 1466 1550
## 2 1360 1360 1350 1402 1461
## 3 1310 1342 1348 1342 1395
## 4 1298 1299 1337 1345 1340
## Poblacion.2010 Poblacion.2011 Poblacion.2012 Poblacion.2013 Poblacion.2014
## 1 1583 1615 1608 1590 1596
## 2 1547 1582 1615 1605 1588
## 3 1455 1543 1580 1608 1600
## 4 1394 1454 1541 1574 1600
## Poblacion.2015 Poblacion.2016 Poblacion.2017 Poblacion.2018 Poblacion.2019
## 1 1588 1546 1435 1442 1491
## 2 1591 1586 1543 1449 1460
## 3 1583 1584 1583 1556 1470
## 4 1588 1570 1576 1590 1576
## Poblacion.2020 Poblacion.2021 Poblacion.2022 Poblacion.2023 Poblacion.2024
## 1 1550 1576 1575 1564 1553
## 2 1507 1550 1567 1565 1553
## 3 1481 1508 1538 1554 1552
## 4 1490 1478 1492 1520 1535
## Poblacion.2025 Poblacion.2026 Poblacion.2027 Poblacion.2028 Poblacion.2029
## 1 1534 1518 1500 1483 1466
## 2 1539 1523 1507 1489 1470
## 3 1541 1526 1509 1492 1477
## 4 1532 1521 1508 1491 1474
## Poblacion.2030 Poblacion.2031 Poblacion.2032 Poblacion.2033 Poblacion.2034
## 1 1446 1441 1425 1410 1395
## 2 1454 1434 1429 1413 1397
## 3 1458 1440 1420 1412 1401
## 4 1457 1439 1422 1401 1395
## Poblacion.2035
## 1 1378
## 2 1383
## 3 1383
## 4 1380
Ésta información la tenemos desglosada por sexo y edad, pero la queremos simplemente agregada a nivel de comuna y 2017.
pob_por_comuna_ine_2017 <- aggregate(pob_chilena$Poblacion.2013, by=list(Comuna=pob_chilena$Nombre.Comuna), FUN=sum)
Despleguemos la población para las primeras 4 comunas del dataset para el 2017:
head(pob_por_comuna_ine_2017,4)
## Comuna sum.pob_chilena$Poblacion.2013
## 1 Algarrobo 12992
## 2 Alhué 6278
## 3 Alto Biobío 6650
## 4 Alto del Carmen 5429
Vemos que la población de Algarrobo para el 2013 estimada era de 12992 personas.