Queremos a partir del campo folio de la base de datos de la Casen descubrir un patrón para el factor de expansión comunal faltante en algunas comunas de la Casen del 2015.

dataset2013  <- readRDS("dataset2013.rds")
dataset2015  <- readRDS("dataset2015.rds")
dataset2017  <- readRDS("dataset2017.rds")

El marco muestral.

El INE mantiene vigente al año 2015 un marco muestral conformado por dos marcos independientes, el marco de manzanas para la parte urbana y el marco de secciones para la parte rural.

Las unidades que lo componen se denominan conglomerados, que corresponden a conjuntos de viviendas agrupadas y contenidas en áreas geográficas definidas por límites de calles, pasajes, alturas de calles o aglomeraciones de viviendas particulares conformadas a partir de una o más entidades pobladas.

A través del tiempo, estos conglomerados han sido denominados segmentos (secciones y manzanas) y corresponden a las unidades primarias de muestreo o UPM, obedeciendo a distintos criterios de agrupación, tanto en límites como en tamaño. A través de estos conglomerados se accede a la vivienda y al hogar, cuyos integrantes son las personas, generalmente el objeto final de estudio. A petición del Ministerio de Desarrollo Social, para la encuesta Casen 2015 el INE realizó una actualización parcial menor y focalizado no superior al 2% de viviendas del marco de manzanas.

El método.

Tenemos que el factor de expansión comunal esta asociado al codigo de la zona y el segmento, por lo que si determinamos que éstos códigos son los mismos en el 2015 que en el 2017 (o en el 2013), podemos reemplazar los factores de expansión de éste último en el primero en las comunas que faltan.

El campo folio para el año 2015

Analicemos como se construye el codigo para el campo folio en la Casen 2015.

Codificación del campo folio en la Casen2015 la descomposición del folio es:

Region-Comuna
Zona-Segmento
Vivienda-Hogar

Tomemos un ejemplo de folio:

# eliminamos la notacion científica:
options(scipen=999)
huara_2015 <- dataset2015[dataset2015$comuna == "huara", ] 
head(huara_2015$folio, 1)
## [1] 14043001011

01-404 3-001 01-1

Método.

1 Determinemos las comunas sin fdee en el 2015

new_DF <- subset(dataset2015, is.na(dataset2015$expc))
newdata <- new_DF[c("comuna", "expc")]
newdata <- distinct(newdata, comuna, .keep_all = TRUE)
head(newdata,50)
##                     comuna expc
## 7732                camiña   NA
## 7864                 huara   NA
## 8132                  pica   NA
## 11220           mejillones   NA
## 11557         sierra gorda   NA
## 11655               taltal   NA
## 13569 san pedro de atacama   NA
## 14829          maría elena   NA
## 24073              caldera   NA
## 24497      tierra amarilla   NA
## 26582     diego de almagro   NA
## 28198      alto del carmen   NA
## 28309             freirina   NA
## 28626               huasco   NA
## 35756            andacollo   NA
## 35982           la higuera   NA
## 36267             paiguano   NA
## 37754               canela   NA
## 38009            los vilos   NA
## 38443            salamanca   NA
## 40442           combarbalá   NA
## 40640         monte patria   NA
## 41043            punitaqui   NA
## 41318          río hurtado   NA
## 44529           casablanca   NA
## 46030           puchuncaví   NA
## 46285             quintero   NA
## 50853          calle larga   NA
## 51027            rinconada   NA
## 51241          san esteban   NA
## 52893              cabildo   NA
## 53156               papudo   NA
## 53310              petorca   NA
## 53547             zapallar   NA
## 55342             hijuelas   NA
## 55607              la cruz   NA
## 55921              nogales   NA
## 57810            algarrobo   NA
## 57992            cartagena   NA
## 59058              el tabo   NA
## 59178        santo domingo   NA
## 61518               catemu   NA
## 61719             llaillay   NA
## 62029            panquehue   NA
## 62261             putaendo   NA
## 62442          santa maría   NA
## 67617                olmué   NA
## 72969               coinco   NA
## 75201              doñihue   NA
## 76283           las cabras   NA

La idea es que el producto entre el número de muestras y el factor de expansión dé la población de la comuna del año respectivo, lo que veremos es cierto. El problema es que dos variables lo son simultáneamente: la frecuencia y el fdeec.

Tomemos como ejemplo el caso de ALgarrobo.

2015 algarrobo

Generemos una tabla sólo para verificar los NA en los fdee.

huara_2015 <- dataset2015[dataset2015$comuna == "algarrobo", ] 
huara_2015_sub <- str_sub(huara_2015$folio, 5,8)
huara_2015_fdee <- huara_2015$expc
huara_2015_unido <- cbind(huara_2015_sub, huara_2015_fdee)
unique(huara_2015_unido)
##       huara_2015_sub huara_2015_fdee
##  [1,] "1001"         NA             
##  [2,] "1002"         NA             
##  [3,] "1003"         NA             
##  [4,] "1004"         NA             
##  [5,] "1005"         NA             
##  [6,] "1006"         NA             
##  [7,] "1007"         NA             
##  [8,] "3001"         NA             
##  [9,] "3002"         NA

Tenemos que en algarrobo existen 2 zonas para el 2015: en la primera 7segmentos; en la segunda 2.

Multipliquemos las frecuencias de las muestras de cada código, con el fdeec para el 2017 y sumémoslos. Veamos si se acercan a la población proyectada del INE al año.

2017 Algarrobo

La siguiente tabla asocia el código extraído del folio con el fdeec:

options(scipen=999)
huara_2017 <- dataset2017[dataset2017$comuna == "Algarrobo", ] 
huara_2017_sub <- str_sub(huara_2017$folio, 5,8)
huara_2017_fdee <- huara_2017$expc
huara_2017_unido <- cbind(huara_2017_sub, huara_2017_fdee)
colnames(huara_2017_unido)[1] <- "Codigo"
colnames(huara_2017_unido)[2] <- "fdeec_2017"
sss <- unique(huara_2017_unido)
sss <- data.frame(sss)
sss$fdeec_2017 <- strtoi(sss$fdeec_2017) 
sss
##    Codigo fdeec_2017
## 1    1001        141
## 2    1002         88
## 3    1003        174
## 4    1004         71
## 5    1006         94
## 6    1007         56
## 7    1008         56
## 8    1009         99
## 9    3001         41
## 10   3002         89

¿Cuántos n tiene cada código?

ggg <- table(huara_2017_unido[,1])
ggg <- data.frame(ggg)
ggg
##    Var1 Freq
## 1  1001    7
## 2  1002    5
## 3  1003    7
## 4  1004    6
## 5  1006   10
## 6  1007   13
## 7  1008   10
## 8  1009   57
## 9  3001   48
## 10 3002   34

Multipliquemos frecuencia por n y sumémoslas:

mmm <- sss$fdeec_2017 * ggg$Freq
sum(mmm)
## [1] 15936

Comparemos con la poblacion proyectada del INE para Algarrobo el 2017 que veremos es 14221.

pob_chilena  <- readRDS("poblacion_chilena.rds")

Visualicemos sus cuatro primeras líneas:

head(pob_chilena,4)
##   Region Nombre.Region Provincia Nombre.Provincia Comuna Nombre.Comuna
## 1      1      Tarapacá        11          Iquique   1101       Iquique
## 2      1      Tarapacá        11          Iquique   1101       Iquique
## 3      1      Tarapacá        11          Iquique   1101       Iquique
## 4      1      Tarapacá        11          Iquique   1101       Iquique
##   Sexo.1.Hombre.2.Mujer Edad Poblacion.2002 Poblacion.2003 Poblacion.2004
## 1                     1    0           1469           1395           1392
## 2                     1    1           1472           1379           1342
## 3                     1    2           1461           1377           1323
## 4                     1    3           1464           1376           1329
##   Poblacion.2005 Poblacion.2006 Poblacion.2007 Poblacion.2008 Poblacion.2009
## 1           1376           1360           1409           1466           1550
## 2           1360           1360           1350           1402           1461
## 3           1310           1342           1348           1342           1395
## 4           1298           1299           1337           1345           1340
##   Poblacion.2010 Poblacion.2011 Poblacion.2012 Poblacion.2013 Poblacion.2014
## 1           1583           1615           1608           1590           1596
## 2           1547           1582           1615           1605           1588
## 3           1455           1543           1580           1608           1600
## 4           1394           1454           1541           1574           1600
##   Poblacion.2015 Poblacion.2016 Poblacion.2017 Poblacion.2018 Poblacion.2019
## 1           1588           1546           1435           1442           1491
## 2           1591           1586           1543           1449           1460
## 3           1583           1584           1583           1556           1470
## 4           1588           1570           1576           1590           1576
##   Poblacion.2020 Poblacion.2021 Poblacion.2022 Poblacion.2023 Poblacion.2024
## 1           1550           1576           1575           1564           1553
## 2           1507           1550           1567           1565           1553
## 3           1481           1508           1538           1554           1552
## 4           1490           1478           1492           1520           1535
##   Poblacion.2025 Poblacion.2026 Poblacion.2027 Poblacion.2028 Poblacion.2029
## 1           1534           1518           1500           1483           1466
## 2           1539           1523           1507           1489           1470
## 3           1541           1526           1509           1492           1477
## 4           1532           1521           1508           1491           1474
##   Poblacion.2030 Poblacion.2031 Poblacion.2032 Poblacion.2033 Poblacion.2034
## 1           1446           1441           1425           1410           1395
## 2           1454           1434           1429           1413           1397
## 3           1458           1440           1420           1412           1401
## 4           1457           1439           1422           1401           1395
##   Poblacion.2035
## 1           1378
## 2           1383
## 3           1383
## 4           1380

Ésta información la tenemos desglosada por sexo y edad, pero la queremos simplemente agregada a nivel de comuna y 2017.

pob_por_comuna_ine_2017 <- aggregate(pob_chilena$Poblacion.2017, by=list(Comuna=pob_chilena$Nombre.Comuna), FUN=sum)

Despleguemos la población para las primeras 4 comunas del dataset para el 2017:

head(pob_por_comuna_ine_2017,4)
##            Comuna sum.pob_chilena$Poblacion.2017
## 1       Algarrobo                          14221
## 2           Alhué                           6835
## 3     Alto Biobío                           6719
## 4 Alto del Carmen                           5575

Vemos que la población de Algarrobo para el 2017 estimada era de 14221 personas.

2013 Algarrobo

La siguiente tabla asocia el código extraído del folio con el fdeec:

options(scipen=999)
huara_2017 <- dataset2013[dataset2013$comuna == "algarrobo", ] 
huara_2017_sub <- str_sub(huara_2017$folio, 5,8)
huara_2017_fdee <- huara_2017$expc
huara_2017_unido <- cbind(huara_2017_sub, huara_2017_fdee)
colnames(huara_2017_unido)[1] <- "Codigo"
colnames(huara_2017_unido)[2] <- "fdeec_2017"
sss <- unique(huara_2017_unido)
sss <- data.frame(sss)
sss$fdeec_2017 <- strtoi(sss$fdeec_2017) 
sss
##    Codigo fdeec_2017
## 1    1001         64
## 2    1002         49
## 3    1003         55
## 4    1004         82
## 5    1005         30
## 6    1006        766
## 7    1007         55
## 8    1008         81
## 9    1009        194
## 10   1010         27
## 11   3001         32
## 12   3002         19

¿Cuántos n tiene cada código?

ggg <- table(huara_2017_unido[,1])
ggg <- data.frame(ggg)
ggg
##    Var1 Freq
## 1  1001    1
## 2  1002   19
## 3  1003    1
## 4  1004    8
## 5  1005   31
## 6  1006    5
## 7  1007   12
## 8  1008   16
## 9  1009   17
## 10 1010    9
## 11 3001   31
## 12 3002   53

Multipliquemos frecuencia por n y sumémoslas:

mmm <- sss$fdeec_2017 * ggg$Freq
sum(mmm)
## [1] 13962

Comparemos con la poblacion proyectada del INE para Algarrobo el 2013 que veremos es 12992.

pob_chilena  <- readRDS("poblacion_chilena.rds")

Visualicemos sus cuatro primeras líneas:

head(pob_chilena,4)
##   Region Nombre.Region Provincia Nombre.Provincia Comuna Nombre.Comuna
## 1      1      Tarapacá        11          Iquique   1101       Iquique
## 2      1      Tarapacá        11          Iquique   1101       Iquique
## 3      1      Tarapacá        11          Iquique   1101       Iquique
## 4      1      Tarapacá        11          Iquique   1101       Iquique
##   Sexo.1.Hombre.2.Mujer Edad Poblacion.2002 Poblacion.2003 Poblacion.2004
## 1                     1    0           1469           1395           1392
## 2                     1    1           1472           1379           1342
## 3                     1    2           1461           1377           1323
## 4                     1    3           1464           1376           1329
##   Poblacion.2005 Poblacion.2006 Poblacion.2007 Poblacion.2008 Poblacion.2009
## 1           1376           1360           1409           1466           1550
## 2           1360           1360           1350           1402           1461
## 3           1310           1342           1348           1342           1395
## 4           1298           1299           1337           1345           1340
##   Poblacion.2010 Poblacion.2011 Poblacion.2012 Poblacion.2013 Poblacion.2014
## 1           1583           1615           1608           1590           1596
## 2           1547           1582           1615           1605           1588
## 3           1455           1543           1580           1608           1600
## 4           1394           1454           1541           1574           1600
##   Poblacion.2015 Poblacion.2016 Poblacion.2017 Poblacion.2018 Poblacion.2019
## 1           1588           1546           1435           1442           1491
## 2           1591           1586           1543           1449           1460
## 3           1583           1584           1583           1556           1470
## 4           1588           1570           1576           1590           1576
##   Poblacion.2020 Poblacion.2021 Poblacion.2022 Poblacion.2023 Poblacion.2024
## 1           1550           1576           1575           1564           1553
## 2           1507           1550           1567           1565           1553
## 3           1481           1508           1538           1554           1552
## 4           1490           1478           1492           1520           1535
##   Poblacion.2025 Poblacion.2026 Poblacion.2027 Poblacion.2028 Poblacion.2029
## 1           1534           1518           1500           1483           1466
## 2           1539           1523           1507           1489           1470
## 3           1541           1526           1509           1492           1477
## 4           1532           1521           1508           1491           1474
##   Poblacion.2030 Poblacion.2031 Poblacion.2032 Poblacion.2033 Poblacion.2034
## 1           1446           1441           1425           1410           1395
## 2           1454           1434           1429           1413           1397
## 3           1458           1440           1420           1412           1401
## 4           1457           1439           1422           1401           1395
##   Poblacion.2035
## 1           1378
## 2           1383
## 3           1383
## 4           1380

Ésta información la tenemos desglosada por sexo y edad, pero la queremos simplemente agregada a nivel de comuna y 2017.

pob_por_comuna_ine_2017 <- aggregate(pob_chilena$Poblacion.2013, by=list(Comuna=pob_chilena$Nombre.Comuna), FUN=sum)

Despleguemos la población para las primeras 4 comunas del dataset para el 2017:

head(pob_por_comuna_ine_2017,4)
##            Comuna sum.pob_chilena$Poblacion.2013
## 1       Algarrobo                          12992
## 2           Alhué                           6278
## 3     Alto Biobío                           6650
## 4 Alto del Carmen                           5429

Vemos que la población de Algarrobo para el 2013 estimada era de 12992 personas.