Un patrón para descubrir el factor de expansión en las comunas en la Casen 2015 que no lo tienen.

Queremos a partir del campo folio de la base de datos de la Casen descubrir un patrón para el factor de expansión comunal faltante en algunas comunas de la Casen del 2015.

dataset2013  <- readRDS("dataset2013.rds")
dataset2015  <- readRDS("dataset2015.rds")
dataset2017  <- readRDS("dataset2017.rds")

El marco muestral.

El INE mantiene vigente al año 2015 un marco muestral conformado por dos marcos independientes, el marco de manzanas para la parte urbana y el marco de secciones para la parte rural.

Las unidades que lo componen se denominan conglomerados, que corresponden a conjuntos de viviendas agrupadas y contenidas en áreas geográficas definidas por límites de calles, pasajes, alturas de calles o aglomeraciones de viviendas particulares conformadas a partir de una o más entidades pobladas.

A través del tiempo, estos conglomerados han sido denominados segmentos (secciones y manzanas) y corresponden a las unidades primarias de muestreo o UPM, obedeciendo a distintos criterios de agrupación, tanto en límites como en tamaño. A través de estos conglomerados se accede a la vivienda y al hogar, cuyos integrantes son las personas, generalmente el objeto final de estudio. A petición del Ministerio de Desarrollo Social, para la encuesta Casen 2015 el INE realizó una actualización parcial menor y focalizado no superior al 2% de viviendas del marco de manzanas, la que se detalla más adelante en el presente documento.

El método.

Tenemos que el factor de expansión comunal esta asociado al codigo de la zona y el segmento, por lo que si determinamos que éstos códigos son los mismos en el 2015 que en el 2017 (o en el 2013), podemos reemplazar los factores de expansión de éste último en el primero en las comunas que faltan.

Haremos la comparación para una comuna que no posee fdee en el 2015: Huara.

El campo folio para el año 2015

Analicemos como se construye el codigo para el campo folio en la Casen 2015.

Codificación del campo folio en la Casen2015

El código de la comuna de Huara es: 01404 y la descomposición del folio es:

Region-Comuna
Zona-Segmento
Vivienda-Hogar

Tomemos como ejemplo el folio de la primera observación:

# eliminamos la notacion científica:
options(scipen=999)
huara_2015 <- dataset2015[dataset2015$comuna == "huara", ] 
head(huara_2015$folio, 1)

## [1] 14043001011

01-404 3-001 01-1

Necesitamos extraer todo el rango de códigos construídos bajo el par zona-segmento para Huara el 2015, junto con su factor de expansión, sólo para verificar que éste último sea NA.

2015 Huara

huara_2015_sub <- str_sub(huara_2015$folio, 5,8)
huara_2015_fdee <- huara_2015$expc
huara_2015_unido <- cbind(huara_2015_sub, huara_2015_fdee)
unique(huara_2015_unido)

##      huara_2015_sub huara_2015_fdee
## [1,] "3001"         NA             
## [2,] "3002"         NA             
## [3,] "3003"         NA             
## [4,] "3004"         NA

Tenemos que en Huara existe 1 zona y 4 segmentos para el 2015.

Lo que debemos averiguar ahora es si existen fdee comunales para Huara asociados a éste mismo par zona-segmento en el 2017.

2017 Huara

options(scipen=999)
huara_2017 <- dataset2017[dataset2017$comuna == "Huara", ] 
huara_2017_sub <- str_sub(huara_2017$folio, 5,8)
huara_2017_fdee <- huara_2017$expc
huara_2017_unido <- cbind(huara_2017_sub, huara_2017_fdee)
colnames(huara_2017_unido)[1] <- "Código zona-segmento"
colnames(huara_2017_unido)[2] <- "Factor de expansión comunal 2017"
unique(huara_2017_unido)

##      Código zona-segmento Factor de expansión comunal 2017
## [1,] "3002"               "22"                            
## [2,] "3003"               "25"                            
## [3,] "3004"               "17"                            
## [4,] "3005"               "17"

Falta el codigo 3001 y sobra el codigo 3005.

Veamos si éstos códigos están para el 2013:

2013 Huara

options(scipen=999)
huara_2013 <- dataset2013[dataset2013$comuna == "huara", ] 
huara_2013_sub <- str_sub(huara_2013$folio, 5,8)
huara_2013_fdee <- huara_2013$expc
huara_2013_unido <- cbind(huara_2013_sub, huara_2013_fdee)
colnames(huara_2013_unido)[1] <- "Código zona-segmento"
colnames(huara_2013_unido)[2] <- "Factor de expansión comunal 2013"
unique(huara_2013_unido)

##      Código zona-segmento Factor de expansión comunal 2013
## [1,] "3001"               "40"                            
## [2,] "3002"               "8"                             
## [3,] "3003"               "8"                             
## [4,] "3004"               "11"                            
## [5,] "3005"               "8"                             
## [6,] "3006"               "7"

No tiene sentido tal disparidad de valores para la expansión comunal.

La explicación puede ser que los conglomerados se eligen aleatoriamente.

Casen 2017 Metodología de diseño muestral Septiembre, 2018