Trabajo Final de Teoría y técnicas de Muestreo
Consigna
La Municipalidad de Almirante Brown, de + de 100.000 habitantes, desea realizar en su ámbito, una réplica de la EPH a ese nivel, con la finalidad de tener una estimación de la Tasa de Ocupación de la población. Para ello deben desarrollar el diseño de muestra que piensan puede servir de base para el estudio y extraer la muestra correspondiente. Para el desarrollo del diseño correspondiente, deben analizar en primera instancia qué información tienen disponible, de acuerdo al caso o Tema seleccionado. No se puede asumir que se tiene cierta información que no esté realmente disponible. Se les enviará las respuestas de las encuestas para que procesen el resultado final con la finalidad de estimar el parámetro correspondiente y sus errores de muestreo. Se impone como condición, realizar la estimación con un error de muestreo del 5 % y un Nivel de Confianza del 95 %.
En primer lugar, cargamos las librerias que vamos a necesitar:
library(tidyverse)
library(ggpubr)
library(rstatix)
library(plyr)
library(dplyr)
library(descr)
library(openxlsx)
library(sampling)
library(samplingbook)
library(readxl)
library(stratification)
library(VIM)
library(BAMMtools)
library(kableExtra)
library(knitr)
library(haven)
La población de Almirante Brown según estimaciones realizadas por el indec para el 2021 es de 601.618. (Fuente: INDEC-DPE de la Provincia de Buenos Aires. Proyecciones elaboradas en base a resultados del Censo Nacional de Población, Hogares y Viviendas). El último censo (2010) la población de Almirante Brown era de 552.902 habitantes, en 156.918 hogares ubicados en 484 radios censales. Teniendo en cuenta las dimensiones de tamaño y de espacio que posee el universo con el que vamos a trabajar, se pretende realizar un diseño muestral de dos etapas, utilizando la información disponible del censo de 2010 sobre el partido de Almirante Brown. La información la obtuvimos de: Pablo De Grande y Agustín Salvia (2019). Indicadores del Censo Nacional de Población, Hogares y Viviendas, 2010. Recuperado el 8 de diciembre, 2021, de https://mapa.poblaciones.org/map/3701
Según censo 2010
Hogares= 156.918 Poblacion= 552.902 Area= 129km2 Radios censales = 485
Para la primer etapa se definirán estratos en función de la variable del censo 2010 de “Hogares con al menos un indicador de NBI” para seleccionar de forma aleatoria los radios censales que van a componer la muestra; y en una segunda etapa se pretende seleccionar hogares de cada estrato. En el siguiente mapa podemos visualizar los radios censales de Almirante Brown en mapa de color de Hogares con al menos un indicador de Necesidades Basicas Insatisfechas (Censo 2010)
DOCUMENTO METODOLÓGICO
a. Objetivos
Elaborar un diseño muestral probabilístico para calcular la tasa de actividad del Municipio de Almirante Brown, con un error de muestreo del 5 % y un Nivel de Confianza del 95 %.
Según el INDEC, la tasa de actividad: es el porcentaje entre la población económicamente activa y la población de 14 años y más. Tiene la utilidad de proveer información sobre el peso relativo de la oferta de trabajo, entendiendo a ésta como la suma de los ocupados más los desocupados. (Censo Nacional de Población, Hogares y Viviendas 2010. Diccionario de indicadores)
b. Inconvenientes que encontraron para conseguir esos objetivos.
La tasa de actividad es un indicador referido a datos de individuos, y no disponemos de una base de datos o marco muestral por individuos que nos permita realizar una muestra aleatoria representativa de ese universo. Sin embargo, podemos realizar una aproximación a la misma realizando una muestra a través de un cuadro muestral a nivel hogares y una variable auxiliar para reducir los errores de muestro.
Esta es la principal dificultad que se nos presenta para realizar una muestra representativa del universo. Lo cual nos llevó a reflexionar sobre las dimensiones del trabajo que encaramos, en función de los datos que disponemos, y las variables auxiliares que podríamos utilizar.
La complejidad se presenta cuando pensamos en diseñar una muestra que tiene una unidad de análisis distinta a la unidad de análisis que tiene los datos que disponemos para trabajar el diseño. Ya que el objetivo es la tasa de actividad que es una tasa construida en relación con datos de las personas, y la unidad de análisis de la base de datos que disponemos es hogares por radio censal.
c. Diseño Muestral adoptado, justificando la elección
Dada la complejidad descripta anteriormente, la estrategia de diseño muestral consiste en la selección de una variable auxiliar para el cálculo de la muestra.
Pensando en realizar un diseño bietapico en el que la primera etapa construiremos 6 estratos en función de la variable auxiliar, la determinación de la cantidad de unidades a seleccionar por estrato estará dada en relación con la probabilidad de selección de región para cada estrato.
Para realizar esta primera etapa seleccionamos como variable auxiliar a los Hogares con al menos un NBI por región censal del partido Almirante Brown.
Esta variable nos permite realizar una segmentación del universo de hogares con NB satisfechas y Hogares con al menos un indicador de NBI. Mapear los datos nos permitió visualizar que en el 2010 existían áreas censales que tenían una mayor o menor concentración de hogares con al menos un NBI, mientras que había sectores de regiones que comprendían a los hogares que, por el contrario, tenían sus necesidades básicas satisfechas.
De este análisis de los datos es que consideramos oportuno seleccionar la variable de hogares con al menos un indicador de NBI, para segmentar los radios censales.
El motivo de utilizar esta variable para construir los estratos nos permite ordenar los radios censales del partido de Almirante Brown con relación a la proporcion de hogares en el radio con necesidades básicas insatisfechas. Asumimos entonces que aquellos radios con mayor proporción de hogares con NBI funcionarían como un proxy a la situación económica de los individuos y por ende, a la tasa de actividad.
Los indicadores de Necesidad Básicas Insatisfechas incluyen:
· Hogares con computadora
· Hogares con una o más personas de servicio doméstico sin retiro (con cama)
· Hogares con hacinamiento (>= 3 personas por cuarto)
· Hogares sin heladeras
· Hogares sin sistema de botón, cadena o mochila para limpieza del inodoro.
· Hogares sin agua para beber y cocinar proveniente de red pública
· Hogares sin cañería de agua en la vivienda
· Hogares sin cloaca
· Hogares con desagüe a hoyo o pozo ciego sin cámara
· Hogares sin cobertura de techo tipo 1 (Membrana, baldosa, losa o teja)
· Hogares sin piso tipo 1 (cerámica, baldosa, mosaico, mármol, madera, alfombrado)
Partimos del supuesto que las personas que se encuentran activas económicamente viven en hogares con necesidades básicas satisfechas o con una baja proporción de hogares con NBI por región censal.
Los datos disponibles que logramos obtener por radio censal fueron los datos del censo de 2010.
Por otro lado, el código compuesto de la región censal, nos brinda información sobre la cartografía que utiliza por el indec, en el se encuentran los códigos de provincia, código de partido, código de fracción y código de radio censal. Según la bibliografía se define de la siguiente manera:
"Fracción y Radio:
Son unidades censales, que forman parte de la estructura de relevamiento censal, definidas por un espacio territorial con límites geográficos y una determinada cantidad de unidades de viviendas a relevar. Cada unidad político-administrativa se desagrega en fracciones y cada una de ellas se desagrega a su vez en radios.
Fracción y Radio urbano: es aquel con población agrupada únicamente, y conformado por manzanas y/o sectores pertenecientes a una localidad.
Fracción y Radio rural: es aquel con población dispersa únicamente, y donde las viviendas se distribuyen en campo abierto en forma diseminada.
Fracción y Radio rural mixto: es aquel con población rural dispersa en campo abierto, y con población agrupada en pequeños poblados o en bordes amanzanados de localidades.
El tamaño de las fracciones y los radios en áreas urbanas se determina según la cantidad de viviendas.
La fracción tiene un promedio de 5000 viviendas mientras que el radio un promedio de 300.
Para bordes de localidades el radio urbano puede bajar a 200 viviendas, aproximadamente, y en localidades aisladas a 100 viviendas.
En zonas rurales las fracciones y radios se determinan por la conjunción de distintos factores: características del terreno, accesibilidad y distancia entre las viviendas.
El código numérico que identifica las fracciones se conforma, leído de izquierda a derecha, con dos dígitos que corresponden a la división político-territorial, tres dígitos que refieren a la división político-administrativa y otros dos dígitos que representan a la fracción. Para cada unidad administrativa, la numeración de las fracciones que incluye comienza con el código 01 y sigue con números correlativos."
(https://geoservicios.indec.gov.ar/codgeo/index.php?pagina=definiciones)
Es a través del análisis de los datos de las Fracciones/radios censales/hogares por radio censal/que calculamos la cantidad de radios censales que componen la muestra de la primera etapa. Y en función de los hogares con NBI por radio censal es que construimos los estratos.
En una segunda etapa, una vez definidos los radios censales que componen la muestra, pretendemos seleccionar hogares al interior de cada estrato. La asignación de la cantidad de hogares se realiza a través de la asignación óptima para cada estrato.
Esto nos permite delimitar la cantidad de hogares por región censal y organizar el trabajo de campo.
*Trabajo de Campo
De la composición urbanística del partido, obtuvimos datos del precenso de viviendas que nos permiten afirmar que las viviendas particulares que habitan los hogares de Almirante Brown están compuestas por 80% de tipo casa y un 19% de tipo departamento.
Por lo cual, podríamos inferir que si un radio censal está compuesta en promedio por 300 viviendas, y que por manzana (con viviendas tipo casa) se estiman alrededor de 39 o 40 viviendas, una región censal estará integrada por 7 manzanas con 40 viviendas cada una.
https://precensodeviviendas.indec.gob.ar/mapa
Se recomienda aplicar un trabajo de campo asignando a cada encuestador/a 1 radio censal, asignado del listado de radios censales que entraron en el muestreo. A cada radio censal le corresponde un determinado número de adultos/as a encuestar.
El encuestador deberá comenzar por la manzana N°1 del región censal, mantener como referencia su hombro derecho en la pared de las viviendas, y comenzar por la primera vivienda de la primera manzana, saltear 8 y continuar con la 9°, y así sucesivamente hasta completar la manzana y continuar con la manzana siguiente de la misma forma.
De esta manera, nos aseguramos de que la selección definitiva de los hogares y de las personas adultas a encuestar sea al azar y mantengan una distribución insesgada, con la posibilidad de cubrir la heterogeneidad al cubrir más manzanas de la región censal. Ya que un encuestador que tenga a cargo un radio censal realizará 5 encuestas por manzana y 37 encuestas aproximadamente por radio censal.
El trabajo de campo deberá incluir tareas de edición y supervisión de campo, con la posibilidad de rehacer o volver a campo para completar la muestra en caso de errores u omisiones u completar de forma telefónica.
El/la encuestador/a seleccionará la vivienda según los criterios arriba mencionados y buscará un adulto que pueda responder la encuesta.
La encuesta consta de secciones que corresponde a:
Datos identificatorios de la encuesta, N° de vivienda, N° de manzana, fecha
Datos identificatorios del hogar al que pertenece la persona para determinar que el/la informante brindarán información sobre el hogar al que pertenece y no otro que pudiera vivir en la misma vivienda.
Datos respecto a los integrantes de 14 años y más, identificando al jefe/a de hogar, y la relación de parentesco de los integrantes del hogar respecto a éste.
Bateria de preguntas sobre ocupación de las personas mayores de 14 años, para identificar cuáles están activas, desocupadas o inactivas.
Nombre de pila y teléfono de contacto del/la respondente.
#Importamos la base con los radios censales
muestrahogares<-read_xlsx("C:\\Users\\Lorena\\Documents\\UNTREF\\7.TECNICAS DE MUESTREO\\2021\\TRABAJO FINAL\\Indicadores-Almirante Brown.xlsx")
## New names:
## * `Total de hogares` -> `Total de hogares...2`
## * `Total de hogares` -> `Total de hogares...35`
muestraindividuos <- read_xlsx("C:\\Users\\Lorena\\Documents\\UNTREF\\7.TECNICAS DE MUESTREO\\2021\\TRABAJO FINAL\\Indicadores personas- Almirante Brown.xlsx")
muestrahogares<- left_join(muestrahogares,muestraindividuos)
## Joining, by = c("Código de radio.", "Código de provincia", "Nombre de provincia", "Código de departamentos/comuna", "Nombre de departamentos/comuna", "Código de radio", "Población total", "Latitud del centroide", "Longitud del centroide", "Superficie en km2")
#Dejamos solo las variables con las que vamos a trabajar
muestrahogares<- muestrahogares[, c(1:3,46)]
#Renombramos las variables y calculamos el porcentaje de hogares con al menos una NBI por radio
colnames(muestrahogares)[1] <- "CODIGO_COMPUESTO"
colnames(muestrahogares)[3] <- c("CANTIDAD_NBI_HOGARES")
colnames(muestrahogares)[2] <- c("TOTAL_HOGARES_RADIO")
muestrahogares<- muestrahogares%>% mutate(PORC_HOG_X_NBI_RADIO = round((CANTIDAD_NBI_HOGARES/ TOTAL_HOGARES_RADIO)*100),2)
head(muestrahogares)
## # A tibble: 6 x 5
## CODIGO_COMPUESTO TOTAL_HOGARES_RADIO CANTIDAD_NBI_HOGARES `POBLACION PEA`
## <chr> <dbl> <dbl> <dbl>
## 1 060280101 360 60 849
## 2 060280102 290 60 737
## 3 060280103 326 39 760
## 4 060280104 295 10 633
## 5 060280105 201 2 400
## 6 060280106 266 20 587
## # ... with 1 more variable: PORC_HOG_X_NBI_RADIO <dbl>
#Eliminamos casos atipicos tomamos un hogar por radio como referencia
muestrahogares<- filter(muestrahogares, TOTAL_HOGARES_RADIO >= 1 )
head(muestrahogares)
## # A tibble: 6 x 5
## CODIGO_COMPUESTO TOTAL_HOGARES_RADIO CANTIDAD_NBI_HOGARES `POBLACION PEA`
## <chr> <dbl> <dbl> <dbl>
## 1 060280101 360 60 849
## 2 060280102 290 60 737
## 3 060280103 326 39 760
## 4 060280104 295 10 633
## 5 060280105 201 2 400
## 6 060280106 266 20 587
## # ... with 1 more variable: PORC_HOG_X_NBI_RADIO <dbl>
#Obtenemos la cantidad de hogares totales
hogarestotales<- muestrahogares %>% summarise(Total_hogares =sum(TOTAL_HOGARES_RADIO))
ht<- as.vector(hogarestotales)
ht
## Total_hogares
## 1 156918
#Obtenemos el desvio de NBI para calcular el tama;o de la muestra
desvio<- sd(muestrahogares$PORC_HOG_X_NBI_RADIO)
desvio
## [1] 10.20494
#Calculamos el tama;o de la muestra a partir del desvio y con una confianza de 95%
n <- ((desvio^2) * (1.96^2))/ ((2.5^2) +(((desvio^2) * (1.96^2))/ht))
n
## Total_hogares
## 1 63.98466
#Observamos la distribucion de la variable NBI por radio para estratificar
histNBI<- muestrahogares$PORC_HOG_X_NBI_RADIO
hist(histNBI, breaks = 100)
#Calculamos los estratos a partir del metodo de Daleniu Hodges
set.seed(300)
strata.cumrootf(muestrahogares$PORC_HOG_X_NBI_RADIO, CV= 0.05, Ls=6)
## Warning: 'nclass' value has been chosen arbitrarily
## Given arguments:
## x = muestrahogares$PORC_HOG_X_NBI_RADIO
## nclass = 40, CV = 0.05, Ls = 6
## allocation: q1 = 0.5, q2 = 0, q3 = 0.5
## model = none
##
## Strata information:
## | type rh | bh E(Y) Var(Y) Nh nh fh
## stratum 1 | take-some 1 | 2.5 0.99 0.56 106 2 0.02
## stratum 2 | take-some 1 | 7.5 4.83 2.07 103 3 0.03
## stratum 3 | take-some 1 | 12.5 10.11 1.89 125 3 0.02
## stratum 4 | take-some 1 | 17.5 14.76 1.73 80 2 0.03
## stratum 5 | take-some 1 | 27.5 21.36 5.75 50 2 0.04
## stratum 6 | take-some 1 | 101.0 42.85 409.43 20 6 0.30
## Total 484 18 0.04
##
## Total sample size: 18
## Anticipated population mean: 10.27273
## Anticipated CV: 0.04550332
#Creamos los estratos
muestrahogares<- muestrahogares %>% mutate(ESTRATOS_NBI = case_when( PORC_HOG_X_NBI_RADIO < 3 ~ 'ESTRATO 1' , PORC_HOG_X_NBI_RADIO < 8 ~ 'ESTRATO 2', PORC_HOG_X_NBI_RADIO < 13 ~ 'ESTRATO 3', PORC_HOG_X_NBI_RADIO < 18 ~ 'ESTRATO 4', PORC_HOG_X_NBI_RADIO < 28 ~ 'ESTRATO 5', PORC_HOG_X_NBI_RADIO < 101 ~ 'ESTRATO 6') )
#Observamos cantidad, desvios, variancia y totales para los estratos creados
resumen_NBI <- muestrahogares %>% group_by(ESTRATOS_NBI) %>% dplyr::summarise(cantidad = n(), desvio= sd(PORC_HOG_X_NBI_RADIO), variancia= (desvio^2), total_nbi_hogares = sum(CANTIDAD_NBI_HOGARES),total_hogares =sum(TOTAL_HOGARES_RADIO), media_hogaresconnbi = ((total_nbi_hogares/total_hogares)*100) )
resumen_NBI
## # A tibble: 6 x 7
## ESTRATOS_NBI cantidad desvio variancia total_nbi_hogares total_hogares
## <chr> <int> <dbl> <dbl> <dbl> <dbl>
## 1 ESTRATO 1 106 0.750 0.562 326 30965
## 2 ESTRATO 2 103 1.44 2.09 1611 33409
## 3 ESTRATO 3 125 1.38 1.91 4132 40680
## 4 ESTRATO 4 80 1.32 1.75 4236 28535
## 5 ESTRATO 5 50 2.42 5.87 3663 17104
## 6 ESTRATO 6 20 20.8 431. 2455 6225
## # ... with 1 more variable: media_hogaresconnbi <dbl>
#Creamos conglomerados utilizando el codigo compuesto, estos conglomerados seran creeados a partir de fracciones censales.
muestrahogares<- muestrahogares %>% separate(CODIGO_COMPUESTO, into = c("CODIGO_DEP","COD_FRACYRAD"), sep = (6))
#Creamos conglomerados utilizando el codigo compuesto, estos conglomerados seran creeados a partir de fracciones censales.
muestrahogares <- muestrahogares %>% separate(COD_FRACYRAD, into = c("COD_FRAC","COD_RAD"), sep = (2))
#Agrupamos los conglomerados- segun fraccion censal y observamos la cantidad de radios en cada uno- version 1
conglomerados <- muestrahogares %>% group_by(COD_FRAC) %>% tally()
#Obtenemos la cantidad de hogares totales
hogarestotales<- muestrahogares %>% summarise(Total_hogares =sum(TOTAL_HOGARES_RADIO))
hogarestotales
## Total_hogares
## 1 156918
#suma total de radios en los conglomerados
radiostotales<- sum(conglomerados$n)
radiostotales
## [1] 484
#Cantidad de conglomerados
fraccionestotales<- length(conglomerados$COD_FRAC)
fraccionestotales
## [1] 20
#Debido a cuestiones economicas, determinamos que simplemente podremos cubrir 10 fracciones censales para obtener los resultados. N=20, n=10
set.seed(150)
n=10
selec_cong <- sampling::cluster(muestrahogares, clustername=c("COD_FRAC"), size=n, method="srswor")
head(selec_cong)
## COD_FRAC ID_unit Prob
## 1 10 131 0.5
## 2 10 241 0.5
## 3 10 5 0.5
## 4 10 4 0.5
## 5 10 6 0.5
## 6 10 7 0.5
#Seleccionamos los radios en la base a partir de la muestra por conglomerados generada en el punto anterior y asignamos a un elemento
muestraconglo<- getdata(muestrahogares, selec_cong)
#Asignamos los casos a partir de la estratificacion de manera proporcional
#Primero observamos el modo en que se distribuyen la primera unidad de muestreo segun estrato
muestraconglo %>% group_by(ESTRATOS_NBI) %>% tally()
## # A tibble: 6 x 2
## ESTRATOS_NBI n
## <chr> <int>
## 1 ESTRATO 1 57
## 2 ESTRATO 2 62
## 3 ESTRATO 3 71
## 4 ESTRATO 4 46
## 5 ESTRATO 5 23
## 6 ESTRATO 6 18
#Calculamos el tamano de muestra para los estratos
stratasamp(n=20 , Nh=c(106,103,125,80,50,20))
## Warning in stratasamp(n = 20, Nh = c(106, 103, 125, 80, 50, 20)): Warning:
## Sampling of less than 2 observations in a stratum is not recommended!
##
## Stratum 1 2 3 4 5 6
## Size 4 4 5 3 2 1
#Entonces asignamos la muestra de manera proporcional a lo obtenido en el punto visto arriba
strata1v1<- filter(muestraconglo, ESTRATOS_NBI== "ESTRATO 1") %>% sample_n( size = 4)
strata2v1<- filter(muestraconglo, ESTRATOS_NBI== "ESTRATO 2") %>% sample_n( size = 4)
strata3v1<- filter(muestraconglo, ESTRATOS_NBI== "ESTRATO 3") %>% sample_n( size = 5)
strata4v1<- filter(muestraconglo, ESTRATOS_NBI== "ESTRATO 4") %>% sample_n( size = 3)
strata5v1<- filter(muestraconglo, ESTRATOS_NBI== "ESTRATO 5") %>% sample_n( size = 2)
strata6v1<- filter(muestraconglo, ESTRATOS_NBI== "ESTRATO 6") %>% sample_n( size = 1)
#Nos quedamos con la muestra final de la cual extraeremos los radios censales para el recorrido de campo
muestrafinal<- bind_rows(strata1v1,strata2v1,strata3v1, strata4v1, strata5v1, strata6v1,)
muestrafinal
## CODIGO_DEP COD_RAD TOTAL_HOGARES_RADIO CANTIDAD_NBI_HOGARES POBLACION PEA
## 1 060283 1 288 3 556
## 2 060282 6 318 1 593
## 3 060283 2 300 5 597
## 4 060282 1 147 3 272
## 5 060280 5 300 8 609
## 6 060281 1 526 36 1027
## 7 060282 3 265 7 530
## 8 060280 3 277 18 584
## 9 060282 2 292 30 642
## 10 060280 3 573 69 1335
## 11 060281 6 312 27 683
## 12 060281 7 332 40 734
## 13 060283 9 279 34 633
## 14 060280 6 337 43 778
## 15 060282 0 247 39 582
## 16 060280 8 525 83 1207
## 17 060283 4 422 100 959
## 18 060283 7 387 80 790
## 19 060283 1 408 134 868
## PORC_HOG_X_NBI_RADIO ESTRATOS_NBI COD_FRAC ID_unit Prob
## 1 1 ESTRATO 1 10 373 0.5
## 2 0 ESTRATO 1 30 277 0.5
## 3 2 ESTRATO 1 11 384 0.5
## 4 2 ESTRATO 1 20 254 0.5
## 5 3 ESTRATO 2 90 104 0.5
## 6 7 ESTRATO 2 11 136 0.5
## 7 3 ESTRATO 2 30 274 0.5
## 8 6 ESTRATO 2 11 13 0.5
## 9 10 ESTRATO 3 11 252 0.5
## 10 12 ESTRATO 3 70 78 0.5
## 11 9 ESTRATO 3 30 155 0.5
## 12 12 ESTRATO 3 70 199 0.5
## 13 12 ESTRATO 3 10 381 0.5
## 14 13 ESTRATO 4 20 21 0.5
## 15 16 ESTRATO 4 11 250 0.5
## 16 16 ESTRATO 4 30 31 0.5
## 17 24 ESTRATO 5 61 442 0.5
## 18 21 ESTRATO 5 10 379 0.5
## 19 33 ESTRATO 6 91 480 0.5