Curso Internacional ‘Desagregación de Estimaciones en Áreas Pequeñas usando R’

Módulo 3 - Modelos de área - Tarea 1

Author

Igor Souza

Published

17/11/2023

Sobre

El curso es organizado por la Unidad de Estadísticas Sociales, División de Estadísticas de la Comisión Económica para América Latina y el Caribe (CEPAL) y por el Fondo de Población de las Naciones Unidas (UNFPA).

Al leer el trabajo presentado a continuación, tenga en cuenta que el autor está en proceso de aprendizaje. Se agradecen las críticas y sugerencias.

Tarea

Objetivo: La siguiente tarea tiene como objetivo aplicar los conocimientos aprendidos en los primeros módulos del curso.

Tarea: La idea de esta actividad es estimar el ingreso medio y el porcentaje de personas pobres (que incluye pobreza no extrema y pobreza extrema) por sección para los hombres y mujeres en Montevideo utilizando el modelo de Fay-Herriot.

Código R

library(tidyverse)
library(survey)
library(srvyr)
library(sae)
library(DT)

Importar datos

Encuesta

### Sample (female)
sample_f <- readRDS("..\\Dados\\Modulo 3\\Tarea 1\\SamM.rds")
### Sample (male)
sample_m <- readRDS("..\\Dados\\Modulo 3\\Tarea 1\\SamH.rds")

Censo

### Census (female)
load("..\\Dados\\Modulo 3\\Tarea 1\\CensoM.RData")
census_f <- CensoM
### Census (male)
load("..\\Dados\\Modulo 3\\Tarea 1\\CensoH.RData")
census_m <- CensoH

Transformar datos

Code
## Bind survey data (both genders)
sample_b <- bind_rows(
  sample_f,
  sample_m
)
Code
## Bind census data (both genders)
census_b <- bind_rows(
  census_f,
  census_m
)

Estimación directa (Hájek)

Especificando el diseño de la encuesta.

survey_sample <- svydesign(ids = ~0, weights = ~factorex, data = sample_b) |> 
  as_survey_design()
Code
## Hajek

### Income
estim_dir_income_hajek <- survey_sample |> 
  group_by(secc, sexo) |> 
  summarise(
    income = survey_mean(ing, na.rm = T, vartype = "var")
  ) |> 
  ungroup() |>
  mutate(
    income_cv = sqrt(income_var) / income * 100
  ) |> 
  dplyr::select(
    secc, 
    sexo,
    income,
    income_var,
    income_cv
  )
Code
### Poverty proportion 
estim_dir_poverty_hajek <- survey_sample |>
  group_by(secc, sexo, pobreza) |> 
  summarise(
    poor_prop = survey_prop(vartype = c("cv", "var"))
  ) |> 
  ungroup() |>
  filter(pobreza == 1) |>
  mutate(
    poor_prop_cv = poor_prop_cv * 100
  ) |> 
  dplyr::select(
    secc, 
    sexo,
    poor_prop,
    poor_prop_var,
    poor_prop_cv
  )

Covariables

Para efectos de facilitar la comprensión de la base, a continuación, se hace una breve descripción de las variables en la muestra:

  • condacto: variable dicotómica que indica si es ocupado o no;

  • condactc: dicotómica sobre la condición cesante;

  • condactj: dicotómica sobre la condición jubilado;

  • alfasi: dicotómica sobre analfabetismo;

  • pobreza: categorías de pobreza.

Code
## Covariables by section and gender
census_covariables <- census_b |> 
  group_by(secc, sexo) |> 
  summarise(
    n             = n(),
    prop_condacto = sum(condacto, na.rm = T) / n,
    prop_condactc = sum(condactc, na.rm = T) / n,
    prop_condactj = sum(condactj, na.rm = T) / n,
    prop_alfasi   = sum(alfasi, na.rm = T) / n
  )

Modelo de Fay-Herriot

Datos

Code
### Income
data_income_hajek_fh <- estim_dir_income_hajek |> 
  left_join(census_covariables, by = join_by(secc, sexo)) |> 
  as.data.frame()
Code
### Poverty
data_poverty_hajek_fh <- estim_dir_poverty_hajek |> 
  left_join(census_covariables, by = join_by(secc, sexo)) |>
  as.data.frame()

Estimar

Ingreso medio por sección - Hombres

income_hajek_fh_m <- sae::mseFH(
  formula = income ~ prop_condacto + prop_condactc + prop_condactj + prop_alfasi,
  vardir  = income_var,
  method  = "REML",
  data    = data_income_hajek_fh[data_income_hajek_fh$sexo == "Hombre",]
)

Ingreso medio por sección - Mujeres

income_hajek_fh_f <- sae::mseFH(
  formula = income ~ prop_condacto + prop_condactc + prop_condactj + prop_alfasi,
  vardir  = income_var,
  method  = "REML",
  data    = data_income_hajek_fh[data_income_hajek_fh$sexo == "Mujer",]
)

Proporción de pobreza por sección - Hombres

poverty_hajek_fh_m <- sae::mseFH(
  formula = poor_prop ~ prop_condacto + prop_condactc + prop_condactj + prop_alfasi,
  vardir  = poor_prop_var,
  method  = "REML",
  data    = data_poverty_hajek_fh[data_poverty_hajek_fh$sexo == "Hombre",]
)

Proporción de pobreza por sección - Mujeres

poverty_hajek_fh_f <- sae::mseFH(
  formula = poor_prop ~ prop_condacto + prop_condactc + prop_condactj + prop_alfasi,
  vardir  = poor_prop_var,
  method  = "REML",
  data    = data_poverty_hajek_fh[data_poverty_hajek_fh$sexo == "Mujer",]
)

Resultados

Ingreso medio

Proporción de pobreza

Visualizar

Conclusiones

Los resultados muestran que, en promedio, los hombres tienen un ingreso mayor que las mujeres, tanto en las estimaciones directas como en las estimaciones ajustadas por el modelo Fay-Herriot. El modelo también logró mejorar la calidad de las estimaciones en todas las secciones, independientemente del sexo.

En cuanto a la proporción de personas en situación de pobreza, aunque las cifras muestran una mayor proporción entre las mujeres, la calidad de las estimaciones es extremadamente baja. Quizás la razón sea un error de cálculo u otro factor relacionado. Aún no he descubierto la causa del problema. Por lo tanto, no se puede confiar plenamente en las estimaciones. El autor está abierto a sugerencias para mejorar y resolver este problema.