Estadística poblacional.

0. Introducción.

Estadística poblacional se refiere al estudio y análisis de las características y comportamientos de una población completa. En estadística, una población es el conjunto completo de individuos u objetos de interés que comparten una característica común. Por ejemplo, todos los estudiantes de una universidad o todos los ciudadanos de un país pueden considerarse una población. Cuando hablamos de estadísticas poblacionales, nos referimos a los parámetros que describen a toda la población, como la media, la mediana, la desviación estándar, entre otros.

Sin embargo, en la mayoría de los casos, no es práctico estudiar a toda la población debido a limitaciones de tiempo, costos o recursos. Por lo tanto, se suelen realizar estudios basados en muestras, y es aquí donde entran en juego los factores de expansión (o pesos muestrales).

Relación con los Factores de Expansión. Los factores de expansión son valores asignados a cada individuo o unidad en una muestra que permiten ajustar los resultados para que representen mejor a la población completa. En otras palabras, estos factores “expanden” los datos muestrales para hacerlos más representativos de la población total.

¿Cómo funcionan? Cuando se selecciona una muestra, no todos los individuos tienen la misma probabilidad de ser seleccionados. Los factores de expansión se utilizan para corregir este desequilibrio, ajustando el peso que cada observación tiene en el análisis. Estos factores se calculan como el inverso de la probabilidad de selección de cada unidad en la muestra, lo que garantiza que las estimaciones obtenidas a partir de la muestra sean lo más cercanas posible a las que se obtendrían si se hubiera estudiado toda la población.

1. Factor de expansión.

Con el objetivo de obtener estimaciones representativas a nivel poblacional, se empleará el factor de expansión regional. Este factor, conceptualmente, refleja la cantidad de unidades en la población que corresponde a cada unidad seleccionada en la muestra. Se calcula como el inverso de la probabilidad de selección de las unidades de muestreo, permitiendo ajustar los resultados muestrales para hacer inferencias precisas sobre la población total a nivel regional. Matemáticamente, la relación se expresa de la siguiente manera:

\[ f_{\text{exp}} = \frac{N}{n} \] En el caso particular de la encuesta Casen, esta computa tres factores de expansión: regional (expr), provincial (expp) y comunal (expc). La encuesta Casen es un instrumento diseñado bajo un muestreo complejo que incluye dos etapas de muestreo. Para mayor detalle, se recomienda consultar el libro metodológico disponible en el sitio https://observatorio.ministeriodesarrollosocial.gob.cl/encuesta-casen-2022.

Observación: Es crucial tener presente que los factores de expansión se calculan solo cuando la muestra es obtenida bajo un diseño muestral probabilístico. Esto se debe a la necesidad de poder computar la probabilidad de selección de cada individuo o elemento.

Observación Es muy importante tener presente que los factores de expansión se calculan cuando la muestra es obtenida bajo un diseño muestral probabilístico. Esto se debe a la posibilidad de computar la probabilidad de selección de un individuo o elemento. Para más información visitar el sitio web de la encuesta.

1.1. Propósito de este documento.

El propósito de este documento es presentar dos ejemplos prácticos del uso de factores de expansión en análisis estadísticos basados en muestras probabilísticas. Los factores de expansión permiten ajustar las estimaciones muestrales para que sean representativas de la población completa, corrigiendo posibles sesgos derivados de las probabilidades desiguales de selección en la muestra. A continuación, se ilustran dos casos específicos para demostrar cómo los factores de expansión influyen en los resultados.

Ejemplo 1: Porcentaje de pobreza por territorio En este ejemplo, se aplica el uso de factores de expansión para calcular el porcentaje de pobreza en diferentes territorios. El ajuste asegura que la estimación refleje correctamente las características de la población total.

Ejemplo 2: Ingreso autónomo en las regiones de Chile Aquí, se analiza la variación del ingreso autónomo promedio en las regiones de Chile. Los factores de expansión permiten obtener una estimación precisa de los ingresos en cada región, ajustando la muestra para que sea representativa.

2. Librerias.

En este análisis, utilizaremos las siguientes librerias.

library(tidyverse)
library(haven)
library(sf)
library(ggplot2)
library(ggspatial)
library(viridis)
library(viridisLite)
library(gridExtra)

3. Incidencia de la pobreza y pobreza extrema en la última medición de Casen.

La metodología de medición de la pobreza en Chile utiliza el valor de la Canasta Básica de Alimentos (CBA) como variable central para definir la línea de pobreza. Entre noviembre de 2020 y noviembre de 2022, la CBA aumentó un 33,6%, mientras que el IPC creció un 20,9%. En este período, la línea de pobreza pasó de $174.131 a $216.849 por adulto equivalente, un aumento del 24,5% en pesos nominales. Este valor varía según el número de integrantes del hogar, considerando economías de escala. Para calcular la tasa de pobreza, se comparan los ingresos totales del hogar con la línea de pobreza, considerando tanto ingresos del trabajo como transferencias y subsidios. Estos ingresos también han crecido significativamente en el mismo período.

Para este análisis, usaremos el campo de pobreza por ingreso de la encuesta Casen 2022, cuyas categorías de pobreza son calculadas sobre el total de la población de cada región. Las categorías son:

  • Pobre extremo
  • Pobre no extremo
  • No pobre
pobreza <- casen_abreviada %>%
  group_by(region , nom_region) %>%
  summarise("Pobre extremo" = round(sum(expr [pobreza == 1], na.rm = T) / 
              sum(expr [pobreza %in% c(1,2,3)], na.rm = T) *100,1),
            "Pobre no extremo" = round(sum(expr[pobreza == 2], na.rm = T)/
              sum(expr[pobreza %in% c(1,2,3)], na.rm =T)*100,1))
pobreza %>% head(3)
## # A tibble: 3 × 4
## # Groups:   region [3]
##   region                     nom_region       `Pobre extremo` `Pobre no extremo`
##   <dbl+lbl>                  <chr>                      <dbl>              <dbl>
## 1 1 [Región de Tarapacá]   Región de Tarap…             4.5                6.5
## 2 2 [Región de Antofagasta] Región de Antof…             2.8                4.9
## 3 3 [Región de Atacama]     Región de Ataca…             2.8                5.4

Se visualiza la distribución de las categorías para cada región de chile.

pobreza_long <- pobreza %>%
  pivot_longer(cols = c("Pobre extremo", "Pobre no extremo"),
               names_to = "Condicion",
               values_to = "Porcentaje")

pobreza_long <- pobreza_long %>%
  mutate(Condicion = factor(Condicion, 
                            levels = c("Pobre extremo", "Pobre no extremo")),
         region = factor(region))  

ggplot(pobreza_long, aes(x = region, y = Porcentaje, fill = Condicion)) +
  geom_bar(stat = "identity") +
  geom_text(aes(label = sprintf("%.1f", Porcentaje)),  
            position = position_stack(vjust = 0.5),  
            size = 3) + 
  scale_fill_brewer(palette = "Set3") +  
  labs(
    title = "Distribución de la Pobreza por Región en %",
    subtitle = "Elaborado por Cristian Escobedo Catalán",
    caption = "Fuente: Encuesta Casen 2022",
    x = "Región",
    y = "Porcentaje",
    fill = "Condición de Pobreza"
  ) +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 360, hjust = 1))  

Para cartografiar la pobreza, importamos el archivo -regiones- de la división política administrativa (DPA 2023), el cual contiene la geometría de las regiones de Chile.

regiones <- st_read("REGIONES/REGIONES_v1.shp")
## Reading layer `REGIONES_v1' from data source 
##   `C:\Users\cesco\OneDrive\Escritorio\factor_expansion\REGIONES\REGIONES_v1.shp' 
##   using driver `ESRI Shapefile'
## Simple feature collection with 16 features and 3 fields
## Geometry type: MULTIPOLYGON
## Dimension:     XY
## Bounding box:  xmin: -109.4549 ymin: -56.53777 xmax: -66.41559 ymax: -17.4984
## Geodetic CRS:  GCS_SIRGAS-Chile

Realizamos una visualizasión cartográfica del país.

ggplot()+
  geom_sf(data = regiones)

Ejecutamos un left_join entre las bases. La finalidad es añadir la información de pobreza al archivo que contiene la geometría

regiones <- left_join(regiones, pobreza, by = c("CUT_REG" = "region"))

Para una mejor visualización de la pobreza, calculamos el campo total como la suma entre: pobre extremo y pobre no extremo de la siguiente forma.

regiones <- regiones %>%
  mutate(total = `Pobre extremo` + `Pobre no extremo`)

Visualizamos el comportamiento de la variable.

ggplot(data = regiones) +
  geom_sf(aes(fill = total)) +  
  geom_text(aes(label = REGION, geometry = geometry), stat = "sf_coordinates", size = 1.0) +  
  scale_fill_viridis_c(option = "viridis") +  
  theme_minimal() +
  labs(title = "Distribución pobreza en porcentaje",
       fill = "Tasa de pobreza en %",
       x    = "Longitud",
       y    = "Latitud", 
       caption = "Elaboración propia en base a datos Casen 2022. Autor: Cristian Escobedo Catalán") +
  annotation_scale(location = "bl", width_hint = 0.5) +  
  annotation_north_arrow(location = "tl", which_north = "true", 
                         pad_x = unit(0.75, "in"), pad_y = unit(0.75, "in"),
                         style = north_arrow_fancy_orienteering)

Con la finalidad de obtener una mejor representación, se decide dividir el territorio en tres zonas: - Norte - Centro - Sur

norte <- regiones %>% filter(CUT_REG <= 5 | CUT_REG == 15)
centro <- regiones %>% filter((CUT_REG > 5 & CUT_REG <= 8) | CUT_REG == 13 | CUT_REG == 16)
sur <- regiones %>% filter(CUT_REG >= 9 & CUT_REG != 15 & CUT_REG != 13 & CUT_REG != 16)

Figura 1.

fig_1 <- ggplot(data = norte) +
  geom_sf(aes(fill = total)) +  
  geom_text(aes(label = REGION, geometry = geometry), stat = "sf_coordinates", size = 1.5) +  
  scale_fill_viridis_c(option = "viridis") +  
  theme_minimal() +
  labs(title = "Distribución pobreza en porcentaje",
       fill = "Pobreza",
       x    = "Longitud",
       y    = "Latitud", 
       caption = "Elaboración propia en base a datos Casen 2022. Autor: Cristian Escobedo Catalán") +
  annotation_scale(location = "bl", width_hint = 0.5) +  
  annotation_north_arrow(location = "tl", which_north = "true", 
                         pad_x = unit(0.75, "in"), pad_y = unit(0.75, "in"),
                         style = north_arrow_fancy_orienteering)

fig_1
## Warning in st_point_on_surface.sfc(sf::st_zm(x)): st_point_on_surface may not
## give correct results for longitude/latitude data
## Scale on map varies by more than 10%, scale bar may be inaccurate

Figura 2

fig_2 <- ggplot(data = centro) +
  geom_sf(aes(fill = total)) +  
  geom_text(aes(label = REGION, geometry = geometry), stat = "sf_coordinates", size = 1.5) +  
  scale_fill_viridis_c(option = "viridis") +  
  theme_minimal() +
  labs(title = "Distribución pobreza en porcentaje",
       fill = "Pobreza",
       x    = "Longitud",
       y    = "Latitud", 
       caption = "Elaboración propia en base a datos Casen 2022. Autor: Cristian Escobedo Catalán") +
  annotation_scale(location = "bl", width_hint = 0.5) +  
  annotation_north_arrow(location = "tl", which_north = "true", 
                         pad_x = unit(0.75, "in"), pad_y = unit(0.75, "in"),
                         style = north_arrow_fancy_orienteering)
fig_2
## Warning in st_point_on_surface.sfc(sf::st_zm(x)): st_point_on_surface may not
## give correct results for longitude/latitude data

Figura 3

fig_3 <- ggplot(data = sur) +
  geom_sf(aes(fill = total)) +  
  geom_text(aes(label = REGION, geometry = geometry), stat = "sf_coordinates", size = 1.5) +  
  scale_fill_viridis_c(option = "viridis") +  
  theme_minimal() +
  labs(title = "Distribución pobreza en porcentaje",
       fill = "Tasa de pobreza en %",
       x    = "Longitud",
       y    = "Latitud", 
       caption = "Elaboración propia en base a datos Casen 2022. Autor: Cristian Escobedo Catalán") +
  annotation_scale(location = "bl", width_hint = 0.5) +  
  annotation_north_arrow(location = "tl", which_north = "true", 
                         pad_x = unit(0.75, "in"), pad_y = unit(0.75, "in"),
                         style = north_arrow_fancy_orienteering)
fig_3
## Warning in st_point_on_surface.sfc(sf::st_zm(x)): st_point_on_surface may not
## give correct results for longitude/latitude data
## Scale on map varies by more than 10%, scale bar may be inaccurate

4. Ingreso autónomo del hogar por region

El ingreso autónomo se refiere a los recursos monetarios que perciben las personas o los hogares provenientes de fuentes laborales y no laborales, sin tener en cuenta transferencias o ayudas del gobierno, como pensiones no contributivas, subsidios o ayudas sociales

## # A tibble: 6 × 3
## # Groups:   region [6]
##   region                                              nom_region         ingreso
##   <dbl+lbl>                                           <chr>                <dbl>
## 1 1 [Región de Tarapacá]                            Región de Tarapacá 1121190
## 2 2 [Región de Antofagasta]                          Región de Antofag… 1355477
## 3 3 [Región de Atacama]                              Región de Atacama  1049218
## 4 4 [Región de Coquimbo]                             Región de Coquimbo 1008079
## 5 5 [Región de Valparaíso]                           Región de Valpara… 1041994
## 6 6 [Región del Libertador Gral. Bernardo O'Higgins] Región del Libert…  979061

Ejecutamos el respectivo join, entre ambas bases.

## Simple feature collection with 3 features and 9 fields
## Geometry type: MULTIPOLYGON
## Dimension:     XY
## Bounding box:  xmin: -74.84848 ymin: -44.06712 xmax: -69.80908 ymax: -29.0366
## Geodetic CRS:  GCS_SIRGAS-Chile
##   CUT_REG    REGION SUPERFICIE        nom_region.x Pobre extremo
## 1       4  Coquimbo   40587.80  Región de Coquimbo           2.5
## 2      16     Ñuble   13089.22     Región de Ñuble           4.2
## 3      10 Los Lagos   48370.71 Región de Los Lagos           2.1
##   Pobre no extremo total        nom_region.y ingreso
## 1              5.4   7.9  Región de Coquimbo 1008079
## 2              7.9  12.1     Región de Ñuble  727453
## 3              4.8   6.9 Región de Los Lagos  953996
##                         geometry
## 1 MULTIPOLYGON (((-71.54427 -...
## 2 MULTIPOLYGON (((-72.80957 -...
## 3 MULTIPOLYGON (((-74.8445 -4...
ggplot(data = regiones) +
  geom_sf(aes(fill = ingreso)) +  
  geom_text(aes(label = REGION, geometry = geometry), stat = "sf_coordinates", size = 1.5) +  
  scale_fill_viridis_c(option = "viridis") +  
  theme_minimal() +
  labs(title = "Distribución pobreza en porcentaje",
       fill = "Ingreso medio",
       x    = "Longitud",
       y    = "Latitud", 
       caption = "Elaboración propia en base a datos Casen 2022. Autor: Cristian Escobedo Catalán") +
  annotation_scale(location = "bl", width_hint = 0.5) +  
  annotation_north_arrow(location = "tl", which_north = "true", 
                         pad_x = unit(0.75, "in"), pad_y = unit(0.75, "in"),
                         style = north_arrow_fancy_orienteering)