https://journal.r-project.org/archive/2015/RJ-2015-007/RJ-2015-007.pdf

sae: Un paquete R para la estimación de áreas pequeñas

por Isabel Molina y Yolanda Marhuenda

1 Resumen

Describimos el paquete R sae para la estimación de áreas pequeñas. Este paquete se puede utilizar para obtener estimaciones basadas en modelos para áreas pequeñas basadas en una variedad de modelos a nivel de área y unidad, junto con estimaciones directas e indirectas básicas. Los errores cuadráticos medios se estiman mediante aproximaciones analíticas en modelos simples y aplicando procedimientos bootstrap en modelos más complejos. Describimos las funciones del paquete y mostramos cómo utilizarlas a través de ejemplos.

2 El paquete R de un vistazo

El paquete R sae implementa métodos de estimación de áreas pequeñas bajo los siguientes modelos de nivel de área:

• Modelo Fay-Herriot (incluidos los métodos de ajuste comunes);

• Modelo Fay-Herriot extendido que tiene en cuenta la correlación espacial;

• Modelo Fay-Herriot extendido que permite la correlación espacio-temporal.

El paquete también incluye métodos de estimación de áreas pequeñas basados en el modelo de nivel de unidad básico llamado modelo de regresión lineal de error anidado. Los métodos de estimación disponibles bajo este modelo son:

• Mejores predictores lineales insesgados empíricos (EBLUP) de medias de área bajo el modelo de regresión lineal de error anidado para la variable objetivo.

• Estimaciones empíricas Best/Bayes(EB) de parámetros generales de área no lineal bajo el modelo de regresión lineal de error anidado para transformaciones de Box-Cox o de potencia de la variable objetivo.

También se incluyen métodos para la estimación de las medidas de incertidumbre correspondientes de los estimadores de área pequeña obtenidos a partir de los modelos anteriores. Además, el paquete incluye los siguientes estimadores directos e indirectos básicos:

• Estimadores directos de Horvitz-Thompson de medias de área pequeña bajo diseños de muestreo general;

• Estimador sintético posestratificado;

• Estimador compuesto.

Este documento describe las técnicas de estimación de área pequeña basadas en el modelo anterior e ilustra el uso de las funciones correspondientes a través de ejemplos adecuados. Para obtener una descripción de los estimadores directos e indirectos básicos incluidos en el paquete y una descripción detallada de toda la metodología implementada, consulte http://CRAN.R-project.org/package=sae.

3 Introducción

La creciente demanda de información más oportuna y detallada, junto con el alto costo de las entrevistas, a menudo conduce a una explotación extensiva de los datos de las encuestas. De hecho, muchas veces los datos de las encuestas se utilizan para producir estimaciones en dominios o áreas más pequeños que aquellos para los que se planeó originalmente la encuesta. Para un área con un tamaño de muestra pequeño, un estimador directo, basado solo en los datos de muestra provenientes de esa área, puede ser muy poco confiable. Esta limitación del tamaño de la muestra impide la producción de cifras estadísticas al nivel solicitado y, por lo tanto, restringe la disponibilidad de información estadística para el público o el usuario particular. Por el contrario, un estimador indirecto para un área también utiliza datos externos de otras áreas para aumentar la eficiencia al aumentar el tamaño efectivo de la muestra. Entre los estimadores indirectos, encontramos aquellos basados en modelos de regresión explícitos, llamados estimadores basados en modelos. Estos estimadores se basan en el supuesto de una relación entre la variable objetivo y algunas variables explicativas que es constante en todas las áreas. Los parámetros comunes del modelo se estiman utilizando el conjunto de datos de muestra, lo que a menudo conduce a estimadores de áreas pequeñas con una eficiencia apreciablemente mejor que los estimadores directos, siempre que se cumplan los supuestos del modelo. Por lo tanto, estas técnicas brindan cifras estadísticas a un nivel muy desagregado sin aumentar el tamaño de las muestras específicas del área y, por lo tanto, sin aumentar el costo de la encuesta. Los métodos de estimación de áreas pequeñas (SAE) incluidos en el paquete R sae tienen aplicaciones en muchos campos diferentes, como las estadísticas oficiales, la agricultura, la ecología, la medicina y la ingeniería. Para una descripción completa de las técnicas SAE, consulte Rao (2003).

El paquete R sae está diseñado principalmente para la estimación de áreas pequeñas basada en modelos. No obstante, se incluyen estimadores directos e indirectos simples con fines didácticos y para permitir al usuario realizar comparaciones cruzadas entre los métodos indirectos muy simples y los métodos basados en modelos más avanzados. Los estimadores puntuales basados en modelos se pueden complementar con sus correspondientes errores cuadráticos medios (MSE) estimados, que se calculan utilizando aproximaciones analíticas en algunos casos y procedimientos bootstrap en otros casos.

Los modelos a nivel de área se utilizan para obtener estimadores de áreas pequeñas cuando solo se dispone de datos auxiliares como agregados de áreas. El modelo básico a nivel de área es el modelo Fay-Herriot (FH) (Fay y Herriot, 1979). Las estimaciones de áreas pequeñas basadas en este modelo y las estimaciones analíticas de MSE se pueden obtener utilizando las funciones eblupFH() y mseFH() respectivamente.

Una extensión del modelo FH básico al caso de correlación espacial (inexplicada) entre datos de áreas vecinas es el modelo espacial Fay-Herriot (SFH). La función eblupSFH considera el modelo SFH en el que se supone que los efectos de área siguen un proceso autorregresivo simultáneo de orden uno o proceso SAR(1). Las estimaciones de áreas pequeñas complementadas con estimaciones analíticas de MSE se pueden obtener utilizando la función mseSFH(). Alternativamente, las estimaciones de MSE bootstrap paramétricas y no paramétricas para los estimadores de áreas pequeñas obtenidos a partir del modelo SFH se dan mediante las funciones pbmseSFH() y npbmseSFH() respectivamente.

Se puede utilizar un modelo Fay-Herriot espacio-temporal (STFH) cuando se dispone de datos de varios periodos de tiempo y también hay correlación espacial. Aparte de los efectos de área que siguen un proceso SAR(1), el modelo STFH considerado por la función eblupSTFH() incluye efectos de tiempo anidados dentro de áreas, siguiendo para cada dominio un proceso autorregresivo i.i.d. de orden 1 o AR(1). La función pbmseSTFH() proporciona estimaciones de áreas pequeñas y estimaciones de MSE de bootstrap paramétrico.

Cuando se dispone de información auxiliar a nivel de unidad, los estimadores básicos de áreas pequeñas son aquellos basados en el modelo de regresión lineal de error anidado de Battese et al. (1988), llamado en adelante modelo BHF. La función eblupBHF() proporciona estimaciones de medias de áreas pequeñas basadas en el modelo BHF. Las estimaciones de MSE de bootstrap paramétrico se obtienen llamando a la función pbmseBHF().

Los parámetros generales de áreas pequeñas obtenidos como una función no lineal de la variable de respuesta en el modelo, como los indicadores de pobreza basados en el ingreso, se pueden estimar bajo el modelo BHF utilizando la función ebBHF(). La función pbmseebBHF() proporciona las estimaciones de MSE bootstrap paramétricas correspondientes.

El documento está estructurado de la siguiente manera. Primero, analizamos las diferencias entre la inferencia basada en el diseño y el modelo y presentamos la notación utilizada en todo el documento. Luego, describimos uno por uno los métodos SAE basados en el modelo implementados en el paquete. Para cada método, describimos brevemente la teoría subyacente y el uso de las funciones, incluidos ejemplos adecuados. Finalmente, resumimos otro software existente para la estimación de áreas pequeñas.

4 Inferencia basada en diseño versus inferencia basada en modelo

En el muestreo de encuestas, la población es una colección finita de unidades distinguibles y contables. Se supone que las mediciones de la variable objetivo en las unidades de población no son estocásticas y el objetivo es estimar características de la población, es decir, funciones de las mediciones de población de la variable de estudio en las unidades de población, que en consecuencia también son no estocásticas. Una muestra es simplemente una colección de unidades de población y la inferencia se lleva a cabo típicamente bajo la distribución de probabilidad inducida por el mecanismo aleatorio utilizado para extraer la muestra, es decir, el diseño de muestreo. Por lo tanto, las propiedades deseables de los estimadores, como la imparcialidad, se establecen en términos de promedios sobre todas las muestras posibles.

En la inferencia basada en modelos, el término población se refiere simplemente a una variable aleatoria y, en el caso más simple, la muestra es una colección de variables independientes distribuidas de manera idéntica a la variable aleatoria original. Los parámetros de interés son características de la distribución de probabilidad de la variable aleatoria original, como los momentos, que se supone que son fijos en la configuración frecuentista.

En la estimación de áreas pequeñas, las subpoblaciones de interés se denominan indistintamente áreas o dominios. Se supone que estas áreas son finitas, aunque suelen ser grandes. Sin embargo, debido a la falta de datos de muestra dentro de esas áreas, se necesitan modelos para vincular todas las áreas a través de algunos parámetros comunes para “tomar prestada la fuerza” de las áreas relacionadas y luego mejorar la eficiencia siempre que se cumplan los supuestos del modelo. Por lo tanto, los métodos de áreas pequeñas basados en modelos combinan la configuración de población finita con la aleatoriedad de las mediciones de la variable de interés en las unidades de población, que se supone que siguen un modelo de regresión. En consecuencia, las cantidades objetivo, definidas como funciones de las mediciones de población, también son aleatorias.

5 Notación

Como se mencionó anteriormente, aquí consideramos una población grande pero finita $U$. Se supone que esta población está dividida en $D$ dominios o áreas mutuamente excluyentes y exhaustivos $U_1,...,U_D$ de tamaños $N_1,. . ., N_D$.

Sea $Y_{dj}$ la medida de la variable de interés para el individuo $j$ dentro del área $d$ y sea

\[ \mathbf{y}_d = (Y_{d1}, \ldots, Y_{dNd})^{T} \]

el vector de medidas para el área d. Los parámetros objetivo tienen la forma $\delta_d= h(\mathbf{y}_d)$ con $d=1,...,D$ para una función medible conocida $h$.

Los parámetros objetivo particulares de interés común son las medias de los dominios:

\[ \delta_d= {\overline{Y}}_d = N^{-1}_d \sum_{j=1}^{N_d} Y_{dj} \]

donde $d=1,...,D$

La estimación de los parámetros objetivo se basa en una muestra $s$ extraída de la población $U$. Sea $s_d$ la submuestra del dominio $U_d$ de tamaño $n_d$, $d = 1,...,D,$ donde

\[ \sum_{d=1}^{D} n_d \]

es el tamaño total de la muestra.

Denotaremos por $r_d = U_d - s_d$ el complemento de la muestra del dominio $d$ de tamaño $N_d - n_d$, para $d=1,...,D$.

La estimación de los parámetros de área

\[ \delta_d= h(\mathbf{y}_d) \]

donde $d=1,...,D$

se puede realizar utilizando modelos de área o de nivel de unidad. En los modelos de nivel de área, la información auxiliar viene en forma de valores agregados de algunas variables explicativas en los dominios, típicamente medias de área verdaderas. En contraste, los modelos de nivel de unidad hacen uso de los valores individuales de las variables explicativas.

El paquete sae contiene funciones que proporcionan estimadores de área pequeña bajo ambos tipos de modelos. Las funciones para la estimación puntual basadas en modelos de nivel de área incluyen eblupFH(), eblupSFH() y eblupSTFH(). Las funciones para datos de nivel de unidad son eblupBHF() y ebBHF(). También se incluyen funciones para la estimación de las medidas de precisión habituales. A continuación, describimos los modelos asumidos y el uso de estas funciones, incluidos ejemplos de uso. El paquete sae depende de los paquetes nlme (Pinheiro et al., 2013) y MASS (Venables y Ripley, 2002). Los ejemplos de estas funciones se han ejecutado en la versión x64 3.1.3 de R.

6 EBLUPs basados en un modelo FH

Un modelo básico a nivel de área es el Fay Herriot (FH) introducido por Fay y Herriot (1979) para obtener estimadores de áreas pequeñas del ingreso mediano en pequeños lugares de EEUU. Este modelo está definido a en dos etapas.

Sea ${\hat{\delta_d}}^{DIR}$ un estimador directo de $\delta_d$

1 etapa: asumimos que dado $\delta_d$, ${\hat{\delta_d}}^{DIR}$ es un estimador insesgado de $\delta_d$, mas concretamente:

${\hat{\delta_d}}^{DIR} = \delta_d + e_d$

$e_d \overset{\text{ind}}{\sim} N(0,\Psi_d)$

$d = 1,..., D$

donde $\Psi_d$ es la varianza de la muestra del estimador directo ${\hat{\delta_d}}^{DIR}$ dado ${\delta_d}$, que se asume conocido para todo $d = 1,..., D$.

2 etapa: Asumimos que los parametros de area ${\delta_d}$ estan linealmente relacionados con un p-vector $\mathbf{x}_d$ de variables auxiliares de nivel de area como sigue:

$\delta_d = \mathbf{x}_d^T\boldsymbol{\beta}$

$u_d \overset{\text{ind}}{\sim} N(0,A)$

$d = 1,..., D$

el modelo (2) es llamado el modelo vinculado porque relaciona todas las areas a traves de los coeficientes de regresion comun $\boldsymbol{\beta}$ permitiendonos sacar fuerza de todas las areas. El modelo (1) se llama modelo de muestreo porque representa la incertidumbre debido al hecho de que $\delta_d$ no es observable y, en vez de $\delta_d$, observamos su estimador directo basado en la muestra ${\hat{\delta_d}}^{DIR}$.

Combinando los dos componentes del modelo, obtenemos el modelo lineal mixto:

$\delta_d = \mathbf{x}_d^T\boldsymbol{\beta} + u_d +e_d$

$e_d \overset{\text{ind}}{\sim} N(0,\Psi_d)$

$d = 1,..., D$

Donde:

$u_d \overset{\text{ind}}{\sim} N(0,A)$

$d = 1,..., D$

y $u_d$ es independiente de $e_d$ para todo d. No es necesaria la normalidad para la estimacion de punto pero es requerida para la estimacion del error cuadratico medio.

Henderson (1975) obtuvo el mejor predictor lineal insesgado (BLUP) de los efectos mixtos como una combinacion lineal de los efectos fijos y aleatorios $\boldsymbol{\beta}$ y $ = (u_1,…,u_D)^T $

7 Ejemplo 1 Fay-Herriot (FH) Model

Gasto medio en leche fresca

La información detallada de la encuesta a nivel de unidad conlleva el riesgo de que los usuarios de los datos puedan identificar personas en los datos. A eso lo llamamos riesgo de divulgación. Por lo tanto, especialmente cuando estamos interesados en información regional detallada, generalmente solo obtenemos acceso a información agregada de encuestas. En ese caso, no podemos calcular el modelo Battese-Harter-Fuller. Pero podemos calcular el modelo de Fay-Herriot (FH).

Ilustramos el modelo FH utilizando un conjunto de datos sobre los gastos del consumidor de leche entera fresca del paquete sae y el Ejemplo 1 en el artículo asociado de R Journal.

## Warning: package 'sae' was built under R version 4.4.2

## Cargando paquete requerido: lme4

## Cargando paquete requerido: Matrix

## 
## Adjuntando el paquete: 'Matrix'

## The following objects are masked from 'package:tidyr':
## 
##     expand, pack, unpack

## 
## Adjuntando el paquete: 'lme4'

## The following object is masked from 'package:expss':
## 
##     dummy

## Warning: package 'CMHNPA' was built under R version 4.4.2

milk

##    SmallArea  ni    yi    SD    CV MajorArea
## 1          1 191 1.099 0.163 0.148         1
## 2          2 633 1.075 0.080 0.074         1
## 3          3 597 1.105 0.083 0.075         1
## 4          4 221 0.628 0.109 0.174         1
## 5          5 195 0.753 0.119 0.158         1
## 6          6 191 0.981 0.141 0.144         1
## 7          7 183 1.257 0.202 0.161         1
## 8          8 188 1.095 0.127 0.116         2
## 9          9 204 1.405 0.168 0.120         2
## 10        10 188 1.356 0.178 0.131         2
## 11        11 149 0.615 0.100 0.163         2
## 12        12 290 1.460 0.201 0.138         2
## 13        13 250 1.338 0.148 0.111         2
## 14        14 194 0.854 0.143 0.167         2
## 15        15 184 1.176 0.149 0.127         3
## 16        16 193 1.111 0.145 0.131         3
## 17        17 218 1.257 0.135 0.107         3
## 18        18 266 1.430 0.172 0.120         3
## 19        19 214 1.278 0.137 0.107         3
## 20        20 213 1.292 0.163 0.126         3
## 21        21 196 1.002 0.125 0.125         3
## 22        22  95 1.183 0.247 0.209         3
## 23        23 195 1.044 0.140 0.134         3
## 24        24 187 1.267 0.171 0.135         3
## 25        25 479 1.193 0.106 0.089         3
## 26        26 230 0.791 0.121 0.153         4
## 27        27 186 0.795 0.121 0.152         4
## 28        28 199 0.759 0.259 0.341         4
## 29        29 238 0.796 0.106 0.133         4
## 30        30 207 0.565 0.089 0.158         4
## 31        31 165 0.886 0.225 0.254         4
## 32        32 153 0.952 0.205 0.215         4
## 33        33 210 0.807 0.119 0.147         4
## 34        34 383 0.582 0.067 0.115         4
## 35        35 255 0.684 0.106 0.155         4
## 36        36 226 0.787 0.126 0.160         4
## 37        37 224 0.440 0.092 0.209         4
## 38        38 212 0.759 0.132 0.174         4
## 39        39 211 0.770 0.100 0.130         4
## 40        40 179 0.800 0.113 0.141         4
## 41        41 312 0.756 0.083 0.110         4
## 42        42 241 0.865 0.121 0.140         4
## 43        43 205 0.640 0.129 0.202         4

FH <- mseFH(yi ~ as.factor(MajorArea), SD^2)
cv.FH <- 100 * sqrt(FH$mse) / FH$est$eblup
results <- data.frame(Area = SmallArea, SampleSize = ni, DIR = yi, cv.DIR = 100 * CV, eblup.FH = FH$est$eblup, cv.FH)
detach(milk)

results

##    Area SampleSize   DIR cv.DIR  eblup.FH     cv.FH
## 1     1        191 1.099   14.8 1.0219703 11.352403
## 2     2        633 1.075    7.4 1.0476018  6.996924
## 3     3        597 1.105    7.5 1.0679513  7.070690
## 4     4        221 0.628   17.4 0.7608170 12.147669
## 5     5        195 0.753   15.8 0.8461574 11.567045
## 6     6        191 0.981   14.4 0.9743727 11.087205
## 7     7        183 1.257   16.1 1.0584523 11.922956
## 8     8        188 1.095   11.6 1.0977762  9.372658
## 9     9        204 1.405   12.0 1.2215449  9.749685
## 10   10        188 1.356   13.1 1.1951455 10.213951
## 11   11        149 0.615   16.3 0.7852155 11.171066
## 12   12        290 1.460   13.8 1.2139456 10.528824
## 13   13        250 1.338   11.1 1.2096593  9.265714
## 14   14        194 0.854   16.7 0.9834967 11.192611
## 15   15        184 1.176   12.7 1.1864247  9.245168
## 16   16        193 1.111   13.1 1.1556982  9.363068
## 17   17        218 1.257   10.7 1.2263411  8.497657
## 18   18        266 1.430   12.0 1.2856486  9.101083
## 19   19        214 1.278   10.7 1.2363247  8.496640
## 20   20        213 1.292   12.6 1.2349600  9.260742
## 21   21        196 1.002   12.5 1.0903019  9.148186
## 22   22         95 1.183   20.9 1.1923057 11.013645
## 23   23        195 1.044   13.4 1.1216470  9.474046
## 24   24        187 1.267   13.5 1.2230296  9.544123
## 25   25        479 1.193    8.9 1.1938054  7.522979
## 26   26        230 0.791   15.3 0.7627195 12.579118
## 27   27        186 0.795   15.2 0.7649550 12.542356
## 28   28        199 0.759   34.1 0.7338443 17.491779
## 29   29        238 0.796   13.3 0.7699294 11.471331
## 30   30        207 0.565   15.8 0.6134418 12.730461
## 31   31        165 0.886   25.4 0.7695558 16.147508
## 32   32        153 0.952   21.5 0.7958250 15.213103
## 33   33        210 0.807   14.7 0.7723187 12.300416
## 34   34        383 0.582   11.5 0.6102302 10.195438
## 35   35        255 0.684   15.5 0.7001782 12.614096
## 36   36        226 0.787   16.0 0.7592787 12.935271
## 37   37        224 0.440   20.9 0.5298867 15.102680
## 38   38        212 0.759   17.4 0.7434466 13.555139
## 39   39        211 0.770   13.0 0.7548996 11.248033
## 40   40        179 0.800   14.1 0.7701918 11.949505
## 41   41        312 0.756   11.0 0.7481164  9.899508
## 42   42        241 0.865   14.0 0.8040773 11.932110
## 43   43        205 0.640   20.2 0.6810870 14.611491

results <- results[order(results$SampleSize, decreasing = TRUE), ]
# Figure 1 left
plot(results$DIR, type = "n", ylab = "Estimate", ylim = c(0.4, 1.6),xlab = "area (sorted by decreasing sample size)", cex.axis = 1.5,cex.lab = 1.5)
points(results$DIR, type = "b", col = 1, lwd = 2, pch = 1, lty = 1)
points(results$eblup.FH, type = "b", col = 4, lwd = 2, pch = 4, lty = 2)
legend("top", legend = c("Direct", "EBLUP FH"), ncol = 2, col = c(1, 4), lwd = 2,pch = c(1, 4), lty = c(1, 2), cex = 1.3)

plot(results$cv.DIR, type = "n", ylab = "CV", ylim = c(5, 40), xlab = "area (sorted by decreasing sample size)", cex.axis = 1.5, cex.lab = 1.5)
points(results$cv.DIR, type = "b", col = 1, lwd = 2, pch = 1, lty = 1)
points(results$cv.FH, type = "b", col = 4, lwd = 2, pch = 4, lty = 2)
legend("top", legend = c("Direct", "EBLUP FH"), ncol = 2, col = c(1, 4), lwd = 2, pch = c(1, 4), lty = c(1, 2), cex = 1.3)

8 Ejemplo 4. Modelo Battese-Harter-Fuller (BHF)

8.1 Hectáreas promedio cultivadas de maíz por condado.

Ilustramos el modelo BHF utilizando datos a nivel de condado sobre la producción de maíz y soja del paquete sae y el jemplo 4 en el artículo asociado del R Journal. También es la aplicación utilizada en el artículo original de Battese, Harter y Fuller (1988), que da nombre al modelo BHF.

Usamos dos conjuntos de datos para el modelo. Los conjuntos de datos cornsoybean y cornsoybeanmeans contienen información de encuestas y satélites sobre la producción de maíz y soja en 37 segmentos muestreados de 12 condados del Estado estadounidense de Iowa.

Con los datos, queremos estimar las hectareas promedio cultivadas de maíz por condado.

En terminología de áreas pequeñas: los 12 condados son los dominios de interés; las hectáreas cultivadas promedio de maíz por condado los parámetros de interés.

Para calcular el modelo BHF necesitamos información de encuesta a nivel de unidad sobre nuestra variable de interés. En esta aplicación: El número de hectáreas de maíz por segmento muestreado.

Encuesta enumerativa de junio de 1978 del Departamento de Agricultura de EE. UU.

8.1.1 cornsoybean:

County, condado

CornHec, hectáreas de maíz reportadas en la encuesta en cada muestra segmento dentro de cada condado,

SoyBeansHec, informó hectáreas de soja de la encuesta en cada segmento de muestra dentro del condado,

CornPix, número de píxeles de maíz de datos satelitales y

SoyBeansPix,Número de píxeles de soja a partir de datos satelitales.

library(sae)
library(kableExtra)
# Cargar los datos
data("cornsoybean")
cornsoybean <- cornsoybean[-33, ]
# Crear el data frame
Xmean <- data.frame(cornsoybean[, c("County","CornHec", "SoyBeansHec","CornPix", "SoyBeansPix")])
# Crear y formatear la tabla
kable(Xmean,  align = "c", caption = "Mean Corn and Soybean Pixels per Segment by County") %>%
  kable_styling(bootstrap_options = c("striped", "hover", "condensed", "responsive"), full_width = F)

Mean Corn and Soybean Pixels per Segment by County
	County	CornHec	SoyBeansHec	CornPix	SoyBeansPix
1	1	165.76	8.09	374	55
2	2	96.32	106.03	209	218
3	3	76.08	103.60	253	250
4	4	185.35	6.47	432	96
5	4	116.43	63.82	367	178
6	5	162.08	43.50	361	137
7	5	152.04	71.43	288	206
8	5	161.75	42.49	369	165
9	6	92.88	105.26	206	218
10	6	149.94	76.49	316	221
11	6	64.75	174.34	145	338
12	7	127.07	95.67	355	128
13	7	133.55	76.57	295	147
14	7	77.70	93.48	223	204
15	8	206.39	37.84	459	77
16	8	108.33	131.12	290	217
17	8	118.17	124.44	307	258
18	9	99.96	144.15	252	303
19	9	140.43	103.60	293	221
20	9	98.95	88.59	206	222
21	9	131.04	115.58	302	274
22	10	114.12	99.15	313	190
23	10	100.60	124.56	246	270
24	10	127.88	110.88	353	172
25	10	116.90	109.14	271	228
26	10	87.41	143.66	237	297
27	11	93.48	91.05	221	167
28	11	121.00	132.33	369	191
29	11	109.91	143.14	343	249
30	11	122.66	104.13	342	182
31	11	104.21	118.57	294	179
32	12	88.59	102.59	220	262
34	12	165.35	69.28	355	160
35	12	104.00	99.15	261	221
36	12	88.63	143.66	187	345
37	12	153.70	94.49	350	190

Además, necesitamos información auxiliar. Nos interesan los promedios del dominio. El promedio es una función lineal en sus datos de entrada. Para funciones lineales, necesitamos conocer los tamaños de dominio. En esta aplicación eso significa: Necesitamos saber cuántos segmentos hay por condado. Para todas las variables auxiliares, necesitamos tener acceso a las medias del dominio y a la información a nivel de unidad para cada unidad muestreada en la encuesta.

La muestra de datos de la encuesta a nivel de unidad de maíz y soja consta de 37 observaciones. Al igual que en la aplicacion original, la observación 33 se identifica como un valor atípico y se excluye. Cada una de las 36 líneas de datos restantes contiene información sobre un segmento muestreado de un condado. De la encuesta tenemos información de las variables CornHec y SoyBeansHec, el número de hectáreas con maíz y soja en los segmentos muestreados.

cornsoybean es un conjunto de datos a nivel de unidad, ya que los segmentos son las unidades de muestreo de la encuesta. Las variables CornPix y SoyBeansPix denotan el número de píxeles de maíz y soja por segmento, recopilados a partir de datos satelitales adicionales.

Para calcular el modelo BHF, además necesitamos saber el número de segmentos por dominio, que corresponde a los tamaños de dominio. Además, necesitamos las medias de dominio de las variables auxiliares. La información está disponible en el conjunto de datos cornsoybeanmeans, recopilado a partir de datos satelitales.

Imágenes de la tierra satélites de observatorio (LANDSAT) durante la temporada de crecimiento de 1978.

8.1.2 cornsoybeanmeans:

SampSegments, número de segmentos de muestra en el condado (tamaño de muestra),

PopnSegments, número de segmentos de población en el condado (tamaño de la población),

MeanCornPixPerSeg, media del número del condado de píxeles de maíz por segmento, y

MeanSoyBeansPixPerSeg, media del condado del número de granos de soja píxeles por segmento (medias del condado de variables auxiliares).

cornsoybeanmeans

library(sae)
library(kableExtra)
# Cargar los datos
data("cornsoybeanmeans")
# Crear el data frame
Xmean <- data.frame(cornsoybeanmeans[, c("CountyName", "SampSegments","PopnSegments", "MeanCornPixPerSeg", "MeanSoyBeansPixPerSeg")])


# Crear y formatear la tabla
kable(Xmean,  align = "c", caption = "Mean Corn and Soybean Pixels per Segment by County") %>%
  kable_styling(bootstrap_options = c("striped", "hover", "condensed", "responsive"), full_width = F)

Mean Corn and Soybean Pixels per Segment by County
CountyName	SampSegments	PopnSegments	MeanCornPixPerSeg	MeanSoyBeansPixPerSeg
CerroGordo	1	545	295.29	189.70
Hamilton	1	566	300.40	196.65
Worth	1	394	289.60	205.28
Humboldt	2	424	290.74	220.22
Franklin	3	564	318.21	188.06
Pocahontas	3	570	257.17	247.13
Winnebago	3	402	291.77	185.37
Wright	3	567	301.26	221.36
Webster	4	687	262.17	247.09
Hancock	5	569	314.28	198.66
Kossuth	5	965	298.65	204.61
Hardin	6	556	325.99	177.05

De cornsoybeanmeans tenemos el número medio de píxeles de maíz MeanCornPixPerSeg y píxeles de soja MeanSoyBeansPixPerSeg por segmento y el número total de segmentos PopnSegments para cada uno de los 12 condados.

Tenemos todos los datos que necesitamos. Calculemos el modelo BHF.

BHF_CV <- 100 * sqrt(mod_BHF$mse$mse) / mod_BHF$est$eblup$eblup

library(sae)
library(kableExtra)

salida <- data.frame(County_name  = cornsoybeanmeans$CountyName,
           Sample_Size  = mod_BHF$est$eblup$sampsize,
           BHF_EBLUP    = round(mod_BHF$est$eblup$eblup, digits = 2), 
           BHF_CV       = round(BHF_CV, digits = 2))

# Crear y formatear la tabla
kable(salida,  align = "c", caption = "mod_BHF") %>%
  kable_styling(bootstrap_options = c("striped", "hover", "condensed", "responsive"), full_width = F)

mod_BHF
County_name	Sample_Size	BHF_EBLUP	BHF_CV
CerroGordo	1	122.20	8.07
Hamilton	1	126.23	7.83
Worth	1	106.66	9.33
Humboldt	2	108.42	7.60
Franklin	3	144.31	4.88
Pocahontas	3	112.16	6.02
Winnebago	3	112.78	5.95
Wright	3	122.00	5.70
Webster	4	115.34	4.81
Hancock	5	124.41	4.50
Kossuth	5	106.89	4.53
Hardin	5	143.03	3.50

The BHF model returns a list. With $est$eblup, we can extract the Empirical Best Linear Unbiased Predictors (EBLUPs) of the model. With $mse, we can extract the estimated Mean Squared Error (MSE) of the EBLUPs. The MSE is estimated using a parametric bootstrap procedure. To make the bootstrap results reproducible, we set a seed.

The MSE is an absolute measure. Often, relative measures give us a better picture of precision. We therefore calculate the coefficient of variation (CV), CV = root MSE of estimated value / estimated value * 100.

Acabamos de calcular un modelo BHF. Con el modelo BHF predijimos el número medio de hectáreas de maíz en 12 condados del estado estadounidense de Iowa utilizando datos satelitales como información auxiliar, ver columna BHF_EBLUP. Las predicciones oscilan entre 106,66 y 144,31. El correspondiente coeficiente de variación (CV) nos muestra la dispersión relativa estimada de estas predicciones.

https://statisticsglobe.com/small-area-estimation

Técnicas de estimación de áreas pequeñas | Análisis de ingresos, pobreza y salud

Cuando trabaja con medidas de ingresos, salud o pobreza a pequeña escala, probablemente se haya encontrado con técnicas de estimación de áreas pequeñas (SAE). Las técnicas SAE afectan nuestra vida cotidiana, ya que a menudo sirven como base de datos para la toma de decisiones políticas. Por ejemplo, el Banco Mundial utiliza técnicas SAE para el mapeo de la pobreza, la Oficina del Censo de los EE. UU. las utiliza para las estimaciones de ingresos y pobreza de áreas pequeñas (SAIPE). En esta publicación, le brindamos una descripción general sobre las técnicas SAE. Si es nuevo en las estadísticas de encuestas, no se preocupe, también resumimos algunos conceptos básicos de las encuestas antes de pasar a la estimación de áreas pequeñas.

Cubrimos los siguientes temas:

Conceptos básicos de encuestas
Estimación de áreas pequeñas
El modelo Fay-Herriot
El modelo Battese-Harter-Fuller
Notas adicionales sobre los modelos de áreas pequeñas
Video, recursos adicionales y resumen

Conceptos básicos de las encuestas

Para comprender la estimación de áreas pequeñas, necesitamos tener una idea de la estimación de encuestas y comprender los términos dominio, estimador directo, estimador indirecto, error cuadrático medio (MSE) y varianza. Si ya conoce estos términos, puede pasar directamente a la siguiente sección.

¿Qué es una muestra de encuesta?

Para tomar decisiones políticas, necesitamos datos confiables. Por eso, las estadísticas oficiales realizan encuestas a nivel nacional, como un censo o encuestas anuales de hogares. En una encuesta, se extrae una muestra aleatoria de la población objetivo, por ejemplo, los ciudadanos de un país, y se entrevista a los encuestados. Con esta muestra, podemos estimar cantidades de la población, como el número total de personas en una clase de edad específica, o indicadores socioeconómicos de pobreza o salud.

¿Qué es un dominio o un área?

Las estimaciones para la población total están bien, pero sobre todo nos interesa información mucho más detallada específica del dominio. Un dominio es un subgrupo de población, también llamado área o subpoblación. Los dominios se pueden definir por aspectos regionales, temporales o demográficos, así como por combinaciones de estos tres. Por ejemplo, podemos definir nuestros dominios de interés como combinaciones cruzadas de 5 estados X 5 clases de edad X 12 meses (un total de 300 dominios). Los estados son información regional, los meses son información específica del tiempo y las clases de edad son información demográfica. Con una encuesta, queremos obtener estimaciones para varias variables como pobreza, condiciones de vida o empleo en varios niveles de dominio, por ejemplo, para estados, condados y distritos escolares.

https://statisticsglobe.com/small-area-estimation-r

Informe Metodológico

Estimaciones Comunales de Pobreza por ingresos en Chile Mediante Métodos de Estimación en Áreas Pequeñas

División Observatorio Social MDSF – CEPAL Diciembre 2021

https://observatorio.ministeriodesarrollosocial.gob.cl/storage/docs/pobreza-comunal/2020/Informe_SAE_2020.pdf

https://statisticsglobe.com/fay-herriot-model-small-area

La matemática detrás del modelo Fay-Herriot

Christian Castro

2025-01-31

1 Resumen

2 El paquete R de un vistazo

3 Introducción

4 Inferencia basada en diseño versus inferencia basada en modelo

5 Notación

6 EBLUPs basados en un modelo FH

7 Ejemplo 1 Fay-Herriot (FH) Model

8 Ejemplo 4. Modelo Battese-Harter-Fuller (BHF)

8.1 Hectáreas promedio cultivadas de maíz por condado.

8.1.1 cornsoybean:

8.1.2 cornsoybeanmeans: