https://journal.r-project.org/archive/2015/RJ-2015-007/RJ-2015-007.pdf
sae: Un paquete R para la estimación de áreas pequeñas
por Isabel Molina y Yolanda Marhuenda
Describimos el paquete R sae para la estimación de áreas pequeñas. Este paquete se puede utilizar para obtener estimaciones basadas en modelos para áreas pequeñas basadas en una variedad de modelos a nivel de área y unidad, junto con estimaciones directas e indirectas básicas. Los errores cuadráticos medios se estiman mediante aproximaciones analíticas en modelos simples y aplicando procedimientos bootstrap en modelos más complejos. Describimos las funciones del paquete y mostramos cómo utilizarlas a través de ejemplos.
El paquete R sae implementa métodos de estimación de áreas pequeñas bajo los siguientes modelos de nivel de área:
• Modelo Fay-Herriot (incluidos los métodos de ajuste comunes);
• Modelo Fay-Herriot extendido que tiene en cuenta la correlación espacial;
• Modelo Fay-Herriot extendido que permite la correlación espacio-temporal.
El paquete también incluye métodos de estimación de áreas pequeñas basados en el modelo de nivel de unidad básico llamado modelo de regresión lineal de error anidado. Los métodos de estimación disponibles bajo este modelo son:
• Mejores predictores lineales insesgados empíricos (EBLUP) de medias de área bajo el modelo de regresión lineal de error anidado para la variable objetivo.
• Estimaciones empíricas Best/Bayes(EB) de parámetros generales de área no lineal bajo el modelo de regresión lineal de error anidado para transformaciones de Box-Cox o de potencia de la variable objetivo.
También se incluyen métodos para la estimación de las medidas de incertidumbre correspondientes de los estimadores de área pequeña obtenidos a partir de los modelos anteriores. Además, el paquete incluye los siguientes estimadores directos e indirectos básicos:
• Estimadores directos de Horvitz-Thompson de medias de área pequeña bajo diseños de muestreo general;
• Estimador sintético posestratificado;
• Estimador compuesto.
Este documento describe las técnicas de estimación de área pequeña basadas en el modelo anterior e ilustra el uso de las funciones correspondientes a través de ejemplos adecuados. Para obtener una descripción de los estimadores directos e indirectos básicos incluidos en el paquete y una descripción detallada de toda la metodología implementada, consulte http://CRAN.R-project.org/package=sae.
La creciente demanda de información más oportuna y detallada, junto con el alto costo de las entrevistas, a menudo conduce a una explotación extensiva de los datos de las encuestas. De hecho, muchas veces los datos de las encuestas se utilizan para producir estimaciones en dominios o áreas más pequeños que aquellos para los que se planeó originalmente la encuesta. Para un área con un tamaño de muestra pequeño, un estimador directo, basado solo en los datos de muestra provenientes de esa área, puede ser muy poco confiable. Esta limitación del tamaño de la muestra impide la producción de cifras estadísticas al nivel solicitado y, por lo tanto, restringe la disponibilidad de información estadística para el público o el usuario particular. Por el contrario, un estimador indirecto para un área también utiliza datos externos de otras áreas para aumentar la eficiencia al aumentar el tamaño efectivo de la muestra. Entre los estimadores indirectos, encontramos aquellos basados en modelos de regresión explícitos, llamados estimadores basados en modelos. Estos estimadores se basan en el supuesto de una relación entre la variable objetivo y algunas variables explicativas que es constante en todas las áreas. Los parámetros comunes del modelo se estiman utilizando el conjunto de datos de muestra, lo que a menudo conduce a estimadores de áreas pequeñas con una eficiencia apreciablemente mejor que los estimadores directos, siempre que se cumplan los supuestos del modelo. Por lo tanto, estas técnicas brindan cifras estadísticas a un nivel muy desagregado sin aumentar el tamaño de las muestras específicas del área y, por lo tanto, sin aumentar el costo de la encuesta. Los métodos de estimación de áreas pequeñas (SAE) incluidos en el paquete R sae tienen aplicaciones en muchos campos diferentes, como las estadísticas oficiales, la agricultura, la ecología, la medicina y la ingeniería. Para una descripción completa de las técnicas SAE, consulte Rao (2003).
El paquete R sae está diseñado principalmente para la estimación de áreas pequeñas basada en modelos. No obstante, se incluyen estimadores directos e indirectos simples con fines didácticos y para permitir al usuario realizar comparaciones cruzadas entre los métodos indirectos muy simples y los métodos basados en modelos más avanzados. Los estimadores puntuales basados en modelos se pueden complementar con sus correspondientes errores cuadráticos medios (MSE) estimados, que se calculan utilizando aproximaciones analíticas en algunos casos y procedimientos bootstrap en otros casos.
Los modelos a nivel de área se utilizan para obtener estimadores de áreas pequeñas cuando solo se dispone de datos auxiliares como agregados de áreas. El modelo básico a nivel de área es el modelo Fay-Herriot (FH) (Fay y Herriot, 1979). Las estimaciones de áreas pequeñas basadas en este modelo y las estimaciones analíticas de MSE se pueden obtener utilizando las funciones eblupFH() y mseFH() respectivamente.
Una extensión del modelo FH básico al caso de correlación espacial (inexplicada) entre datos de áreas vecinas es el modelo espacial Fay-Herriot (SFH). La función eblupSFH considera el modelo SFH en el que se supone que los efectos de área siguen un proceso autorregresivo simultáneo de orden uno o proceso SAR(1). Las estimaciones de áreas pequeñas complementadas con estimaciones analíticas de MSE se pueden obtener utilizando la función mseSFH(). Alternativamente, las estimaciones de MSE bootstrap paramétricas y no paramétricas para los estimadores de áreas pequeñas obtenidos a partir del modelo SFH se dan mediante las funciones pbmseSFH() y npbmseSFH() respectivamente.
Se puede utilizar un modelo Fay-Herriot espacio-temporal (STFH) cuando se dispone de datos de varios periodos de tiempo y también hay correlación espacial. Aparte de los efectos de área que siguen un proceso SAR(1), el modelo STFH considerado por la función eblupSTFH() incluye efectos de tiempo anidados dentro de áreas, siguiendo para cada dominio un proceso autorregresivo i.i.d. de orden 1 o AR(1). La función pbmseSTFH() proporciona estimaciones de áreas pequeñas y estimaciones de MSE de bootstrap paramétrico.
Cuando se dispone de información auxiliar a nivel de unidad, los estimadores básicos de áreas pequeñas son aquellos basados en el modelo de regresión lineal de error anidado de Battese et al. (1988), llamado en adelante modelo BHF. La función eblupBHF() proporciona estimaciones de medias de áreas pequeñas basadas en el modelo BHF. Las estimaciones de MSE de bootstrap paramétrico se obtienen llamando a la función pbmseBHF().
Los parámetros generales de áreas pequeñas obtenidos como una función no lineal de la variable de respuesta en el modelo, como los indicadores de pobreza basados en el ingreso, se pueden estimar bajo el modelo BHF utilizando la función ebBHF(). La función pbmseebBHF() proporciona las estimaciones de MSE bootstrap paramétricas correspondientes.
El documento está estructurado de la siguiente manera. Primero, analizamos las diferencias entre la inferencia basada en el diseño y el modelo y presentamos la notación utilizada en todo el documento. Luego, describimos uno por uno los métodos SAE basados en el modelo implementados en el paquete. Para cada método, describimos brevemente la teoría subyacente y el uso de las funciones, incluidos ejemplos adecuados. Finalmente, resumimos otro software existente para la estimación de áreas pequeñas.
En el muestreo de encuestas, la población es una colección finita de unidades distinguibles y contables. Se supone que las mediciones de la variable objetivo en las unidades de población no son estocásticas y el objetivo es estimar características de la población, es decir, funciones de las mediciones de población de la variable de estudio en las unidades de población, que en consecuencia también son no estocásticas. Una muestra es simplemente una colección de unidades de población y la inferencia se lleva a cabo típicamente bajo la distribución de probabilidad inducida por el mecanismo aleatorio utilizado para extraer la muestra, es decir, el diseño de muestreo. Por lo tanto, las propiedades deseables de los estimadores, como la imparcialidad, se establecen en términos de promedios sobre todas las muestras posibles.
En la inferencia basada en modelos, el término población se refiere simplemente a una variable aleatoria y, en el caso más simple, la muestra es una colección de variables independientes distribuidas de manera idéntica a la variable aleatoria original. Los parámetros de interés son características de la distribución de probabilidad de la variable aleatoria original, como los momentos, que se supone que son fijos en la configuración frecuentista.
En la estimación de áreas pequeñas, las subpoblaciones de interés se denominan indistintamente áreas o dominios. Se supone que estas áreas son finitas, aunque suelen ser grandes. Sin embargo, debido a la falta de datos de muestra dentro de esas áreas, se necesitan modelos para vincular todas las áreas a través de algunos parámetros comunes para “tomar prestada la fuerza” de las áreas relacionadas y luego mejorar la eficiencia siempre que se cumplan los supuestos del modelo. Por lo tanto, los métodos de áreas pequeñas basados en modelos combinan la configuración de población finita con la aleatoriedad de las mediciones de la variable de interés en las unidades de población, que se supone que siguen un modelo de regresión. En consecuencia, las cantidades objetivo, definidas como funciones de las mediciones de población, también son aleatorias.
Como se mencionó anteriormente, aquí consideramos una población grande pero finita \(U\). Se supone que esta población está dividida en \(D\) dominios o áreas mutuamente excluyentes y exhaustivos \(U_1,...,U_D\) de tamaños \(N_1,. . ., N_D\).
Sea \(Y_{dj}\) la medida de la variable de interés para el individuo \(j\) dentro del área \(d\) y sea
\[ \mathbf{y}_d = (Y_{d1}, \ldots, Y_{dNd})^{T} \]
el vector de medidas para el área d. Los parámetros objetivo tienen la forma \(\delta_d= h(\mathbf{y}_d)\) con \(d=1,...,D\) para una función medible conocida \(h\).
Los parámetros objetivo particulares de interés común son las medias de los dominios:
\[ \delta_d= {\overline{Y}}_d = N^{-1}_d \sum_{j=1}^{N_d} Y_{dj} \]
donde \(d=1,...,D\)
La estimación de los parámetros objetivo se basa en una muestra \(s\) extraída de la población \(U\). Sea \(s_d\) la submuestra del dominio \(U_d\) de tamaño \(n_d\), \(d = 1,...,D,\) donde
\[ \sum_{d=1}^{D} n_d \]
es el tamaño total de la muestra.
Denotaremos por \(r_d = U_d - s_d\) el complemento de la muestra del dominio \(d\) de tamaño \(N_d - n_d\), para \(d=1,...,D\).
La estimación de los parámetros de área
\[ \delta_d= h(\mathbf{y}_d) \]
donde \(d=1,...,D\)
se puede realizar utilizando modelos de área o de nivel de unidad. En los modelos de nivel de área, la información auxiliar viene en forma de valores agregados de algunas variables explicativas en los dominios, típicamente medias de área verdaderas. En contraste, los modelos de nivel de unidad hacen uso de los valores individuales de las variables explicativas.
El paquete sae contiene funciones que proporcionan estimadores de área pequeña bajo ambos tipos de modelos. Las funciones para la estimación puntual basadas en modelos de nivel de área incluyen eblupFH(), eblupSFH() y eblupSTFH(). Las funciones para datos de nivel de unidad son eblupBHF() y ebBHF(). También se incluyen funciones para la estimación de las medidas de precisión habituales. A continuación, describimos los modelos asumidos y el uso de estas funciones, incluidos ejemplos de uso. El paquete sae depende de los paquetes nlme (Pinheiro et al., 2013) y MASS (Venables y Ripley, 2002). Los ejemplos de estas funciones se han ejecutado en la versión x64 3.1.3 de R.
Un modelo básico a nivel de área es el Fay Herriot (FH) introducido por Fay y Herriot (1979) para obtener estimadores de áreas pequeñas del ingreso mediano en pequeños lugares de EEUU. Este modelo está definido a en dos etapas.
Sea \({\hat{\delta_d}}^{DIR}\) un estimador directo de \(\delta_d\)
1 etapa: asumimos que dado \(\delta_d\), \({\hat{\delta_d}}^{DIR}\) es un estimador insesgado de \(\delta_d\), mas concretamente:
\({\hat{\delta_d}}^{DIR} = \delta_d + e_d\)
\(e_d \overset{\text{ind}}{\sim} N(0,\Psi_d)\)
\(d = 1,..., D\)
donde \(\Psi_d\) es la varianza de la muestra del estimador directo \({\hat{\delta_d}}^{DIR}\) dado \({\delta_d}\), que se asume conocido para todo \(d = 1,..., D\).
2 etapa: Asumimos que los parametros de area \({\delta_d}\) estan linealmente relacionados con un p-vector \(\mathbf{x}_d\) de variables auxiliares de nivel de area como sigue:
\(\delta_d = \mathbf{x}_d^T\boldsymbol{\beta}\)
\(u_d \overset{\text{ind}}{\sim} N(0,A)\)
\(d = 1,..., D\)
el modelo (2) es llamado el modelo vinculado porque relaciona todas las areas a traves de los coeficientes de regresion comun \(\boldsymbol{\beta}\) permitiendonos sacar fuerza de todas las areas. El modelo (1) se llama modelo de muestreo porque representa la incertidumbre debido al hecho de que \(\delta_d\) no es observable y, en vez de \(\delta_d\), observamos su estimador directo basado en la muestra \({\hat{\delta_d}}^{DIR}\).
Combinando los dos componentes del modelo, obtenemos el modelo lineal mixto:
\(\delta_d = \mathbf{x}_d^T\boldsymbol{\beta} + u_d +e_d\)
\(e_d \overset{\text{ind}}{\sim} N(0,\Psi_d)\)
\(d = 1,..., D\)
Donde:
\(u_d \overset{\text{ind}}{\sim} N(0,A)\)
\(d = 1,..., D\)
y \(u_d\) es independiente de \(e_d\) para todo d. No es necesaria la normalidad para la estimacion de punto pero es requerida para la estimacion del error cuadratico medio.
Henderson (1975) obtuvo el mejor predictor lineal insesgado (BLUP) de los efectos mixtos como una combinacion lineal de los efectos fijos y aleatorios \(\boldsymbol{\beta}\) y $ = (u_1,…,u_D)^T $
Gasto medio en leche fresca
La información detallada de la encuesta a nivel de unidad conlleva el riesgo de que los usuarios de los datos puedan identificar personas en los datos. A eso lo llamamos riesgo de divulgación. Por lo tanto, especialmente cuando estamos interesados en información regional detallada, generalmente solo obtenemos acceso a información agregada de encuestas. En ese caso, no podemos calcular el modelo Battese-Harter-Fuller. Pero podemos calcular el modelo de Fay-Herriot (FH).
Ilustramos el modelo FH utilizando un conjunto de datos sobre los gastos del consumidor de leche entera fresca del paquete sae y el Ejemplo 1 en el artículo asociado de R Journal.
## Warning: package 'sae' was built under R version 4.4.2
## Cargando paquete requerido: lme4
## Cargando paquete requerido: Matrix
##
## Adjuntando el paquete: 'Matrix'
## The following objects are masked from 'package:tidyr':
##
## expand, pack, unpack
##
## Adjuntando el paquete: 'lme4'
## The following object is masked from 'package:expss':
##
## dummy
## Warning: package 'CMHNPA' was built under R version 4.4.2
milk
## SmallArea ni yi SD CV MajorArea
## 1 1 191 1.099 0.163 0.148 1
## 2 2 633 1.075 0.080 0.074 1
## 3 3 597 1.105 0.083 0.075 1
## 4 4 221 0.628 0.109 0.174 1
## 5 5 195 0.753 0.119 0.158 1
## 6 6 191 0.981 0.141 0.144 1
## 7 7 183 1.257 0.202 0.161 1
## 8 8 188 1.095 0.127 0.116 2
## 9 9 204 1.405 0.168 0.120 2
## 10 10 188 1.356 0.178 0.131 2
## 11 11 149 0.615 0.100 0.163 2
## 12 12 290 1.460 0.201 0.138 2
## 13 13 250 1.338 0.148 0.111 2
## 14 14 194 0.854 0.143 0.167 2
## 15 15 184 1.176 0.149 0.127 3
## 16 16 193 1.111 0.145 0.131 3
## 17 17 218 1.257 0.135 0.107 3
## 18 18 266 1.430 0.172 0.120 3
## 19 19 214 1.278 0.137 0.107 3
## 20 20 213 1.292 0.163 0.126 3
## 21 21 196 1.002 0.125 0.125 3
## 22 22 95 1.183 0.247 0.209 3
## 23 23 195 1.044 0.140 0.134 3
## 24 24 187 1.267 0.171 0.135 3
## 25 25 479 1.193 0.106 0.089 3
## 26 26 230 0.791 0.121 0.153 4
## 27 27 186 0.795 0.121 0.152 4
## 28 28 199 0.759 0.259 0.341 4
## 29 29 238 0.796 0.106 0.133 4
## 30 30 207 0.565 0.089 0.158 4
## 31 31 165 0.886 0.225 0.254 4
## 32 32 153 0.952 0.205 0.215 4
## 33 33 210 0.807 0.119 0.147 4
## 34 34 383 0.582 0.067 0.115 4
## 35 35 255 0.684 0.106 0.155 4
## 36 36 226 0.787 0.126 0.160 4
## 37 37 224 0.440 0.092 0.209 4
## 38 38 212 0.759 0.132 0.174 4
## 39 39 211 0.770 0.100 0.130 4
## 40 40 179 0.800 0.113 0.141 4
## 41 41 312 0.756 0.083 0.110 4
## 42 42 241 0.865 0.121 0.140 4
## 43 43 205 0.640 0.129 0.202 4
FH <- mseFH(yi ~ as.factor(MajorArea), SD^2)
cv.FH <- 100 * sqrt(FH$mse) / FH$est$eblup
results <- data.frame(Area = SmallArea, SampleSize = ni, DIR = yi, cv.DIR = 100 * CV, eblup.FH = FH$est$eblup, cv.FH)
detach(milk)
results
## Area SampleSize DIR cv.DIR eblup.FH cv.FH
## 1 1 191 1.099 14.8 1.0219703 11.352403
## 2 2 633 1.075 7.4 1.0476018 6.996924
## 3 3 597 1.105 7.5 1.0679513 7.070690
## 4 4 221 0.628 17.4 0.7608170 12.147669
## 5 5 195 0.753 15.8 0.8461574 11.567045
## 6 6 191 0.981 14.4 0.9743727 11.087205
## 7 7 183 1.257 16.1 1.0584523 11.922956
## 8 8 188 1.095 11.6 1.0977762 9.372658
## 9 9 204 1.405 12.0 1.2215449 9.749685
## 10 10 188 1.356 13.1 1.1951455 10.213951
## 11 11 149 0.615 16.3 0.7852155 11.171066
## 12 12 290 1.460 13.8 1.2139456 10.528824
## 13 13 250 1.338 11.1 1.2096593 9.265714
## 14 14 194 0.854 16.7 0.9834967 11.192611
## 15 15 184 1.176 12.7 1.1864247 9.245168
## 16 16 193 1.111 13.1 1.1556982 9.363068
## 17 17 218 1.257 10.7 1.2263411 8.497657
## 18 18 266 1.430 12.0 1.2856486 9.101083
## 19 19 214 1.278 10.7 1.2363247 8.496640
## 20 20 213 1.292 12.6 1.2349600 9.260742
## 21 21 196 1.002 12.5 1.0903019 9.148186
## 22 22 95 1.183 20.9 1.1923057 11.013645
## 23 23 195 1.044 13.4 1.1216470 9.474046
## 24 24 187 1.267 13.5 1.2230296 9.544123
## 25 25 479 1.193 8.9 1.1938054 7.522979
## 26 26 230 0.791 15.3 0.7627195 12.579118
## 27 27 186 0.795 15.2 0.7649550 12.542356
## 28 28 199 0.759 34.1 0.7338443 17.491779
## 29 29 238 0.796 13.3 0.7699294 11.471331
## 30 30 207 0.565 15.8 0.6134418 12.730461
## 31 31 165 0.886 25.4 0.7695558 16.147508
## 32 32 153 0.952 21.5 0.7958250 15.213103
## 33 33 210 0.807 14.7 0.7723187 12.300416
## 34 34 383 0.582 11.5 0.6102302 10.195438
## 35 35 255 0.684 15.5 0.7001782 12.614096
## 36 36 226 0.787 16.0 0.7592787 12.935271
## 37 37 224 0.440 20.9 0.5298867 15.102680
## 38 38 212 0.759 17.4 0.7434466 13.555139
## 39 39 211 0.770 13.0 0.7548996 11.248033
## 40 40 179 0.800 14.1 0.7701918 11.949505
## 41 41 312 0.756 11.0 0.7481164 9.899508
## 42 42 241 0.865 14.0 0.8040773 11.932110
## 43 43 205 0.640 20.2 0.6810870 14.611491
results <- results[order(results$SampleSize, decreasing = TRUE), ]
# Figure 1 left
plot(results$DIR, type = "n", ylab = "Estimate", ylim = c(0.4, 1.6),xlab = "area (sorted by decreasing sample size)", cex.axis = 1.5,cex.lab = 1.5)
points(results$DIR, type = "b", col = 1, lwd = 2, pch = 1, lty = 1)
points(results$eblup.FH, type = "b", col = 4, lwd = 2, pch = 4, lty = 2)
legend("top", legend = c("Direct", "EBLUP FH"), ncol = 2, col = c(1, 4), lwd = 2,pch = c(1, 4), lty = c(1, 2), cex = 1.3)
plot(results$cv.DIR, type = "n", ylab = "CV", ylim = c(5, 40), xlab = "area (sorted by decreasing sample size)", cex.axis = 1.5, cex.lab = 1.5)
points(results$cv.DIR, type = "b", col = 1, lwd = 2, pch = 1, lty = 1)
points(results$cv.FH, type = "b", col = 4, lwd = 2, pch = 4, lty = 2)
legend("top", legend = c("Direct", "EBLUP FH"), ncol = 2, col = c(1, 4), lwd = 2, pch = c(1, 4), lty = c(1, 2), cex = 1.3)
Ilustramos el modelo BHF utilizando datos a nivel de condado sobre la producción de maíz y soja del paquete sae y el jemplo 4 en el artículo asociado del R Journal. También es la aplicación utilizada en el artículo original de Battese, Harter y Fuller (1988), que da nombre al modelo BHF.
Usamos dos conjuntos de datos para el modelo. Los conjuntos de datos cornsoybean y cornsoybeanmeans contienen información de encuestas y satélites sobre la producción de maíz y soja en 37 segmentos muestreados de 12 condados del Estado estadounidense de Iowa.
Con los datos, queremos estimar las hectareas promedio cultivadas de maíz por condado.
En terminología de áreas pequeñas: los 12 condados son los dominios de interés; las hectáreas cultivadas promedio de maíz por condado los parámetros de interés.
Para calcular el modelo BHF necesitamos información de encuesta a nivel de unidad sobre nuestra variable de interés. En esta aplicación: El número de hectáreas de maíz por segmento muestreado.
Encuesta enumerativa de junio de 1978 del Departamento de Agricultura de EE. UU.
County, condado
CornHec, hectáreas de maíz reportadas en la encuesta en cada muestra segmento dentro de cada condado,
SoyBeansHec, informó hectáreas de soja de la encuesta en cada segmento de muestra dentro del condado,
CornPix, número de píxeles de maíz de datos satelitales y
SoyBeansPix,Número de píxeles de soja a partir de datos satelitales.
library(sae)
library(kableExtra)
# Cargar los datos
data("cornsoybean")
cornsoybean <- cornsoybean[-33, ]
# Crear el data frame
Xmean <- data.frame(cornsoybean[, c("County","CornHec", "SoyBeansHec","CornPix", "SoyBeansPix")])
# Crear y formatear la tabla
kable(Xmean, align = "c", caption = "Mean Corn and Soybean Pixels per Segment by County") %>%
kable_styling(bootstrap_options = c("striped", "hover", "condensed", "responsive"), full_width = F)
County | CornHec | SoyBeansHec | CornPix | SoyBeansPix | |
---|---|---|---|---|---|
1 | 1 | 165.76 | 8.09 | 374 | 55 |
2 | 2 | 96.32 | 106.03 | 209 | 218 |
3 | 3 | 76.08 | 103.60 | 253 | 250 |
4 | 4 | 185.35 | 6.47 | 432 | 96 |
5 | 4 | 116.43 | 63.82 | 367 | 178 |
6 | 5 | 162.08 | 43.50 | 361 | 137 |
7 | 5 | 152.04 | 71.43 | 288 | 206 |
8 | 5 | 161.75 | 42.49 | 369 | 165 |
9 | 6 | 92.88 | 105.26 | 206 | 218 |
10 | 6 | 149.94 | 76.49 | 316 | 221 |
11 | 6 | 64.75 | 174.34 | 145 | 338 |
12 | 7 | 127.07 | 95.67 | 355 | 128 |
13 | 7 | 133.55 | 76.57 | 295 | 147 |
14 | 7 | 77.70 | 93.48 | 223 | 204 |
15 | 8 | 206.39 | 37.84 | 459 | 77 |
16 | 8 | 108.33 | 131.12 | 290 | 217 |
17 | 8 | 118.17 | 124.44 | 307 | 258 |
18 | 9 | 99.96 | 144.15 | 252 | 303 |
19 | 9 | 140.43 | 103.60 | 293 | 221 |
20 | 9 | 98.95 | 88.59 | 206 | 222 |
21 | 9 | 131.04 | 115.58 | 302 | 274 |
22 | 10 | 114.12 | 99.15 | 313 | 190 |
23 | 10 | 100.60 | 124.56 | 246 | 270 |
24 | 10 | 127.88 | 110.88 | 353 | 172 |
25 | 10 | 116.90 | 109.14 | 271 | 228 |
26 | 10 | 87.41 | 143.66 | 237 | 297 |
27 | 11 | 93.48 | 91.05 | 221 | 167 |
28 | 11 | 121.00 | 132.33 | 369 | 191 |
29 | 11 | 109.91 | 143.14 | 343 | 249 |
30 | 11 | 122.66 | 104.13 | 342 | 182 |
31 | 11 | 104.21 | 118.57 | 294 | 179 |
32 | 12 | 88.59 | 102.59 | 220 | 262 |
34 | 12 | 165.35 | 69.28 | 355 | 160 |
35 | 12 | 104.00 | 99.15 | 261 | 221 |
36 | 12 | 88.63 | 143.66 | 187 | 345 |
37 | 12 | 153.70 | 94.49 | 350 | 190 |
Además, necesitamos información auxiliar. Nos interesan los promedios del dominio. El promedio es una función lineal en sus datos de entrada. Para funciones lineales, necesitamos conocer los tamaños de dominio. En esta aplicación eso significa: Necesitamos saber cuántos segmentos hay por condado. Para todas las variables auxiliares, necesitamos tener acceso a las medias del dominio y a la información a nivel de unidad para cada unidad muestreada en la encuesta.
La muestra de datos de la encuesta a nivel de unidad de maíz y soja consta de 37 observaciones. Al igual que en la aplicacion original, la observación 33 se identifica como un valor atípico y se excluye. Cada una de las 36 líneas de datos restantes contiene información sobre un segmento muestreado de un condado. De la encuesta tenemos información de las variables CornHec y SoyBeansHec, el número de hectáreas con maíz y soja en los segmentos muestreados.
cornsoybean es un conjunto de datos a nivel de unidad, ya que los segmentos son las unidades de muestreo de la encuesta. Las variables CornPix y SoyBeansPix denotan el número de píxeles de maíz y soja por segmento, recopilados a partir de datos satelitales adicionales.
Para calcular el modelo BHF, además necesitamos saber el número de segmentos por dominio, que corresponde a los tamaños de dominio. Además, necesitamos las medias de dominio de las variables auxiliares. La información está disponible en el conjunto de datos cornsoybeanmeans, recopilado a partir de datos satelitales.
Imágenes de la tierra satélites de observatorio (LANDSAT) durante la temporada de crecimiento de 1978.
SampSegments, número de segmentos de muestra en el condado (tamaño de muestra),
PopnSegments, número de segmentos de población en el condado (tamaño de la población),
MeanCornPixPerSeg, media del número del condado de píxeles de maíz por segmento, y
MeanSoyBeansPixPerSeg, media del condado del número de granos de soja píxeles por segmento (medias del condado de variables auxiliares).
cornsoybeanmeans
library(sae)
library(kableExtra)
# Cargar los datos
data("cornsoybeanmeans")
# Crear el data frame
Xmean <- data.frame(cornsoybeanmeans[, c("CountyName", "SampSegments","PopnSegments", "MeanCornPixPerSeg", "MeanSoyBeansPixPerSeg")])
# Crear y formatear la tabla
kable(Xmean, align = "c", caption = "Mean Corn and Soybean Pixels per Segment by County") %>%
kable_styling(bootstrap_options = c("striped", "hover", "condensed", "responsive"), full_width = F)
CountyName | SampSegments | PopnSegments | MeanCornPixPerSeg | MeanSoyBeansPixPerSeg |
---|---|---|---|---|
CerroGordo | 1 | 545 | 295.29 | 189.70 |
Hamilton | 1 | 566 | 300.40 | 196.65 |
Worth | 1 | 394 | 289.60 | 205.28 |
Humboldt | 2 | 424 | 290.74 | 220.22 |
Franklin | 3 | 564 | 318.21 | 188.06 |
Pocahontas | 3 | 570 | 257.17 | 247.13 |
Winnebago | 3 | 402 | 291.77 | 185.37 |
Wright | 3 | 567 | 301.26 | 221.36 |
Webster | 4 | 687 | 262.17 | 247.09 |
Hancock | 5 | 569 | 314.28 | 198.66 |
Kossuth | 5 | 965 | 298.65 | 204.61 |
Hardin | 6 | 556 | 325.99 | 177.05 |
De cornsoybeanmeans tenemos el número medio de píxeles de maíz MeanCornPixPerSeg y píxeles de soja MeanSoyBeansPixPerSeg por segmento y el número total de segmentos PopnSegments para cada uno de los 12 condados.
Tenemos todos los datos que necesitamos. Calculemos el modelo BHF.
BHF_CV <- 100 * sqrt(mod_BHF$mse$mse) / mod_BHF$est$eblup$eblup
library(sae)
library(kableExtra)
salida <- data.frame(County_name = cornsoybeanmeans$CountyName,
Sample_Size = mod_BHF$est$eblup$sampsize,
BHF_EBLUP = round(mod_BHF$est$eblup$eblup, digits = 2),
BHF_CV = round(BHF_CV, digits = 2))
# Crear y formatear la tabla
kable(salida, align = "c", caption = "mod_BHF") %>%
kable_styling(bootstrap_options = c("striped", "hover", "condensed", "responsive"), full_width = F)
County_name | Sample_Size | BHF_EBLUP | BHF_CV |
---|---|---|---|
CerroGordo | 1 | 122.20 | 8.07 |
Hamilton | 1 | 126.23 | 7.83 |
Worth | 1 | 106.66 | 9.33 |
Humboldt | 2 | 108.42 | 7.60 |
Franklin | 3 | 144.31 | 4.88 |
Pocahontas | 3 | 112.16 | 6.02 |
Winnebago | 3 | 112.78 | 5.95 |
Wright | 3 | 122.00 | 5.70 |
Webster | 4 | 115.34 | 4.81 |
Hancock | 5 | 124.41 | 4.50 |
Kossuth | 5 | 106.89 | 4.53 |
Hardin | 5 | 143.03 | 3.50 |
The BHF model returns a list. With \(est\)eblup, we can extract the Empirical Best Linear Unbiased Predictors (EBLUPs) of the model. With $mse, we can extract the estimated Mean Squared Error (MSE) of the EBLUPs. The MSE is estimated using a parametric bootstrap procedure. To make the bootstrap results reproducible, we set a seed.
The MSE is an absolute measure. Often, relative measures give us a better picture of precision. We therefore calculate the coefficient of variation (CV), CV = root MSE of estimated value / estimated value * 100.
Acabamos de calcular un modelo BHF. Con el modelo BHF predijimos el número medio de hectáreas de maíz en 12 condados del estado estadounidense de Iowa utilizando datos satelitales como información auxiliar, ver columna BHF_EBLUP. Las predicciones oscilan entre 106,66 y 144,31. El correspondiente coeficiente de variación (CV) nos muestra la dispersión relativa estimada de estas predicciones.
https://statisticsglobe.com/small-area-estimation
Técnicas de estimación de áreas pequeñas | Análisis de ingresos, pobreza y salud
Cuando trabaja con medidas de ingresos, salud o pobreza a pequeña escala, probablemente se haya encontrado con técnicas de estimación de áreas pequeñas (SAE). Las técnicas SAE afectan nuestra vida cotidiana, ya que a menudo sirven como base de datos para la toma de decisiones políticas. Por ejemplo, el Banco Mundial utiliza técnicas SAE para el mapeo de la pobreza, la Oficina del Censo de los EE. UU. las utiliza para las estimaciones de ingresos y pobreza de áreas pequeñas (SAIPE). En esta publicación, le brindamos una descripción general sobre las técnicas SAE. Si es nuevo en las estadísticas de encuestas, no se preocupe, también resumimos algunos conceptos básicos de las encuestas antes de pasar a la estimación de áreas pequeñas.
Cubrimos los siguientes temas:
Conceptos básicos de las encuestas
Para comprender la estimación de áreas pequeñas, necesitamos tener una idea de la estimación de encuestas y comprender los términos dominio, estimador directo, estimador indirecto, error cuadrático medio (MSE) y varianza. Si ya conoce estos términos, puede pasar directamente a la siguiente sección.
¿Qué es una muestra de encuesta?
Para tomar decisiones políticas, necesitamos datos confiables. Por eso, las estadísticas oficiales realizan encuestas a nivel nacional, como un censo o encuestas anuales de hogares. En una encuesta, se extrae una muestra aleatoria de la población objetivo, por ejemplo, los ciudadanos de un país, y se entrevista a los encuestados. Con esta muestra, podemos estimar cantidades de la población, como el número total de personas en una clase de edad específica, o indicadores socioeconómicos de pobreza o salud.
¿Qué es un dominio o un área?
Las estimaciones para la población total están bien, pero sobre todo nos interesa información mucho más detallada específica del dominio. Un dominio es un subgrupo de población, también llamado área o subpoblación. Los dominios se pueden definir por aspectos regionales, temporales o demográficos, así como por combinaciones de estos tres. Por ejemplo, podemos definir nuestros dominios de interés como combinaciones cruzadas de 5 estados X 5 clases de edad X 12 meses (un total de 300 dominios). Los estados son información regional, los meses son información específica del tiempo y las clases de edad son información demográfica. Con una encuesta, queremos obtener estimaciones para varias variables como pobreza, condiciones de vida o empleo en varios niveles de dominio, por ejemplo, para estados, condados y distritos escolares.
https://statisticsglobe.com/small-area-estimation-r
Informe Metodológico
Estimaciones Comunales de Pobreza por ingresos en Chile Mediante Métodos de Estimación en Áreas Pequeñas
División Observatorio Social MDSF – CEPAL Diciembre 2021