La población es el conjunto de todos los elementos que nos interesa estudiar y a estos elementos los definimos como unidades de estudio.
Se considera una población finita compuesta por \(N\) unidades de observación, donde cada una de las unidades puede identificarse mediante una etiqueta. Sea \(U\) el conjunto de etiquetas, tal que \[U=\left\lbrace 1,...,k,...,N \right\rbrace.\]
La muestra se define como un subconjunto de la población.
Variable de interés o de estudio.
Es la característica propia de los individuos sobre la que se realiza
la inferencia para resolver los objetivos de la investigación.
Denotamos por \(y_k\) el valor de dicha
variable en la unidad \(k\).
Unidad de observación.
Es el objeto sobre el que finalmente se realiza la medición.
En la teoría de muestreo la variable de interés no se supone como una variable aleatoria sino como una cantidad fija o una característica propia de las unidades que componen la población.
La unidad de muestreo es la unidad mínima que seleccionamos para la muestra, y de la cual extraeremos la(s) unidad(es) de observación.
Ejemplo:
Seleccionar una muestra de trabajadores del Ministerio de Salud.
- Unidad de muestreo: oficina o centro de salud
- Unidad de observación: trabajador individual
La construcción de la muestra no siempre es a partir de las unidades de observación; de hecho, la muestra se construye a partir de las unidades de muestreo.
Identificadora
Cuando es preciso ubicar elementos que nos permitan identificar la
unidad de estudio para ejecutar el muestreo.
(p. ej., médico → paciente)
Contenedora
También conocidas como secciones censales; áreas geográficas que
contienen a las unidades de estudio.
(p. ej., vivienda → persona)
\[ \theta = f(y_1,\ldots,y_k,\ldots,y_N). \]
Total poblacional
\[
t_y = \sum_{k\in U} y_k
\]
Media poblacional
\[
\overline{y}_U = \frac{1}{N}\sum_{k\in U} y_k = \frac{t_y}{N}
\]
Varianza poblacional
\[
S^2_{y_U} = \frac{1}{N-1}\sum_{k\in U}(y_k - \overline{y}_U)^2
\]
Población desconocida
Sin marco muestral
Ej.: niveles de conocimiento sobre VIH/SIDA en trabajadoras
sexuales
Población inaccesible
Difícil localización o medición
Ej.: valor de hemoglobina en pacientes
Población inalcanzable por magnitud
Tamaño muy grande
Ej.: encuestas de preferencias electorales
Una muestra es un subconjunto de la población que se estudia para inferir sobre la característica poblacional. Este procedimiento se llama inferencia y sólo funciona si la muestra es representativa en sentido probabilístico.
Una muestra probabilística \(s\subseteq
U\) se extrae mediante un mecanismo estadístico
(aleatorio).
Un diseño de muestreo \(p(s)\) es una
distribución de probabilidad sobre todas las posibles muestras, tal
que
\[ p(s)\ge 0\quad\forall s\subseteq U, \qquad \sum_{s\subseteq U}p(s)=1. \]
Sea \(S\) una variable aleatoria
que toma la muestra \(s\subseteq U\)
con probabilidad
\[
\Pr(S=s)=p(s),
\quad
p(s)\ge0,
\quad
\sum_{s\subseteq U}p(s)=1.
\] A \(p(\cdot)\) se le llama
diseño muestral.
El tamaño de muestra \(n(S)\)
puede ser aleatorio.
Si es fijo, lo denotamos simplemente como \(n\).
Definimos la variable indicadora
\[
I_k =
\begin{cases}
1, & k\in S,\\
0, & k\notin S\,.
\end{cases}
\]
Dispositivo o listados que permiten delimitar, identificar y ubicar las unidades \(U\).
Facilita el acceso a los elementos de la población
objetivo.
Suele incluir información auxiliar (atributos, categorías, variables de estratificación).
La probabilidad de inclusión de primer orden es la probabilidad de que la unidad \(k\) pertenezca a la muestra: \[ \pi_k = \Pr(k \in s) = E(I_k) \;=\; \sum_{s \ni k} p(s). \]
La probabilidad de inclusión de segundo orden es la probabilidad de que las unidades \(k\) y \(l\) pertenezcan simultáneamente a la muestra: \[ \pi_{kl} = \Pr(k \in s \;\text{y}\; l \in s) = E(I_k I_l) \;=\; \sum_{s \ni k,l} p(s). \]
La covarianza de las variables indicadoras está dada por
\[ \Delta_{kl} = \mathrm{Cov}(I_k, I_l) = \begin{cases} \pi_k(1 - \pi_k), & k = l,\\[6pt] \pi_{kl} - \pi_k\,\pi_l, & k \neq l. \end{cases} \]
Población
\(\Omega = \{u_1, u_2, u_3\}\)
Procedimiento
1. Se extraen 2 bolas con reposición de una urna con 6
bolas:
- 3 bolas numeradas “1”
- 2 bolas numeradas “2”
- 1 bola numerada “3”
2. Cada bola de valor \(k\) selecciona
la unidad \(u_k\) de la población.
Objetivo
Determinar el diseño muestral \(p(s)\) para muestras no
ordenadas de tamaño 2.
Según Gutiérrez (2009, p. 29), un estimador es
una función de la muestra
\[
\hat\theta = \hat\theta(s)
\] que sirve para estimar el parámetro \(\theta\).
Su esperanza se define como \[ E[\hat\theta] = \sum_{s\subseteq U} p(s)\,\hat\theta(s). \]
Su varianza es \[ \mathrm{Var}(\hat\theta) = \sum_{s\subseteq U} p(s)\,\bigl[\hat\theta(s) - E[\hat\theta]\bigr]^2. \]
Según Särndal (1992, p. 40), dos propiedades fundamentales de un estimador \(\hat\theta\) son:
Sesgo
Diferencia entre la esperanza del estimador y el parámetro:
\[
B(\hat\theta) \;=\; E[\hat\theta] \;-\; \theta.
\]
Error cuadrático medio (MSE)
Promedio del cuadrado del error, que combina varianza y sesgo al
cuadrado:
\[
\mathrm{MSE}(\hat\theta)
\;=\;
E\bigl[(\hat\theta - \theta)^2\bigr]
\;=\;
\mathrm{Var}(\hat\theta)\;+\;\bigl(B(\hat\theta)\bigr)^2.
\]
Sesgo relativo
\[RB(\hat{\theta}) =
\frac{B(\hat{\theta})}{\theta}\]
Insesgadez
\(\hat{\theta}\) es insesgado si
\[B(\hat{\theta}) = 0.\]
Error cuadrático medio (ECM)
\[ECM(\hat{\theta})
= E\bigl[(\hat{\theta}-\theta)^2\bigr]
= \mathrm{Var}(\hat{\theta}) + \bigl(B(\hat{\theta})\bigr)^2.
\]
Aporte relativo del sesgo al ECM
\[
\xi(\hat{\theta})
= \frac{B(\hat{\theta})^2}{B(\hat{\theta})^2
\;+\;\mathrm{Var}(\hat{\theta})}
\]
Coeficiente de variación
\[
CV
= \frac{\sqrt{\mathrm{Var}(\hat{\theta})}}{\hat{\theta}}
\]
El estimador de Horvitz–Thompson para el total \(t_y\) se define como
\[ \hat t_{y\pi} \;=\; \sum_{k \in s} \frac{y_k}{\pi_k}. \]
Es insesgado siempre que \(\pi_k > 0\) para todo \(k \in U\).
Según Särndal (1992, p. 43):
Varianza teórica
\[
\mathrm{Var}(\hat t_{y\pi})
= \sum_{k\in U}\sum_{l\in U}
\Delta_{kl}\,
\frac{y_k}{\pi_k}\,
\frac{y_l}{\pi_l}.
\]
Estimación de la varianza
\[
\widehat{\mathrm{Var}}(\hat t_{y\pi})
= \sum_{k\in s}\sum_{l\in s}
\frac{\Delta_{kl}}{\pi_{kl}}\,
\frac{y_k}{\pi_k}\,
\frac{y_l}{\pi_l}.
\]
Considere una población finita de \(N\) elementos y un diseño de muestreo que
permite la selección de
una muestra realizada \(s\), con
reemplazo, de tamaño \(m\).
Lohr (2000) afirma que la manera más intuitiva de entender este tipo
de diseños muestrales con
reemplazo es pensar en la extracción de \(m\) muestras independientes de tamaño 1. Se
extrae un
elemento de la población para ser incluido en la muestra con una
probabilidad \(p_k\); sin
embargo,
ese mismo elemento participa en el siguiente sorteo aleatorio. Este
proceso se repite \(m\) veces;
es decir, se tiene un total de \(m\)
sorteos aleatorios.
Este estimador es usado para el caso de muestreo con reemplazo. Es poco eficiente y se utiliza principalmente en técnicas como bootstrap, jackknife, entre otras.
De manera general, un diseño de muestreo con reemplazo se define como:
\[ p(s)= \begin{cases} \displaystyle \frac{m!}{n_1(s)!\,\cdots\,n_N(s)!} \;\prod_{k\in U}p_k^{\,n_k(s)}, & \text{si } \sum_{k\in U}n_k(s)=m,\\[0.5em] 0, & \text{en otro caso.} \end{cases} \]
donde \(n_k(s)\) es el número de veces que el elemento \(k\)-ésimo es seleccionado en la muestra \(s\).
Para un diseño con reemplazo de tamaño \(m\):
Primer orden
\[
\pi_k \;=\; 1 - \bigl(1 - p_k\bigr)^{m}
\]
Segundo orden
\[
\pi_{kl}
\;=\;
1
\;-\;
\bigl(1 - p_k\bigr)^{m}
\;-\;
\bigl(1 - p_l\bigr)^{m}
\;+\;
\bigl(1 - p_k - p_l\bigr)^{m}
\]
donde \(p_k = \Pr(\text{seleccionar la unidad }k)\), \(k,l\in U\).
Población:
\(U = \{\text{Yves}, \text{Ken}, \text{Erik},
\text{Sharon}, \text{Leslie}\}\)
Probabilidades de selección \(p_k\):
- \(p_k = \tfrac14\) para \(k =\) Yves, Ken, Leslie
- \(p_k = \tfrac18\) para \(k =\) Sharon, Erik
Verifique que
\[
\sum_{k\in U} p_k = 1.
\]
## X1 X2 pWR X1.1 X2.1 X3 X4 X5
## 1 Yves Yves 0.062500 2 0 0 0 0
## 2 Yves Ken 0.125000 1 1 0 0 0
## 3 Yves Leslie 0.062500 1 0 1 0 0
## 4 Yves Sharon 0.062500 1 0 0 1 0
## 5 Yves Erick 0.125000 1 0 0 0 1
## 6 Ken Ken 0.062500 0 2 0 0 0
## 7 Ken Leslie 0.062500 0 1 1 0 0
## 8 Ken Sharon 0.062500 0 1 0 1 0
## 9 Ken Erick 0.125000 0 1 0 0 1
## 10 Leslie Leslie 0.015625 0 0 2 0 0
## 11 Leslie Sharon 0.031250 0 0 1 1 0
## 12 Leslie Erick 0.062500 0 0 1 0 1
## 13 Sharon Sharon 0.015625 0 0 0 2 0
## 14 Sharon Erick 0.062500 0 0 0 1 1
## 15 Erick Erick 0.062500 0 0 0 0 2
Estimador del total
\[
\hat t_{y,p}
= \frac{1}{m}\sum_{i=1}^m \frac{y_{k_i}}{p_{k_i}}.
\]
Estimación de la varianza
\[
\widehat{\mathrm{Var}}(\hat t_{y,p})
= \frac{1}{m(m-1)}
\sum_{i=1}^m
\Bigl(\frac{y_{k_i}}{p_{k_i}} - \hat t_{y,p}\Bigr)^2.
\]
Forma alternativa
\[
\widehat{\mathrm{Var}}(\hat t_{y,p})
= \frac{1}{m(m-1)}
\Biggl[
\sum_{i=1}^m\Bigl(\frac{y_{k_i}}{p_{k_i}}\Bigr)^2
\;-\;
m\,\hat t_{y,p}^2
\Biggr].
\]
## X1 X2 X1.1 X2.1 pWR X1.2 X2.2 all.HH
## 1 Yves Yves 0.250 0.250 0.062500 32 32 128
## 2 Yves Ken 0.250 0.250 0.125000 32 34 132
## 3 Yves Leslie 0.250 0.125 0.062500 32 46 248
## 4 Yves Sharon 0.250 0.125 0.062500 32 89 420
## 5 Yves Erick 0.250 0.250 0.125000 32 35 134
## 6 Ken Ken 0.250 0.250 0.062500 34 34 136
## 7 Ken Leslie 0.250 0.125 0.062500 34 46 252
## 8 Ken Sharon 0.250 0.125 0.062500 34 89 424
## 9 Ken Erick 0.250 0.250 0.125000 34 35 138
## 10 Leslie Leslie 0.125 0.125 0.015625 46 46 368
## 11 Leslie Sharon 0.125 0.125 0.031250 46 89 540
## 12 Leslie Erick 0.125 0.250 0.062500 46 35 254
## 13 Sharon Sharon 0.125 0.125 0.015625 89 89 712
## 14 Sharon Erick 0.125 0.250 0.062500 89 35 426
## 15 Erick Erick 0.250 0.250 0.062500 35 35 140
Ahora, tomemos una muestra y cálculemos el estimador del total con su respectivo coeficiente de varianción.
set.seed(123)
y<- c(32, 34, 46, 89, 35)
N<- length(y)
m<- 3
pk<-c(0.7, 0.05, 0.05, 0.1, 0.1)
sam<- sample(N, 3, replace=T, prob= pk)
ym<- y[sam]
pkm<- pk[sam]
est<- HH(ym, pkm)[1]
est## [1] 147.1429
dif<- rep(0,3)
dif[1]<- (ym[1]/pkm[1])-est
dif[2]<- (ym[2]/pkm[2])-est
dif[3]<- (ym[3]/pkm[3])-est
Var<- (1/3)*(1/2)*sum(dif^2)
Var## [1] 10287.76
## [1] 0.6893204
Forma más sencilla de seleccionar una muestra
Igual probabilidad de selección para todos los elementos de la población
Requiere un marco muestral explícito
Supone población homogénea (sin estratos ni conglomerados)
Una vez seleccionado, un elemento no vuelve a la población (sin reemplazo)
Diseño de tamaño de muestra fijo (\(n \le N\))
También conocido como SRSWOR (Simple Random Sampling Without Replacement)
\[ p(s) = \begin{cases} \dfrac{1}{\binom{N}{n}}, & \text{si } |s| = n,\\[0.5em] 0, & \text{en otro caso.} \end{cases} \]
El número total de muestras posibles de tamaño \(n\) es
\[ \#Q = \binom{N}{n}. \]
Generar para cada unidad \(k\) un número aleatorio \(\zeta_k \sim U(0,1)\).
Ordenar el marco muestral según \(\zeta_k\) de menor a mayor o de mayor a menor.
Seleccionar las primeras \(n\) unidades del listado ordenado.
Este algoritmo respeta el diseño MAS (tamaño fijo, sin reemplazo) y es equivalente al “coordinado negativo” para SRSWOR.
Ejemplo: Supongamos que tenemos una población compuesta por 6 millones de habitantes (Bogotá) y que queremos seleccionar aleatoriamente una muestra de 1000 personas:
# Identificador de los habitantes
k <- 1:6000000
#tamaño muestral
n <- 1000
#generación de números aleatorios
zeta <- runif(6000000,0,1)
marco <- data.frame(cbind(k,zeta))
#marco ordenado por el número aleatorio
marco_o <- marco[with(marco,order(marco$zeta)),]
#selección de los individuos
muestra <- marco_o[1:n,]## k zeta
## 2620053 2620053 4.400499e-08
## 5197918 5197918 2.200250e-07
## 4903433 4903433 2.386514e-07
## 3714981 3714981 3.802124e-07
## 858429 858429 5.133916e-07
Otra forma mas sencilla:
## [1] 5163708 5137031 3794868 3801377 5930815
Para seleccionar \(n\) unidades de un marco de tamaño \(N\) sin reemplazo:
En R lo podemos hacer con el siguiente código:
## [1] "Yves" "Erik"
Probabilidad de inclusión (1er orden)
\[
\pi_k = \frac{n}{N}
\]
Probabilidad de inclusión (2º orden)
\[
\pi_{kl} = \frac{n(n-1)}{N(N-1)},\quad k\neq l
\]
Estimador de Horvitz–Thompson
\[
\hat t_{y,\pi}
= \sum_{k\in s}\frac{y_k}{\pi_k}
= \frac{N}{n}\sum_{k\in s}y_k
\]
Nota: \(N\) es el tamaño de la población, \(n\) el tamaño de la muestra.
Varianza del estimador
\[
\mathrm{Var}_{MAS}(\,\hat t_{y,\pi}\,)
= \frac{N^2}{n}\Bigl(1 - \frac{n}{N}\Bigr)\,S^2_{y_U}
\]
Estimación de la varianza
\[
\widehat{\mathrm{Var}}_{MAS}(\,\hat t_{y,\pi}\,)
= \frac{N^2}{n}\Bigl(1 - \frac{n}{N}\Bigr)\,S^2_{y_s}
\]
donde \[ S^2_{y_U} = \frac{1}{N-1}\sum_{k\in U}\bigl(y_k - \bar y_U\bigr)^2, \qquad S^2_{y_s} = \frac{1}{n-1}\sum_{k\in s}\bigl(y_k - \bar y_s\bigr)^2. \]
Estimador
\[
\hat{\bar Y}_\pi
= \frac{\hat t_{y,\pi}}{N}
\]
Varianza
\[
\mathrm{Var}_{MAS}(\hat{\bar Y}_\pi)
= \frac{1}{n}\Bigl(1 - \tfrac{n}{N}\Bigr)\,S^2_{y_U}
\]
Estimación de varianza
\[
\widehat{\mathrm{Var}}_{MAS}(\hat{\bar Y}_\pi)
= \frac{1}{n}\Bigl(1 - \tfrac{n}{N}\Bigr)\,S^2_{y_s}
\]
library(TeachingSampling)
data("BigLucy")
N<- dim(BigLucy)[1] ; n<-1054
samp<-sample(1:N,n)
muestra1<- BigLucy[samp,]
pik1<-n/N
typi<- sum(muestra1$Income)*(1/pik1)
varMAS<- (N^2/n)*(1-(n/N))*var(muestra1$Income)
Cve<- (sqrt(varMAS)/typi)*100
resul = c(round(typi,2), round(varMAS,2),
round(Cve,2))
names(resul) = c("Total", "Varianza", "CV")
resul## Total Varianza CV
## 3.54540e+07 4.50796e+11 1.89000e+00
babiesMuestra
Seleccione una muestra aleatoria simple sin reemplazo
(MAS) de tamaño \(n\) de la base
babies (paquete UsingR).
Variables
Elija dos variables numéricas, por ejemplo:
age (edad de la madre)wt (peso al nacer)Estimaciones
Para cada variable, calcule:
Para un margen de error absoluto \(\epsilon\) (en unidades de \(y\)):
\[ n \;\ge\;\frac{n_0}{1 + \dfrac{n_0}{N}}, \qquad n_0 = \frac{z_{1-\alpha/2}^2\,S_{y_U}^2}{\epsilon^2} \]
Para un margen de error relativo \(\epsilon\) (fracción de la media), usando el coeficiente de variación \(CV = S_{y_U}/\bar y_U\):
\[ n \;\ge\;\frac{k_0}{1 + \dfrac{k_0}{N}}, \qquad k_0 = \frac{z_{1-\alpha/2}^2\,CV^2}{\epsilon^2} \]
Varíe los distintos parámetros del tamaño de muestra de tal forma que obtenga 3 tamaños de muestra significativamente distintos.
Tome cada tamaño de muestra anterior y utilice las variables Income, Taxes, Employees y calcule el Cve para el promedio estimado de cada una de las variables y concluya si el tamaño de muestra influyó significativamente en la estimación.
Tome la base de datos babies de la librería UsingR y
tome una variable cuantitativa, calcule un tamaño de muestra y estime el
promedio junto con su Cve.
Según Gutiérrez (2015), a veces interesa estimar no solo para la población total, sino también para subgrupos—llamados dominios (ONU):
Nota: La selección de la muestra no se hace por dominio, sino que éstos se identifican tras la recolección.
Disjunción
Ningún elemento puede pertenecer a dos dominios distintos:
\[
\text{Si }k \in U_l,\; \text{entonces }k \notin U_d\quad (d \neq l).
\]
Exhaustividad
Todo elemento debe pertenecer a exactamente un
dominio.
Cobertura total
La unión de todos los dominios es la población completa:
\[
U = \bigcup_{d=1}^{D} U_d,\quad U_d \subseteq U.
\]
–
Queremos estimar el total en un dominio \(U_d\): \[ t_{y,d} \;=\;\sum_{k\in U_d} y_k \]
Definimos la función indicadora del dominio: \[ z_{d k}=\begin{cases} 1, & k\in U_d,\\[6pt] 0, & \text{en otro caso.} \end{cases} \]
Estimar el total en un dominio \(U_d\) con Horvitz–Thompson:
\[
\hat t_{y,d}
= \sum_{k\in s} \frac{z_{d k}\,y_k}{\pi_k}=\sum_{k\in s}
\frac{y_{dk}}{\pi_k},
\quad\text{donde}\quad
z_{d k} =
\begin{cases}
1, & k\in U_d,\\
0, & \text{en otro caso.}
\end{cases}
\]
Tamaño del dominio \(U_d\)
\[
N_{d} \;=\;\sum_{k\in U} z_{d k}
\]
Media en el dominio \(U_d\)
\[
\bar{y}_{U_d}
\;=\;
\frac{t_{y,d}}{N_d}
\;=\;
\frac{\sum_{k\in U} z_{d k}\,y_k}{N_d}
\]
Bajo muestreo aleatorio simple sin reemplazo:
\[ \hat t_{yd,\pi} = \frac{N}{n}\sum_{k\in s_d} y_k, \quad s_d = S\cap U_d \]
\[ \mathrm{Var}(\hat t_{yd,\pi}) = \frac{N^2}{n}\Bigl(1-\frac{n}{N}\Bigr)\,S^2_{yd,U}, \qquad S^2_{yd,U} = \frac{1}{N_d-1}\sum_{k\in U_d}(y_k-\bar y_{U_d})^2 \]
\[ \widehat{\mathrm{Var}}(\hat t_{yd,\pi}) = \frac{N^2}{n}\Bigl(1-\frac{n}{N}\Bigr)\,S^2_{yd,S}, \qquad S^2_{yd,S} = \frac{1}{n_d-1}\sum_{k\in s_d}(y_k-\bar y_{s_d})^2 \]
Además, definimos las varianzas de la característica en el dominio:
Varianza poblacional
\[
S^2_{yd,U}
= \frac{1}{N_d-1}
\Biggl(
\sum_{k\in U} y_{d k}^2
\;-\;
\frac{\bigl(\sum_{k\in U} y_{d k}\bigr)^{2}}{N_d}
\Biggr)
\]
Varianza muestral
\[
S^2_{yd,S}
= \frac{1}{n_d-1}
\Biggl(
\sum_{k\in S} y_{d k}^2
\;-\;
\frac{\bigl(\sum_{k\in S} y_{d k}\bigr)^{2}}{n_d}
\Biggr)
\]
Bajo muestreo aleatorio simple sin reemplazo, el estimador de Horvitz-Thompson para el tamaño absoluto de un dominio \(N_d\), su varianza y su varianza estimada están dados por:
\[ \hat{N}_{d,\pi} = \frac{N}{n} \sum_S z_{dk} = \frac{N}{n} \sum_{S_d} z_{k} \] \[ Var(\hat{N}_{d, \pi}) = \frac{N^2}{n}\ (1-\frac{n}{N}) S^2_{zdU} \] \[ \widehat{Var}(\hat{N}_{d, \pi}) = \frac{N^2}{n}\ (1-\frac{n}{N}) S^2_{zdS} \] respectivamente, con \(S^2_{zdU}\) y \(S^2_{zdS}\) la varianza poblacional y la varianza muestral de los valores de la característica de interés \(z_{dk}\).
Bajo muestreo aleatorio simple sin reemplazo:
\[ \hat{\bar y}_{U_d,\pi} = \frac{N}{n\,N_d}\sum_{k\in s_d} y_k \]
\[ \mathrm{Var}\bigl(\hat{\bar y}_{U_d,\pi}\bigr) = \frac{1}{N_d^{2}} \frac{N^2}{n}\Bigl(1-\frac{n}{N}\Bigr)\,S^2_{y,d,U} \]
\[ \widehat{\mathrm{Var}}\bigl(\hat{\bar y}_{U_d,\pi}\bigr) = \frac{1}{N_d^{2}} \frac{N^2}{n}\Bigl(1-\frac{n}{N}\Bigr)\,S^2_{y,d,S} \]
Cuando no se conoce \(N_d\), podemos usar el promedio muestral en el dominio:
\[ \hat{\bar y}_{U_d,\text{alt}} = \frac{\sum_{k\in s} y_{d k}}{\sum_{k\in s} z_{d k}} = \frac{\sum_{k\in s_d} y_{k}}{n_d} \]
En una población, \(U\), de 10000 personas, hay 3000 personas con edad comprendida entre 0 y 21 años, que llamaremos tipo A, y 7000 de edad superior, tipo B. Para realizar un estudio de hábitos de ocio, se selecciona una muestra aleatoria simple de 15 personas de la población y se pregunta a cada una el gasto aproximado mensual [en dolares] en asistencia al cine y la edad. Los resultados muestrales obtenidos son,
| Edad | A | A | B | B | B | B | B | A | B | B | B | A | B | B | A |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Gasto | 70 | 75 | 60 | 10 | 90 | 30 | 40 | 50 | 50 | 40 | 65 | 70 | 60 | 50 | 60 |
Estimar la media del gasto en cine para los menores de 21, estimar la varianza de la media, el error de muestreo y de nuevo la media suponiendo que \(N_d\) es desconocido.
Una muestra aleatoria simple con reemplazo de tamaño \(m\) en una población de \(N\) elementos consiste en extraer \(m\) veces, con reposición, un solo elemento:
Para muestreo aleatorio simple con reemplazo de tamaño \(m\):
\[ p(s)= \begin{cases} \dfrac{m!}{n_1(s)!\,\cdots\,n_N(s)!}\,\displaystyle\prod_{k\in U}p_k^{\,n_k(s)}, & \text{si } \sum_{k\in U}n_k(s)=m,\\[1em] 0, & \text{en otro caso.} \end{cases} \]
Para muestreo aleatorio simple con reemplazo (\(p_k = 1/N\)):
Primer orden (\(k\in U\)): \[ \pi_{k} \;=\; 1 \;-\;\Bigl(1 - \tfrac{1}{N}\Bigr)^{m} \]
Segundo orden (\(k\neq l\in U\)): \[ \pi_{kl} \;=\; 1 \;-\;2\Bigl(1 - \tfrac{1}{N}\Bigr)^{m} \;+\;\Bigl(1 - \tfrac{2}{N}\Bigr)^{m} \]
Para obtener una muestra de tamaño \(m\) con reemplazo:
Aunque conceptualmente sencillo, este procedimiento requiere \(m\) sorteos independientes y no es óptimo en grandes poblaciones.
Para un diseño aleatorio simple con reemplazo de tamaño \(m\) en población de \(N\) unidades:
Estimador del total
\[
\hat{t}_{y,p}
= \frac{N}{m}\sum_{i=1}^m y_i
\]
Varianza teórica
\[
\mathrm{Var}_{\mathrm{MRAS}}(\hat{t}_{y,p})
= \frac{N\,(N-1)}{m}\,S^2_{yU},
\quad
S^2_{yU}
= \frac{1}{N-1}\sum_{k\in U}(y_k - \overline{y}_U)^2
\]
Nota:
- \(\hat{t}_{y,p}\) es insesgado para el total poblacional \(t_y\).
- \(\widehat{\mathrm{Var}}_{\mathrm{MRAS}}(\hat{t}_{y,p})\) es insesgado para \(\mathrm{Var}_{\mathrm{MRAS}}(\hat{t}_{y,p})\).
Siendo \(n(s)\) el tamaño de la muestra \(s\), el diseño de muestreo Bernoulli asigna a cada muestra la probabilidad
\[ p(s)= \begin{cases} \pi^{\,n(s)}\,(1-\pi)^{\,N - n(s)}, & \text{si } |s| = n(s),\\[6pt] 0, & \text{en otro caso.} \end{cases} \]
Dado que \(\zeta_{k}\sim
\mathrm{Uniforme}[0,1]\),
\[
\Pr(\zeta_{k}<\pi)=\pi,
\]
por lo que cada inclusión es independiente. Entonces \(I_k(S)\sim \mathrm{Bernoulli}(\pi)\) y:
Primer orden
\[
\pi_{k} = \Pr(k\in S) = \pi.
\]
Segundo orden
\[
\pi_{kl}
= \Pr(k\in S,\;l\in S)
=
\begin{cases}
\pi, & k = l,\\[6pt]
\pi^2, & k \neq l.
\end{cases}
\]
Estimador del total
\[
\hat{t}_{y,\pi}
= \frac{1}{\pi}\sum_{k\in S} y_k
\]
Varianza teórica
\[
\mathrm{Var}_{\mathrm{BER}}(\hat{t}_{y,\pi})
= \Bigl(\tfrac{1}{\pi}-1\Bigr)\sum_{k\in U} y_k^2
\]
Estimación de la varianza
\[
\widehat{\mathrm{Var}}_{\mathrm{BER}}(\hat{t}_{y,\pi})
= \frac{1}{\pi}\Bigl(\tfrac{1}{\pi}-1\Bigr)\sum_{k\in S} y_k^2
\]
Siendo \((\hat{T},p(\cdot))\) y \((\hat{T}_{\pi},\text{MAS})\) dos estrategias de muestreo para estimar el parámetro \(T\), el efecto de diseño se define como
\[ \mathrm{Deff} = \frac{\mathrm{Var}_{p}(\hat{T})} {\mathrm{Var}_{\mathrm{MAS}}(\hat{T}_{\pi})}. \]
data(BigLucy)
attach(BigLucy)
N <- dim(BigLucy)[1]
pik <- 0.1669
sam <- S.BE(N,pik)
muestra <- BigLucy[sam,]
attach(muestra)## The following objects are masked from BigLucy:
##
## Employees, ID, Income, ISO, Level, Segments, SPAM, Taxes,
## Ubication, Years, Zone
## ID Ubication Level Zone Income Employees Taxes SPAM ISO
## 9 AB0000000009 C0111156K0190741 Small County1 350 84 5 yes no
## 14 AB0000000014 C0189067K0112830 Small County1 330 23 4 yes no
## 22 AB0000000022 C0087264K0214633 Small County1 381 42 6 yes no
## 33 AB0000000033 C0094710K0207187 Small County1 334 72 5 yes no
## 42 AB0000000042 C0141009K0160888 Small County1 444 34 8 yes no
## 52 AB0000000052 C0038888K0263009 Small County1 380 90 6 yes no
## Years Segments
## 9 38.7 County1 1
## 14 35.0 County1 2
## 22 34.7 County1 3
## 33 44.4 County1 4
## 42 24.1 County1 5
## 52 17.6 County1 6
Con la muestra anterior ¿cómo hacemos para estimar el total, la varianza y el Cve para Income?
## N Income
## Estimation 8.527861e+04 3.668495e+07
## Standard Error 6.524398e+02 3.288819e+05
## CVE 7.650685e-01 8.965035e-01
## DEFF Inf 3.679962e+00
Utilizando los códigos anteriores, cambie el \(p\) y estime el promedio y el Cve de las variables Taxes y Employees.
Calcule los \(deff\) para las estimaciones anteriores.
No se dispone de un marco de muestreo, por lo menos no de forma explícita.
Cuando el marco disponible está ordenado de forma particular, con respecto a los rótulos del mismo.
Todas las unidades se suponen enumeradas del 1 al \(N\).
Se tiene conocimiento de que la población se encuentra particionada en a grupos poblacionales latentes.
Suponga que la población tiene tamaño
\[
N = n\,a + c,\quad 0 \le c < a.
\]
Definimos el diseño de muestreo sistemático eligiendo un desplazamiento inicial \(r\) en \(\{1,2,\dots,a\}\) con probabilidad \(1/a\), y luego tomando la muestra
\[ s_r = \{\,r,\; r+a,\; r+2a,\;\dots,\; r+(n-1)\,a\}. \]
La función de diseño queda entonces
\[ p(s) = \begin{cases} \displaystyle\frac1a, & \text{si } s = s_r \text{ para algún } r\in\{1,\dots,a\},\\[6pt] 0, & \text{en otro caso.} \end{cases} \]
Arranque aleatorio
Elegir un entero \(r\) con
probabilidad \(\tfrac1a\), donde
\[
r \in \{1,2,\dots,a\}.
\]
Construcción de la muestra
La muestra sistemática \(s_r\) se
compone de los \(n\) elementos: \[
s_r \;=\;\bigl\{\,k : k = r + (j-1)\,a,\; j = 1,2,\dots,n \bigr\}.
\]
Probabilidad de primer orden
Para cada \(k\in U\): \[
\pi_{k} \;=\;\frac{n}{N}\;=\;\frac1a
\]
Probabilidad de segundo orden
Para todo par \(k\neq l\): \[
\pi_{kl} \;=\;
\begin{cases}
\dfrac1a, & \text{si } |k - l|\text{ es múltiplo de }a,\\[6pt]
0, & \text{en otro caso.}
\end{cases}
\]
Estimador del total
\[
\hat{t}_{y,\pi}
= a \; t_{s_r}
\quad\text{con}\quad
t_{s_r} = \sum_{k\in S_r} y_k
\]
Varianza teórica
\[
\mathrm{Var}_{\text{SIS}}(\hat{t}_{y,\pi})
= a \sum_{r=1}^{a}\Bigl(t_{s_r}-\bar t\Bigr)^{2},
\quad
\bar t = \frac{1}{a}\sum_{r=1}^{a}t_{s_r} = \frac{t}{a}
\]
Nota:
No existe una fórmula cerrada para estimar esta varianza desde la muestra.
Partiendo de
\(\displaystyle Var(\hat t_{y,\pi})
\;=\;\sum_{k,l\in
U}\Delta_{kl}\,\frac{y_k}{\pi_k}\,\frac{y_l}{\pi_l}\)
se puede mostrar que equivale a
\[
\sum_{k,l\in U}\frac{\pi_{kl}}{\pi_k\,\pi_l}\,y_k\,y_l
\;-\;\Bigl(\sum_{k\in U}y_k\Bigr)^2
\]
Nota:
Patrón periódico en la población
Cuando los valores de \(y\) siguen un
ciclo regular (por ejemplo, tráfico horario o ventas
estacionales).
Riesgo con muestreo sistemático
Si el intervalo de selección “a” coincide con el período de la señal,
todos los elementos muestreados serán muy similares en
\(y\).
Suponga que la población se divide en \(a\) grupos de \(n\) unidades cada uno (\(N=an\)). Entonces
\[ (N - 1)S^2_{y_U} = \underbrace{\sum_{k\in U} (y_k - \bar y_U)^2}_{\text{SCT}} = \underbrace{\sum_{r=1}^a \sum_{k\in s_r} (y_{rk} - \bar y_{s_r})^2}_{\text{SCD}} \;+\; \underbrace{n \sum_{r=1}^a (\bar y_{s_r} - \bar y_U)^2}_{\text{SCE}} \]
SCT se refiere a la suma de cuadros del total de la población y no es otra cosa que el numerador en la fórmula del estimador de la varianza.
SCD denota la suma de cuadrados dentro (al interior) de los grupos.
SCE hace referencia a la suma de cuadrados entre los grupos.
Bajo un diseño sistemático con \(N = an\), la varianza del estimador de Horvitz–Thompson se expresa como:
\[ \mathrm{Var}_{\mathrm{SIS}}(\,\hat t_{y,\pi}\,) = N \sum_{r=1}^{a} n \,\bigl(\bar y_{s_r} - \bar y_{U}\bigr)^{2} = N \times \mathrm{SCE} \]
Se define como:
\[ \rho \;=\; 1 \;-\; \frac{n}{\,n-1\,}\;\frac{\mathrm{SCD}}{\mathrm{SCT}} \]
Dado que \(\mathrm{SCT} = \mathrm{SCE} + \mathrm{SCD}\), se obtiene:
\[ \mathrm{SCE} = \mathrm{SCT}\,\Bigl[\;(\rho - 1)\,\tfrac{n-1}{n}\;+\;1\Bigr] \]
La varianza del estimador de Horvitz–Thompson bajo muestreo sistemático puede expresarse en función de la varianza bajo MAS y del coeficiente intra-clase \(\rho\):
\[ \mathrm{Var}_{\mathrm{SIS}}(\hat{t}_{y,\pi}) = \underbrace{\frac{N^2}{n}\Bigl(1-\frac{n}{N}\Bigr)S^2_{yU}}_{\displaystyle \mathrm{Var}_{\mathrm{MAS}}(\hat{t}_{y,\pi})} \;\times\; \left\{\frac{N-1}{\,N-n\,}\bigl[\,1 + (n-1)\rho\bigr]\right\}. \]
El efecto de diseño para muestreo sistemático con el estimador de Horvitz–Thompson se define como:
\[ \text{Deff} = \frac{\mathrm{Var}_{\mathrm{SIS}}(\hat{t}_{y,\pi})} {\mathrm{Var}_{\mathrm{MAS}}(\hat{t}_{y,\pi})} = \frac{N-1}{\,N-n\,}\,\bigl[\,1 + (n-1)\,\rho\bigr] \]
Dado el efecto de diseño
\[ \mathrm{Deff} = \frac{N-1}{N-n}\,\bigl[1 + (n-1)\,\rho\bigr] \]
se concluye:
Igual eficiencia al muestreo aleatorio simple
si
\(\displaystyle \rho = \frac{1}{1 -
N}\).
Menor eficiencia que el muestreo aleatorio
simple si
\(\displaystyle \rho > \frac{1}{1 -
N}\).
Mayor eficiencia que el muestreo aleatorio
simple si
\(\displaystyle \rho < \frac{1}{1 -
N}\).
Ejercicio: Para estimar el total de horas diarias que los estudiantes permanecen en la biblioteca de una universidad, se utilizó un diseño de muestreo sistemático con dos arranques aleatorios. La población fue divida en siete grupos latentes y se seleccionó una muestra simple de dos enteros entre el uno y el siete. Los enteros seleccionados son el 3 y 7. Lo anterior implica que la muestra de estudiantes, que serán entrevistados a la salida de la biblioteca, está conformada por dos grupos. A saber el grupo \(s_3\) conformado por los estudiantes \(3, 10, 17 \ldots\) y el grupo \(s_7\) conformado por los estudiantes \(7, 14, 21, \ldots\)
Los resultados del sondeo para los dos grupos se dan acontinuación:
\[ t_{s_3}=\sum_{s_3} y_k =3574; \ \ t_{s_3}=\sum_{s_7} y_k =5024 \]
Calcule una estimación insesgada para el número total de horas de permanencia en la biblioteca, reporte el coeficiente de variación estimado y un intervalo de confianza al 95%
Es una generalización del muestreo Bernoulli: Cada unidad \(k\in U\) tiene una probabilidad de inclusión \(\pi_k\) fijada de antemano, de forma independiente.
Originalmente teórico, sin aplicaciones prácticas inmediatas. Se utilizó para estudiar propiedades de estimadores complejos.
Aplicaciones reales:
Sea \(U\) la población y para cada \(k \in U\) definimos una probabilidad de inclusión \(\pi_k\) con \(0 < \pi_k \le 1\). El diseño Poisson (o muestreo de inclusión independiente) queda:
\[ p(s) = \prod_{k\in s} \pi_k \;\times\; \prod_{k\notin s} (1 - \pi_k), \quad \forall\,s \in Q \]
Para cada \(k \in U\), fije la probabilidad de inclusión \(\pi_k\) tal que \(0 < \pi_k \le 1\).
Genere \(\epsilon_k\sim \mathrm{U}(0,1)\) de forma independiente, para cada \(k\in U\).
Incluya el elemento \(k\) en la
muestra si y solo si
\[
\epsilon_k < \pi_k.
\]
Resultado: El tamaño de muestra \(n(S)\) es una variable aleatoria, con:
\[ E\bigl[n(S)\bigr] = \sum_{k\in U}\pi_k \quad,\quad \mathrm{Var}\bigl[n(S)\bigr] = \sum_{k\in U}\pi_k\,(1-\pi_k) \]
Primer orden
\[
\pi_{k} = \pi_{k}
\]
Segundo orden
\[
\pi_{kl} =
\begin{cases}
\pi_{k}, & k = l,\\[6pt]
\pi_{k}\,\pi_{l}, & k \neq l.
\end{cases}
\]
Estimador del total
\[
\hat{t}_{y,\pi}
= \sum_{k\in S} \frac{y_k}{\pi_k}
\]
Varianza teórica
\[
\mathrm{Var}_{PO}(\hat{t}_{y,\pi})
= \sum_{k\in U} \Bigl(\tfrac{1}{\pi_k} - 1\Bigr)\,y_k^2
\]
Estimación de la varianza
\[
\widehat{\mathrm{Var}}_{PO}(\hat{t}_{y,\pi})
= \sum_{k\in S} (1 - \pi_k)\,\Bigl(\tfrac{y_k}{\pi_k}\Bigr)^{2}
\]
Bajo un diseño de muestreo Poisson con tamaño de muestra esperado (fijo) \(n\), la varianza del estimador de Horvitz–Thompson se minimiza tomando
\[ \pi_k \;\propto\; y_k \quad\Longrightarrow\quad \pi_k \;=\; \frac{n\,y_k}{\displaystyle\sum_{k\in U}y_k} \]
En la práctica no conocemos los valores \(y_k\) para todos los \(k\in U\).
En su lugar, elegimos una variable auxiliar \(x_k\) altamente correlacionada con \(y_k\).
Entonces fijamos
\[
\pi_k \;=\;\frac{n\,x_k}{\displaystyle\sum_{k\in U}x_k},
\quad k\in U,
\quad\text{con}\;\sum_{k\in U}\pi_k = n.
\]
Con esta elección, el estimador de Horvitz–Thompson se aproxima al óptimo sin conocer realmente todos los \(y_k\).
Ejercicio: (Sarndal, Swensson & Wretman 1992, p. 117) Para estimar el total de la característica de interés \(y\) de una población de \(N = 284\) elementos, se utilizó un diseño de muestreo Poisson de tamaño de muestra esperado \(n(S) = 10\). Las probabilidades de inclusión fueron proporcionales a una característica de información auxiliar \(x\) cuyo total poblacional es \(t_x = 8182\). Luego, el algoritmo de selección arrojó una muestra de tamaño efectivo de 12 elementos, para las cuales se obtuvo la siguiente información:
| \(x_k\) | 54 | 671 | 28 | 27 | 29 | 62 | 42 | 48 | 33 | 446 | 12 | 46 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| \(y_k\) | 5246 | 59877 | 2208 | 2546 | 2903 | 6850 | 3773 | 4055 | 4014 | 38945 | 1162 | 4852 |
Calcule una estimación insesgada para el total poblacional de la característica de interés, reporte el coeficiente de variación estimado y un intervalo de confianza al 95%.
Calcule una estimación insesgada para la media poblacional de la característica de interés, reporte el coeficiente de variación estimado y un intervalo de confianza al 95%.
Utilice el estimador alternativo para calcular estimaciones tanto del total como de la media poblacional.
Según Bautista (1998), en un diseño con reemplazo las probabilidades de selección óptimas son
\[ p_k \;=\; \frac{y_k}{\displaystyle\sum_{k\in U}y_k} \]
Con
\[
\hat t_{y,p}
= \frac1m \sum_{i=1}^m \frac{y_{k_i}}{p_{k_i}}
\quad\text{y}\quad
p_k = \frac{y_k}{\sum_{k\in U}y_k},
\] si tomamos \(m = 1\)
obtenemos:
\[ \hat t_{y,p} = \frac1{1}\,\frac{y_{k_1}}{p_{k_1}} = \frac{y_{k_1}}{\;y_{k_1} / \sum_{k\in U}y_k\;} = \sum_{k\in U}y_k. \]
Conclusión: Con una sola selección \((m=1)\) y probabilidades PPT, el estimador recupera exactamente el total poblacional \(\sum_{k\in U}y_k\).
Se define un diseño de muestreo con probabilidad de selección proporcional al tamaño de la característica auxiliar, de la siguiente manera:
\[ p(s)=\begin{cases} \frac{m!}{n_1(s)!\ldots n_N(s)!}\prod_U \left(\frac{1}{p_k}\right)^{n_k(s)} & \text{si} \ \sum_Un_k(s)=m \\ 0 &\text{en otro caso} \end{cases} \]
Donde \(n_k(s)\) es el número de veces que el elemento \(k\)-ésimo es seleccionado en la muestra realizada \(s\) y \(p_k\) es la probabilidad de selección del elemento \(k\)-ésimo dada por
\[ p_k=\frac{x_k}{t_x} \] con \(t_x\) el total poblacional de la característica auxiliar \(x\).
Para un diseño de muestreo con reemplazo y con probabilidades de selección proporcionales al tamaño de una característica de información auxiliar, las probabilidades de inclusión de primer y segundo orden están dadas por:
\[ \pi_k = 1-\left(1-p_k\right)^m \]
\[ \pi_{kl} = 1 - (1 - p_k)^m - (1 - p_l)^m + (1 - p_k - p_l)^m \]
En donde \(p_k=\dfrac{x_k}{t_x}\)
Siendo \(M\geq\max(x_{1},\ldots,x_{N})\), los siguientes dos pasos se ejecutan para seleccionar un elemento.
Seleccione un número \(l\) de manera aleatoria de una distribución de probabilidad uniforme discreta en el intervalo \([1,N]\).
Seleccione un número \(\eta\) de manera aleatoria de una distribución de probabilidad uniforme discreta en el intervalo \([1,M]\).
Si \(\eta \leq x_l\), entonces el elemento \(l\)-ésimo es seleccionado. Si, por el contrario, \(\eta > x_l\) se repite el procedimiento hasta seleccionar una unidad. Si el tamaño de la muestra a seleccionar es \(m\), entonces el anterior esquema se realiza \(m\) veces.
Suponga que para la población de ejemplo \(U\) se tiene conocimiento de cada valor de la siguiente característica de información auxiliar correlacionada con la característica de interés.
Para seleccionar una muestra con probabilidad proporcional a \(x\), se crean las probabilidades de selección dadas por
Para seleccionar una muestra con reemplazo de la población \(U\) utilizando el paquete
TeachingSampling implementa la función S.PPS que consta de
dos argumentos, \(m\) el tamaño de
muestra y \(x\) la caracteristica de
interés que contiene todos y cada uno de los valores correspondientes a
los elementos de la población para la característica auxiliar.
## [1] "Erik" "Erik" "Erik"
Sea \(x_k\), el valor de una característica auxiliar continua, para un diseño de muestreo aleatorio proporcional al tamaño con reemplazo, el estimador de Hansen-Hurwitz del total poblacional \(t_y\), su varianza y su varianza estimada están dados por:
\[ \hat{t}_{y,p}=\frac{t_x}{m}\sum_{i=1}^m\frac{y_{ki}}{x_{ki}} \]
\[ Var_{PPT}(\hat{t}_{y,p})=\frac{1}{m}\sum_{k=1}^{N}p_k\left(\frac{y_k}{p_k}-t_y\right)^2 \]
\[ \widehat{Var}_{PPT}(\hat{t}_{y,p})=\frac{1}{m(m-1)}\sum_{i=1}^{m}\left(\frac{y_i}{p_i}-\hat{t}_{y,p}\right)^2 \] —
\[ \begin{align*} E\left(\frac{t_x}{m}\sum_{i=1}^m\frac{y_{ki}}{x_{ki}}\right)&=E\left(\frac{t_x}{m}\sum_{U}n_k(S)\frac{y_k}{x_k}\right) \\ &=\frac{t_x}{m}\sum_{U}E(n_k(S))\frac{y_k}{x_k} \\ &=\frac{t_x}{m}\sum_{U}m\frac{x_k}{t_x}\frac{y_k}{x_k}=t_y \end{align*} \] —
Para el diseño de muestreo PPT, el estimador de Hansen-Hurwitz del total de la característica de información auxiliar reproduce ese total con varianza nula
Demo: De la definición del estimador Hansen-Hurwitz, se tiene que:
\[ \begin{align*} \hat{t}_{x,p}=\frac{1}{m}\sum_{k\in S}\frac{x_k}{p_k}=\frac{1}{m}\sum_{k\in S}t_x=t_x \end{align*} \]
Por otro lado,
\[ \begin{align} Var_{PPT}(\hat{t}_{y,p})&=\frac{1}{m}\sum_{k=1}^{N}p_k\left(\frac{x_k}{p_k}-t_x\right)^2\\ &=\frac{1}{m}\sum_{k=1}^{N}p_k(t_x-t_x)^2=0 \end{align} \]
La resta de la varianza de la estrategia aleatoria simple con reemplazo con la varianza de la estrategia PPT da como resultado la siguiente expresión:
\[ \begin{align} Var_{MRAS}(\hat{t}_{y,p})-Var_{PPT}(\hat{t}_{y,p})=\frac{N^2}{m}Cov\left(x,\frac{y^2}{x}\right) \end{align} \]
Demo:
\[ Var_{MRAS}\left(\hat{t}_{y,p})-Var_{PPT}(\hat{t}_{y,p}\right) = A \\ \begin{align*} A &=\frac{1}{m}\left[ N\sum_{k=1}^Ny_k^2-t_y^2-t_x\sum_{k=1}^N\frac{y_k^2}{x_k}+t_y^2\right] \\ &=\frac{1}{m}\left[ \sum_{k=1}^N\frac{y_k^2}{x_k}(Nx_k-t_x)\right] \\ &=\frac{N}{m}\left[ \sum_{k=1}^N\frac{y_k^2}{x_k}(x_k-\bar{x})\right] \\ &=\frac{N^2}{m}Cov\left(x,\frac{y^2}{x}\right) \end{align*} \]
Nota:
\[ \begin{align*} NCov\left(x,w\right)&=\sum_{k=1}^N(x_k-\bar{x})(w_k-\bar{w}) \\ &=\sum_{k=1}^N(x_k-\bar{x})w_k-\bar{w}\sum_{k=1}^N(x_k-\bar{x}) \\ &=\sum_{k=1}^N(x_k-\bar{x})w_k \end{align*} \]
data(BigLucy)
attach(BigLucy)
m <- 400
pk <- Income/sum(Income)
sam <- S.PPS(m,Income)
muestra <- BigLucy[sam,]
attach(muestra)
pk.s <- pk[sam]
E.PPS(Income,pk.s)## N y
## Estimation 83394.380084 36634733
## Standard Error 3236.356177 0
## CVE 3.880785 0
## DEFF Inf 0
Suponga una población de 12 elementos \(U = \epsilon_1, \epsilon_2, \ldots, \epsilon_n\) cuyo marco de muestreo contiene una característica de información auxiliar dada por:
Utilice el metodo acumulativo total para seleccionar una muestra PPT teniendo en cuenta que para cada una de las seis extracciones se generaron los siguientes números aleatorios uniformes \(\zeta = 0.075, 0.397, 0.280, 0.407, 0.982, 0.782\)
Utilice el método de Lahiri para seleccionar una muestra PPT usando sus propios números aleatorios \(\eta\) y \(l\) en cada una de las extracciones.
Cambie el tamaño de muestra y con las variables
Employees y Taxes, estime el promedio junto
con su Cve (escoja la mejor variable auxiliar).
Compare esto con los otros diseños vistos en clase.
Según Gutierrez(2015), utilizar una estrategia de muestreo que contemple un diseño de muestreo con reemplazo es menos eficiente que implementar una estrategia de muestreo que contemple un diseño de muestreo sin reemplazo y de tamaño muestral fijo.
De esta forma, es posible aumentar significativamente la eficiencia de la estrategia que involucra al estimador de Horvitz-Thompson.
Este diseño de muestreo induce probabilidades de inclusión proporcionales al tamaño de una característica de información auxiliar. De esta manera, se supone que el marco de muestreo tiene la bondad de poseer información auxiliar de tipo continuo y positiva disponible para todo elemento perteneciente a la población finita. Asimismo, el diseño de muestreo \(\pi\)PT, de tamaño de muestra fijo e igual a \(N\), se basa en la construcción de probabilidades de inclusión que obedezcan la siguiente relación:
\[ \pi_k = \frac{nx_k}{t_x} \ \ \ \ \ \ \ 0<\pi_k\leq 1 \]
Se busca que:
El algoritmo de selección de muestras bajo este diseño sea de fácil implementación computacional.
Las probabilidades de inclusión de segundo orden sean positivas, \(\pi_{kl} > 0\). De lo contrario el estimador de la varianza podrá ser sesgado.
El cálculo de estas probabilidades de inclusión de segundo orden, \(\pi_{kl}\) , sea sencillo.
\(\Delta_{kl} < 0\) \(\forall_k \notin l\) para que la estimación de la varianza no sea negativa.
En ciertas ocasiones, cuando la población tiene un comportamiento muy variable, irregular y sesgado, algunas de las \(\pi_k\) pueden ser mayores a uno para ciertos elementos. En tal caso, estos elementos son incluidos en todas las posibles muestras y toman el nombre de elementos de inclusión forzosa.
Sin embargo, para calcular la probabilidad de inclusión de los elementos restantes, se utiliza la siguiente expresión:
\[ \pi_k=\frac{(n-n^*)x_k}{\sum_{k\in U^*}x_k} \ \ \ \ \ \ 0<\pi_k\leq 1; \ \ k\in U^* \]
donde \(n^*\) corresponde al número de elementos de inclusión forzosa y \(U^*\) la población finita excluyendo a estos elementos de inclusión forzosa.
Al final del proceso, deberían existir dos grupos de elementos:
Un grupo de elementos de inclusión forzosa con probabilidades de inclusión iguales a uno.
Un grupo de elementos con probabilidades de inclusión \(0 < \pi_k < 1\) y proporcionales a \(x_k\).
Para el diseño de muestreo \(\pi\)PT, el estimador de Horvitz-Thompson, su varianza y su varianza estimada están dados por:
\[ \hat{t}_{y,\pi}=\sum_S\frac{y_k}{\pi_k} \]
\[ Var_{\pi PT}(\hat{t}_{y,\pi})=-\frac{1}{2}\sum\sum_U\Delta_{kl}\left(\frac{y_k}{\pi_k}-\frac{y_l}{\pi_l}\right)^2 \]
\[ \widehat{Var}_{\pi PT}(\hat{t}_{y,\pi})=-\frac{1}{2}\sum\sum_S\frac{\Delta_{kl}}{\pi_{kl}}\left(\frac{y_k}{\pi_k}-\frac{y_l}{\pi_l}\right)^2 \] —
Suponga que para la población de ejemplo \(U\) se tiene conocimiento de cada valor de la siguiente característica de información auxiliar correlacionada con la característica de interés. Por tanto, un primer paso para el cálculo de las probabilidades de inclusión es:
## [1] 0.6172107 0.7121662 0.8902077 1.1869436 0.5934718
Nótese que hay un elemento de la población que es de inclusión forzosa; Los demás elementos se calculan como sigue:
## [1] 0.6582278 0.7594937 0.9493671 0.6329114
Por tanto el vector de probabilidades de inclusión para toda la población U está dado por:
\[ \begin{align*}\boldsymbol{\pi}=(\underbrace{0.6582278}_{\textbf{Yves}},\underbrace{0.7594937}_{\textbf{Ken}},\underbrace{0.9493671}_{\textbf{Erik}},\underbrace{1.0000}_{\textbf{Sharon}},\underbrace{0.6329114}_{\textbf{Leslie}})\end{align*}' \]
Para el diseño de muestreo \(\pi\)PT, el estimador de Horvitz-Thompson del total de la característica de información auxiliar reproduce ese total con varianza nula
De la definición del estimador de Horvitz-Thompson se tiene que:
\[ \begin{align*}\hat{t}_{x,\pi}=\sum_{k\in S}\frac{x_k}{\pi_k}=\sum_{k\in S}t_x\frac{1}{n}=t_x\end{align*} \] Por otro lado,
\[ \begin{align} Var_{\pi PT}(\hat{t}_{x,\pi})&=-\frac{1}{2}\sum\sum_U\Delta_{kl}\left(\frac{x_k}{\pi_k}-\frac{x_l}{\pi_l}\right)^2 \\ &=-\frac{1}{2}\sum\sum_U\Delta_{kl}\left(\frac{t_x}{n}- \frac{t_x}{n}\right)^2=0\end{align} \] —
Ordenar descendentemente la población de acuerdo con los valores que toma la característica de información auxiliar \(x_k\). Realizar \(\xi \in U(0,1)\).
Para \(k = 1\), el primer elemento de la lista ordenada es incluido en la muestra sí y solamente sí \(\xi_1 < \pi_1\).
Para \(k \geq 2\), el \(k\)-ésimo elemento de la lista ordenada es incluido en la muestra sí y solamente sí
\[ \xi_k \leq\dfrac{n-n_{k-1}}{n-\sum_{i=1}^{k-1}\pi_i}\pi_k \] donde \(n_{k-1}\) representa el número de elementos que ya han sido seleccionados al final del paso \(k-1\).
U <- c("Yves", "Ken", "Erik", "Sharon", "Leslie")
N <- length(U)
n <- 3
x <- c(52,60,75,100,50)
pi <- (n*x)/sum(x)
sum(pi)## [1] 3
## [1] "Sharon" "Erik" "Ken"
## [1] 100 75 60
data(BigLucy)
attach(BigLucy)
N <- nrow(BigLucy)
n <- 3000
sam <- S.piPS(n, Income)
muestra <- BigLucy[sam,]
attach(muestra)
pik.s <- sam[,2]
variables = data.frame(Income, Employees, Taxes)
E.piPS(variables, pik.s)## N Income Employees Taxes
## Estimation 86467.520010 3.663473e+07 5.508469e+06 9.879927e+05
## Standard Error 1192.624515 4.667965e-11 7.246061e+04 1.018031e+04
## CVE 1.379275 1.274191e-16 1.315440e+00 1.030403e+00
## DEFF Inf 9.403773e-33 1.560477e+00 6.790956e-02
Cuando el marco de muestreo incluye información auxiliar para dividir la población en \(H\) subgrupos antes de la recolección:
Personas de distintas edades con distintas presiones sanguíneas (estratificar por grupos de edad). Se reduce la varianza pues los estratos son homogéneos por dentro, pero heterogéneos entre sí.
Nota importante
El objetivo del diseño estratificado es dar un tratamiento particular a cada subgrupo, ya sea por razones económicas, administrativas o logísticas. Es indispensable delimitar bien los subgrupos en la etapa de diseño.
Dividimos la población \(U\) en \(H\) estratos mutuamente excluyentes \(U_h\), \(h=1,\dots,H\):
Cada estrato \(U_h\) tiene tamaño \(N_h\), de modo que
\[ \sum_{h=1}^{H} N_h \;=\; N. \]
Total poblacional
\[
t_y \;=\;\sum_{k\in U}y_k
\;=\;
\sum_{h=1}^H \sum_{k\in U_h} y_k
\;=\;
\sum_{h=1}^H t_{y h},
\quad
t_{y h} = \sum_{k\in U_h} y_k
\]
Media poblacional
\[
\bar y
\;=\;
\frac{1}{N}\sum_{k\in U}y_k
\;=\;
\frac{1}{N}\sum_{h=1}^H \sum_{k\in U_h} y_k
\;=\;
\frac{1}{N}\sum_{h=1}^H N_h \,\bar y_h
\;=\;
\sum_{h=1}^H \frac{N_h}{N}\,\bar y_h,
\] donde \(\bar y_h =
\dfrac{1}{N_h}\sum_{k\in U_h} y_k\).
La muestra \(S\) queda definida por
\[ S=\bigcup_{h=1}^H S_h. \]
En particular, si la muestra seleccionada es \(s\), entonces
\[ s=\bigcup_{h=1}^H s_h. \]
Nótese que, si para cada estrato \(h\) seleccionamos \(n_h\) unidades, entonces el tamaño total de la muestra queda \[ n \;=\; \sum_{h=1}^{H} n_h. \]
Si en cada estrato \(h\) usamos un diseño de muestreo con distribución \(p_h(s_h)\), y las selecciones son independientes entre estratos, entonces el diseño global es
\[ p(s) = \prod_{h=1}^{H} p_h\bigl(s_h\bigr), \]
donde: \[ s \;=\;\bigcup_{h=1}^H s_h, \quad p_h(s_h)\;=\;\Pr\bigl(S_h = s_h\bigr). \]
Si \(\hat t_{yh}\) es un estimador insesgado de \(t_{yh}\) con varianza \(\mathrm{Var}(\hat t_{yh})\), entonces un estimador insesgado del total poblacional \(t_y\) se define como
\[ \hat t_y \;=\; \sum_{h=1}^H \hat t_{yh}, \]
y su varianza es
\[ \mathrm{Var}(\hat t_y) \;=\; \sum_{h=1}^H \mathrm{Var}(\hat t_{yh}). \]
Si \(\widehat{\mathrm{Var}}(\hat t_{yh})\) es un estimador insesgado de \(\mathrm{Var}(\hat t_{yh})\), entonces un estimador insesgado de \(\mathrm{Var}(\hat t_{y})\) es
\[ \widehat{\mathrm{Var}}(\hat t_{y}) \;=\; \sum_{h=1}^H \widehat{\mathrm{Var}}(\hat t_{yh}). \]
Para muestreo estratificado, el estimador de Horvitz–Thompson, su varianza y su varianza estimada son:
\[ \hat{t}_{y,\pi} = \sum_{h=1}^H \hat{t}_{y_h,\pi}, \qquad \hat{t}_{y_h,\pi} = \sum_{k\in S_h} \frac{y_k}{\pi_k} \]
\[ \mathrm{Var}_{\mathrm{EST}}(\hat{t}_{y,\pi}) = \sum_{h=1}^H \mathrm{Var}_{p_h}\bigl(\hat{t}_{y_h,\pi}\bigr) \]
\[ \widehat{\mathrm{Var}}_{\mathrm{EST}}(\hat{t}_{y,\pi}) = \sum_{h=1}^H \widehat{\mathrm{Var}}_{p_h}\bigl(\hat{t}_{y_h,\pi}\bigr) \]
donde: - \(\mathrm{Var}_{p_h}(\hat{t}_{y_h,\pi})\) es la varianza de \(\hat{t}_{y_h,\pi}\) en el \(h\)-ésimo estrato. - \(\widehat{\mathrm{Var}}_{p_h}(\hat{t}_{y_h,\pi})\) es su estimación basada en la muestra del \(h\)-ésimo estrato.
El diseño de muestreo aleatorio estratificado (EST-MAS) es el más sencillo de los diseños estratificados. En este caso particular se selecciona una muestra aleatoria simple en cada estrato, de tal forma que las selecciones sean independientes.
En cada estrato \(h\) una muestra aleatoria simple sin reemplazo de tamaño \(n_h\) es seleccionada, de manera independiente, de la población del estrato de tamaño \(N_h\).
Para tamaños de muestra fijos en cada estrato, denotados como \(n_1,\ldots,n_H\), un diseño estratificado aleatorio simple sin reemplazo tiene:
\[ p(s)= \begin{cases} \displaystyle \prod_{h=1}^H \frac{1}{\binom{N_h}{n_h}}, & \text{si } \sum_{h=1}^H n_h = n, \\[1ex] 0, & \text{en otro caso.} \end{cases} \]
Separar la población en \(H\) subgrupos (estratos) usando información auxiliar.
Para cada estrato \(h=1,\dots,H\):
Las \(H\) selecciones se realizan de forma independiente.
Suponga que nuestra población de ejemplo \(U\) está particionada de acuerdo a la sección anterior. Es necesario definir los dos estratos, de manera tal que ningún elemento tenga una doble pertenencia a algún estrato.
## [1] "Sharon"
## [1] "Ken" "Leslie"
## [1] "Sharon" "Ken" "Leslie"
Para un diseño de muestreo aleatorio estratificado (EST-MAS), las probabilidades de inclusión de primer y segundo orden son
\[ \pi_k \;=\;\frac{n_h}{N_h} \quad\text{si }k\in U_h \]
\[ \pi_{kl} \;=\; \begin{cases} \displaystyle \frac{n_h}{N_h}, & k = l,\;k\in U_h,\\[1ex] \displaystyle \frac{n_h}{N_h}\,\frac{n_h-1}{N_h-1}, & k\neq l,\;k,l\in U_h,\\[1ex] \displaystyle \frac{n_h}{N_h}\,\frac{n_i}{N_i}, & k\in U_h,\;l\in U_i,\;i\neq h. \end{cases} \]
La covarianza de las variables indicadoras está dada por
\[ \Delta_{kl}= \begin{cases} \dfrac{n_h}{N_h}\dfrac{N_h-n_h}{N_h}, & \text{si} \ \ k=l, k\in U_h, \\ -\dfrac{n_h}{N_h^2}\dfrac{(N_h-n_h)}{(N_h-1)}, & \text{si} \ \ k,l\in U_h, \\ 0, & \text{si} \ \ k\in U_h, l\in U_i, i\neq h. \end{cases} \] —
Bajo un diseño de muestreo aleatorio simple sin reemplazo en el estrato \(h\), un estimador insesgado de la media \(\bar{y}_{Uh}\), su varianza y su varianza estimada están dados por
\[ \hat{\bar{y}}_{Uh,\pi}=\dfrac{1}{n_h}\sum_{k\in S_h}y_k \]
\[ Var_{MAS}(\hat{\bar{y}}_{Uh,\pi})=\frac{1}{n_h} \left(1-\frac{n_h}{N_h}\right)S^2_{yU_h} \]
\[ \widehat{Var}_{MAS}(\hat{\bar{y}}_{Uh,\pi})=\frac{1}{n_h}\left(1-\frac{n_h}{N_h}\right)S^2_{ys_h} \]
¿Si un estimador insesgado del total poblacional \(t_y\) es la suma de cada una de las estimaciones en los \(H\) estratos, entonces un estimador del promedio poblacional \(\bar{y}_U\) será un promedio de los promedios estimados en los \(H\) estratos?. El anterior razonamiento es intuitivo pero es errado por la siguiente razón:
\[ \bar{y}_U\neq\dfrac{\bar{y}_{U_1}+\bar{y}_{U_2}+ \ldots+\bar{y}_{U_H}}{H} \] —
Un intervalo de \(100(1-\alpha)\)% de confianza para la media de una población está dado por
\[ \hat{\bar{y}}_{U,\pi}\pm Z_{1-\frac{\alpha}{2}} \sqrt{Var_{MAE}(\hat{\bar{y}}_{U,\pi})} \]
si se cumple algunas de las siguientes condiciones:
El tamaño de muestra \(n_h\) en cada estrato \(h\) es grande.
Existe una gran número de estratos.
Si las anteriores condiciones no pueden ser satisfechas, se prefiere utilizar el percentil de una distribución t-student con \(N-H\) grados de libertad. Así, un intervalo de confianza para la media poblacional está dado por
\[ \hat{\bar{y}}_{U,\pi}\pm t_{1-\frac{\alpha}{2},N-H} \sqrt{Var_{MAE}(\hat{\bar{y}}_{U,\pi})} \]
Se decide utilizar este tipo de asignación cuando la muestra debe ser
representativa de la población de acuerdo al comportamiento de la
información auxiliar.
Lohr (2000) señala que, bajo asignación proporcional, la muestra
puede verse como una versión “miniatura” de la población.
Un diseño de muestreo aleatorio estratificado tiene asignación proporcional si:
\[ \frac{n_h}{N_h} \;=\; \frac{n}{N} \quad (h = 1, \ldots, H) \]
Para un diseño de muestreo aleatorio estratificado con asignación proporcional, el estimador de Horvitz–Thompson del total poblacional \(t_y\), su varianza y su varianza estimada están dados por:
\[ \hat{t}_{y,\pi} = \frac{N}{n}\,\sum_{k\in S} y_k \]
\[ \mathrm{Var}_{\mathrm{MAE}}(\hat{t}_{y,\pi}) = \frac{N^2}{n}\biggl(1 - \frac{n}{N}\biggr) \sum_{h=1}^H \frac{n_h}{n}\,S^2_{yU_h} \]
\[ \widehat{\mathrm{Var}}_{\mathrm{MAE}}(\hat{t}_{y,\pi}) = \frac{N^2}{n}\biggl(1 - \frac{n}{N}\biggr) \sum_{h=1}^H \frac{n_h}{n}\,S^2_{ys_h} \]
Para el total: \[ \begin{aligned} \hat{t}_{y,\pi} &= \sum_{h=1}^H \frac{N_h}{n_h} \sum_{k\in S_h} y_k \\ &= \frac{N}{n} \sum_{h=1}^H \sum_{k\in S_h} y_k \\ &= \frac{N}{n} \sum_{k\in S} y_k \end{aligned} \]
Para la varianza: \[ \begin{aligned} \sum_{h=1}^{H}\frac{N_{h}^{2}}{n_{h}}\Bigl(1-\frac{n_{h}}{N_{h}}\Bigr)S^2_{yU_{h}} &= \sum_{h=1}^{H}\frac{N_{h}^{2}}{n_{h}^{2}}\Bigl(1-\frac{n_{h}}{N_{h}}\Bigr)\,n_{h}\,S^2_{yU_{h}}\\ &= \frac{N^{2}}{n^{2}}\Bigl(1-\frac{n}{N}\Bigr)\sum_{h=1}^{H}n_{h}\,S^2_{yU_{h}}\\ &= \frac{N^{2}}{n}\Bigl(1-\frac{n}{N}\Bigr)\sum_{h=1}^{H}\frac{n_{h}}{n}\,S^2_{yU_{h}} \end{aligned} \]
Bajo la asignación de Neyman, el tamaño de muestra que minimiza la varianza en los estratos está dado por
\[ n_h \;=\; n \,\frac{N_h\,S_{y,U_h}}{\displaystyle\sum_{j=1}^H N_j\,S_{y,U_j}} \]
donde \(S_{y,U_h} = \sqrt{S^2_{y,U_h}}\).
Queremos minimizar \[ \sum_{h=1}^H \frac{N_h^2}{n_h}\!\Bigl(1 - \frac{n_h}{N_h}\Bigr)\,S^2_{yU_h} \] sujeto a \(\sum_{h=1}^H n_h = n\). Definimos la función de Lagrange \[ \mathcal{L}(n_1,\dots,n_H,\lambda) = \sum_{h=1}^H \frac{N_h^2}{n_h}\!\Bigl(1 - \frac{n_h}{N_h}\Bigr)\,S^2_{yU_h} \;-\; \lambda\Bigl(n - \sum_{h=1}^H n_h\Bigr). \]
Anulamos derivadas parciales:
\[ \begin{cases} \displaystyle \frac{\partial\mathcal{L}}{\partial \lambda} = n - \sum_{h=1}^H n_h = 0, \\[1em] \displaystyle \frac{\partial\mathcal{L}}{\partial n_h} = -\,\frac{N_h^2}{n_h^2}\,S^2_{yU_h} + \lambda = 0. \end{cases} \]
De la segunda ecuación, \[ n_h = \frac{N_h}{\sqrt{\lambda}}\,S_{yU_h}. \]
Sustituyendo en \(\sum n_h = n\): \[ n = \frac{1}{\sqrt{\lambda}}\sum_{h=1}^H N_h\,S_{yU_h}, \quad\Longrightarrow\quad \sqrt{\lambda} = \frac{1}{n}\sum_{h=1}^H N_h\,S_{yU_h}. \] Por tanto resulta \[ n_h = n \;\frac{N_h\,S_{yU_h}}{\displaystyle\sum_{j=1}^H N_j\,S_{yU_j}}. \]
Bajo la asignación óptima, el tamaño de muestra que minimiza la función de coste está dado por
\[ n_h \;=\; \frac{C}{\sqrt{c_h}} \;\frac{N_h\,S_{yU_h}}{\displaystyle\sum_{i=1}^H N_i\,\sqrt{c_i}\,S_{yU_i}}, \]
con
\[ C \;=\; \sum_{h=1}^H n_h\,C_h. \]
Afijación uniforme (menos utilizada). Reparte el tamaño muestral \(n\) en \(H\) partes iguales: \[ n_h = \frac{n}{H}\,,\quad h=1,\dots,H. \]
Afijación proporcional. Reparte el tamaño global \(n\) proporcionalmente al tamaño de cada estrato: \[ n_h = n\,\frac{N_h}{N} = n\,\phi_h,\quad \phi_h=\frac{N_h}{N}. \] (redondear \(n_h\) por exceso si es necesario).
En los tres casos, puede escribirse \[ n_h = n\,w_h, \] con \[ w_h = \begin{cases} \tfrac1H, & \text{(uniforme)},\\[6pt] \phi_h, & \text{(proporcional)},\\[6pt] \displaystyle\frac{\phi_h\,s_h}{\sum_{i=1}^H \phi_i\,s_i}, & \text{(óptima)}. \end{cases} \]
\[ n = \frac{\displaystyle\sum_{h=1}^H \frac{\phi_h^2\,s_h^2}{w_h}} {\displaystyle\Bigl(\frac{\epsilon}{z_{1-\alpha/2}}\Bigr)^2 \;+\;\frac{1}{N}\sum_{h=1}^H \phi_h\,s_h^2} \]
Para población infinita (\(N\to\infty\)):
\[ n = \Bigl(\frac{z_{1-\alpha/2}}{\epsilon}\Bigr)^{\!2} \sum_{h=1}^H \phi_h^2\,\frac{s_h^2}{w_h} \]
data(BigLucy)
attach(BigLucy)
p1 <- qplot(Level, Income, data=BigLucy, geom=c("boxplot"))
p2 <- qplot(Level, Employees, data=BigLucy, geom=c("boxplot"))
p3 <- qplot(Level, Taxes, data=BigLucy, geom=c("boxplot"))
p4 <- qplot(Level, Years, data=BigLucy, geom=c("boxplot"))
N1 <- summary(Level)[[1]]
N2 <- summary(Level)[[2]]
N3 <- summary(Level)[[3]]
N <- c(N1,N2,N3)Se emplea muestreo por conglomerados cuando:
Selección a nivel de conglomerado
Los individuos sólo pueden entrar en la muestra si su “bloque”
(conglomerado) ha sido elegido.
Contraste con estratificación
Redundancia de información
Dentro de cada conglomerado, los individuos comparten rasgos similares →
“repite” datos del mismo grupo y aporta menos información
nueva.
Impacto en la varianza
Varianza muestral mayor que en SRS de mismo tamaño, a menos que los
conglomerados sean muy heterogéneos internamente.
Suponga que la población de elementos
\[
U = \{1,\dots,k,\dots,N\}
\]
se divide en \(N_I\) subgrupos
poblacionales, llamados conglomerados, denotados
\[
U_1, U_2, \dots, U_{N_I}.
\]
La población de conglomerados se indexa, sin pérdida de generalidad,
como
\[
U_I = \{1,\dots,N_I\}.
\]
Estos conglomerados definen una partición de \(U\) tal que:
El número de unidades en el conglomerado \(i\)-ésimo se llama tamaño del
conglomerado \(N_i\), y
satisface
\[
N = \sum_{i=1}^{N_I} N_i,
\]
donde \(N\) es el tamaño total de la
población \(U\).
\[ \bar{y}_U = \frac{\sum_{k \in U} y_k}{N} = \frac{1}{N} \sum_{i=1}^{N_I} \sum_{k \in U_i} y_k = \frac{1}{N} \sum_{i=1}^{N_I} N_i \bar{y}_i, \]
donde
\[
\bar{y}_i = \frac{1}{N_i} \sum_{k \in U_i} y_k
\]
es la media del \(i\)-ésimo
conglomerado.
El esquema general del diseño de muestreo por conglomerados está definido de la siguiente forma:
El tamaño de la muestra aleatoria de conglomerados está dado por:
Si la muestra es de tamaño fijo,
\[
n(S_I) = n_I
\]
Si la muestra es de tamaño variable,
\[
n(S_I) \text{ es una variable aleatoria.}
\]
La muestra aleatoria de elementos viene caracterizada por
\[
S = \bigcup_{i\in S_I} U_i
\]
y el tamaño de la muestra de elementos por
\[
n(S) = \sum_{i\in S_I} N_i
\]
La probabilidad de inclusión del conglomerado \(i\)-ésimo está dada por
\[
\pi_{Ii} \;=\; \Pr(i \in S_I) \;=\; \sum_{s_I \ni i} p_I(s_I)\,.
\]
La probabilidad de inclusión conjunta de los conglomerados \(i\)-ésimo y \(j\)-ésimo está dada por
\[
\pi_{Iij} \;=\; \Pr\bigl(i \in S_I \;\text{y}\; j \in S_I\bigr)
\;=\; \sum_{s_I \ni i,\;s_I \ni j} p_I(s_I)\,.
\]
Por consiguiente, para \(i = j\) se
tiene
\[
\pi_{Iii} = \pi_{Ii}\,.
\]
La probabilidad de inclusión del elemento \(k\)-ésimo, que pertenece al conglomerado
\(i\), está dada por
\[
\pi_{k} \;=\; \pi_{Ii}
\quad\text{si } k \in U_i.
\]
La probabilidad conjunta de inclusión de los elementos \(k\)-ésimo y \(l\)-ésimo es
\[
\pi_{kl} \;=\;
\begin{cases}
\pi_{Ii}, & \text{si } k,l \in U_i,\\[6pt]
\pi_{Iij}, & \text{si } k \in U_i,\; l \in U_j,\; i \neq j.
\end{cases}
\]
Bajo un diseño de muestreo por conglomerados, el estimador de Horvitz–Thompson para el total \(t_{y}\), su varianza teórica y su varianza estimada se definen como:
\[ \hat{t}_{y,\pi} \;=\; \sum_{i\in S_I} \frac{t_{y i}}{\pi_{I i}} \]
\[ \mathrm{Var}_{1}(\hat{t}_{y,\pi}) \;=\; \sum_{i=1}^{N_I}\;\sum_{j=1}^{N_I} \Delta_{I\,ij} \;\frac{t_{y i}}{\pi_{I i}} \;\frac{t_{y j}}{\pi_{I j}} \quad,\quad \Delta_{I\,ij} =\pi_{I\,ij}-\pi_{I i}\,\pi_{I j} \]
\[ \widehat{\mathrm{Var}}_{1}(\hat{t}_{y,\pi}) \;=\; \sum_{i\in S_I}\;\sum_{j\in S_I} \frac{\Delta_{I\,ij}}{\pi_{I\,ij}} \;\frac{t_{y i}}{\pi_{I i}} \;\frac{t_{y j}}{\pi_{I j}} \]
donde
- \(t_{y i}=\sum_{k\in U_i}y_k\) es el
total del \(i\)-ésimo
conglomerado,
- \(\pi_{I i}=P(i\in S_I)\) y \(\pi_{I\,ij}=P(i,j\in S_I)\) son las
probabilidades de inclusión de primer y segundo orden,
- \(\Delta_{I\,ij}=\pi_{I\,ij}-\pi_{I
i}\,\pi_{I j}\).
Ambos estimadores cumplen:
\[
E[\hat{t}_{y,\pi}]=t_{y},
\quad
E\bigl[\widehat{\mathrm{Var}}_{1}(\hat{t}_{y,\pi})\bigr]
=\mathrm{Var}_{1}(\hat{t}_{y,\pi}).
\]
Para el estimador:
\[ \begin{aligned} \hat{t}_{y,\pi} &= \sum_{k\in S}\frac{y_k}{\pi_k} = \sum_{i\in S_I}\sum_{k\in U_i}\frac{y_k}{\pi_k} = \sum_{i\in S_I}\frac{1}{\pi_{I\,i}}\sum_{k\in U_i}y_k = \sum_{i\in S_I}\frac{t_{y i}}{\pi_{I\,i}}. \end{aligned} \]
Para la varianza, notemos primero que las diferencias de inclusión son
\[ \Delta_{k\ell} = \pi_{k\ell}-\pi_k\pi_\ell = \begin{cases} \pi_{I\,i}-\pi_{I\,i}^2, & k,\ell\in U_i,\\ \pi_{I\,ij}-\pi_{I\,i}\,\pi_{I\,j}, & k\in U_i,\ \ell\in U_j,\ i\neq j. \end{cases} \]
Entonces
\[ \begin{aligned} \mathrm{Var}_{1}(\hat{t}_{y,\pi}) &= \sum_{k\in U}\sum_{\ell\in U} \Delta_{k\ell} \;\frac{y_k}{\pi_k}\;\frac{y_\ell}{\pi_\ell} \\ &= \sum_{i=1}^{N_I}\sum_{j=1}^{N_I} \Delta_{I\,ij} \;\frac{1}{\pi_{I\,i}} \;\frac{1}{\pi_{I\,j}} \sum_{k\in U_i}y_k \sum_{\ell\in U_j}y_\ell \\ &= \sum_{i=1}^{N_I}\sum_{j=1}^{N_I} \Delta_{I\,ij} \;\frac{t_{y i}}{\pi_{I\,i}} \;\frac{t_{y j}}{\pi_{I\,j}}. \end{aligned} \]
Si el diseño de muestreo \(p_I(s_I)\) es de tamaño fijo, la varianza del estimador de Horvitz–Thompson y su varianza estimada toman la siguiente forma:
\[ Var_2(\hat{t}_{y,\pi}) = -\tfrac{1}{2} \sum_{i=1}^{N_I}\sum_{j=1}^{N_I} \Delta_{I\,ij} \left( \frac{t_{y\,i}}{\pi_{I\,i}} - \frac{t_{y\,j}}{\pi_{I\,j}} \right)^{\!2}, \]
\[ \widehat{Var}_2(\hat{t}_{y,\pi}) = -\tfrac{1}{2} \sum_{i\in S_I}\sum_{j\in S_I} \frac{\Delta_{I\,ij}}{\pi_{I\,ij}} \left( \frac{t_{y\,i}}{\pi_{I\,i}} - \frac{t_{y\,j}}{\pi_{I\,j}} \right)^{\!2}. \]
Nótese que \(\widehat{Var}_2(\hat{t}_{y,\pi})\) es insesgado para \(Var_2(\hat{t}_{y,\pi})\).
Un diseño de muestreo se dice aleatorio simple para conglomerados si todas las posibles muestras de tamaño \(n_I\) tienen la misma probabilidad de ser seleccionadas:
\[ p_I(s_I)= \begin{cases} \dfrac{1}{\displaystyle\binom{N_I}{n_I}}, & \text{si } \#s_I = n_I,\\[1em] 0, & \text{en otro caso}. \end{cases} \]
Una vez que la muestra de conglomerados \(s_I\) es seleccionada, se realiza la enumeración completa y la medición de todos los elementos de cada conglomerado incluido en \(s_I\).
Para MAS de conglomerados sin reemplazo:
Definir conglomerados
Construir el marco de muestreo de conglomerados, dividiendo la población
en \(N_I\) grupos: \[
U_I = \{U_1, U_2, \dots, U_{N_I}\}.
\]
Elegir conglomerados
Seleccionar \(n_I\) conglomerados de
\(U_I\) mediante un método
probabilístico (sin reemplazo), por ejemplo: Coordinado
negativo o Fan–Müller–Reza (FMR)
Enumerar unidades
Para cada conglomerado \(i\in s_I\),
medir todos los elementos \(k\in U_i\) y registrar su \(y_k\).
Para muestreo aleatorio simple de conglomerados (MAS de conglomerados) sin reemplazo:
Probabilidades de inclusión de conglomerados
Para MAS de conglomerados (sin reemplazo, tamaño de muestra fijo \(n_I\)):
Estimador de Horvitz–Thompson
\[
\hat t_{y,\pi}
= \frac{N_I}{n_I}\;\sum_{i\in S_I} t_{y\,i}
\quad,\quad
t_{y\,i} = \sum_{k\in U_i} y_k
\]
Varianza teórica
\[
\mathrm{Var}_{MAC}(\hat t_{y,\pi})
= \frac{N_I^2}{n_I}\,
\Bigl(1 - \tfrac{n_I}{N_I}\Bigr)\,
S^2_{t_{y\,U_I}}
\quad,\quad
S^2_{t_{y\,U_I}}
= \frac{1}{N_I - 1}
\sum_{i=1}^{N_I}
\bigl(t_{y\,i} - \bar t_{y\,U_I}\bigr)^2
\]
con \(S^2_{t_{yU_I}}\) y \(S^2_{t_{ys_I}}\) el estimador de la varianza de los totales de los conglomerados para la característica de interés en el universo \(U_I\) y en la muestra \(s_I\).
Esto es
\[ S^2_{t_{yU_I}}=\frac{1}{N_I-1}\sum_{i\in U_I}(t_{yi}-\bar{t}_{U_I})^2, \]
donde \(\bar{t}_{U_I}=\sum_{i=1}^{N_I}t_{yi}/N_I\), y \(S^2_{t_{yS_I}}\) se define de manera análoga. Nótese que \(\hat{t}_{y,\pi}\) es insesgado para el total poblacional \(t_y\) de la característica de interés \(y\), y que \(\widehat{Var}_{MAC}(\hat{t}_{y,\pi})\) es insesgado para \(Var_{MAC}(\hat{t}_{y,\pi})\).
library(TeachingSampling)
data(BigLucy)
attach(BigLucy)
Conglo<- names(table(BigLucy$Zone))
NI<- length(Conglo)
nI<- 0.5*NI
samI <- S.SI(NI,nI)
muestra <- Conglo[samI]
Inc<- NA;
for(i in 1:nI){
Lucy1 <- BigLucy[which(Zone==muestra[i]),]
Inc[i]<- sum(Lucy1$Income)}
E.SI(NI,nI,Inc)En el muestreo en varias etapas, repetimos jerárquicamente hasta \(l\) veces:
| Ventajas | Desventajas |
|---|---|
| – Reduce costos de campo | – Menor precisión (diseño de clusters) |
| – Facilita muestreos de poblaciones dispersas | – Cálculo de varianza más complejo |
| – Flexible (diseños mixtos, varios estratos) | – Requiere marcos intermedios bien definidos |
Nótese que se ha introducido el concepto de unidad de muestreo refiriéndose a conglomerados de elementos o a los elementos.
Si el diseño de muestreo tiene tres etapas, por ejemplo: si se quieren obtener estimaciones acerca del comportamiento de los alumnos en determinada ciudad, y no se dispone de un marco de muestreo de los alumnos, es posible en una primera etapa levantar un marco de muestreo de todas y cada una de las escuelas en la ciudad y realizar una selección de una muestra de escuelas mediante cierto diseño de muestreo.
Una vez que las escuelas son seleccionadas, en una segunda etapa, se levanta un marco de muestreo de niveles académicos dentro de las escuelas (cursos o clases) y se procede a seleccionar una muestra de niveles. De tal forma que en la tercera y última etapa, se levanta un marco de muestreo de elementos; es decir, de alumnos pertenecientes a cada nivel seleccionado, y se realiza una muestra de elementos que serán observados y medidos.
Es interesante observar cómo la población, en el estado de la
naturaleza, se subdivide gracias al comportamiento
jerárquico, que en este caso particular toma la siguiente
forma:
\[\begin{equation*} \underbrace{\textbf{Ciudad}}_{\text{Población$U$}} \Rrightarrow \underbrace{\textbf{Escuelas}}_{\text{UPM}} \Rrightarrow \underbrace{\textbf{Niveles}}_{ \text{USM}} \Rrightarrow \underbrace{\textbf{Alumnos}}_{ \text{UTM}} \end{equation*}\]
Se llama Unidad Primaria de Muestreo o UPM a la primera subdivisión en conglomerados de la población original,
Se llama Unidad Secundaria de Muestreo o USM a la sub-subdivisión de la población, es decir la subdivisión de las UPM
y Unidad Terciaria de Muestreo o UTM corresponde a los elementos de la población objetivo, que en este caso particular son los alumnos de la ciudad.
No siempre las unidades finales de muestreo son elementos, es así como es posible planear un diseño en dos etapas de conglomerados, refiriéndose a que la unidad secundaria de muestreo son conglomerados, o también es posible aplicar un diseño en cuatro etapas de elementos, en donde las unidades finales de muestreo sean elementos; por ejemplo:
\[ \begin{equation*} \underbrace{\textbf{Ciudad}}_{\text{Población$U$}} \Rrightarrow \underbrace{\textbf{Sección}}_{\text{UPM}} \Rrightarrow \underbrace{\textbf{Manzana}}_{ \text{USM}} \Rrightarrow \underbrace{\textbf{Vivienda}}_{ \text{UTM}} \Rrightarrow \underbrace{\textbf{Persona}}_{\text{UCM}} \end{equation*} \]
Invariancia
La probabilidad de seleccionar cualquier muestra en la etapa \(r\) no depende de cómo se
haya muestreado en las etapas \(<r\).
Independencia
Cada submuestreo (ya sea de conglomerados o de elementos) se
realiza de forma independiente de:
Nótese que lo anterior implica que \(p_i(\cdot|s_I)=p_I(\cdot)\) La independencia significa que el proceso de selección de muestras en la segunda etapa dentro de cada unidad primaria de muestreo no depende de los procesos de selección utilizados en los restantes unidades primarias de muestreo.
Independencia Condicional: Para cada realización \(s_I\) de la 1.ª etapa, las submuestras en los conglomerados seleccionados se toman de forma independiente: \[ Pr\Bigl(\bigcup_{i\in s_I} S_i \,\Big|\, S_I = s_I\Bigr) \;=\; \prod_{i\in s_I} Pr\bigl(S_i \,\big|\, S_I = s_I\bigr) \;=\; \prod_{i\in s_I} Pr(S_i) \]
Unión de Todas las Submuestras: La muestra final de elementos (unidades secundarias) se obtiene uniendo todas las submuestras de cada conglomerado seleccionado: \[ S \;=\;\bigcup_{i\in S_I} S_i, \qquad S_i \;\in\; Q_i \] donde \(Q_i\) es el soporte del diseño de la 2.ª etapa en el conglomerado \(i\).
Para el diseño de primera etapa \(p_I(s_I)\), las probabilidades de inclusión de primer y segundo orden de los conglomerados (unidades primarias) son:
Definimos
\[
\Delta_{I\,ij} \;=\;
\begin{cases}
\pi_{I\,ij} \;-\;\pi_{I\,i}\,\pi_{I\,j},
& i \neq j,\\[6pt]
\pi_{I\,i}\,(1 - \pi_{I\,i}),
& i = j.
\end{cases}
\]
Condicionado a que el conglomerado \(U_i\) fue seleccionado en la primera etapa, para cada diseño \(p_i(s_i)\) de la segunda etapa tenemos:
Y análogamente definimos
\[
\Delta_{kl\mid i} \;=\;
\begin{cases}
\pi_{kl\mid i} \;-\;\pi_{k\mid i}\,\pi_{l\mid i},
& k \neq l,\\[6pt]
\pi_{k\mid i}\,(1 - \pi_{k\mid i}),
& k = l.
\end{cases}
\]
Bajo un diseño en dos etapas:
\[ \hat{t}_{y,\pi} \;=\; \sum_{i\in S_I}\;\sum_{k\in S_i} \frac{y_k}{\pi_{I\,i}\,\pi_{k\mid i}} \;=\; \sum_{i\in S_I}\frac{\hat t_{y i,\pi}}{\pi_{I\,i}}, \] donde \(\displaystyle \hat t_{y i,\pi}=\sum_{k\in S_i}\frac{y_k}{\pi_{k\mid i}}\).
Se descompone en dos términos:
\[ \underbrace{\sum_{i}\sum_{j\in U_I} \Delta_{I\,ij}\, \frac{t_{y i}}{\pi_{I\,i}}\, \frac{t_{y j}}{\pi_{I\,j}} }_{\displaystyle Var_{\text{UPM}}} \;+\; \underbrace{ \sum_{i\in U_I} \frac{Var_{p_i}(\hat t_{y i,\pi})}{\pi_{I\,i}} }_{\displaystyle Var_{\text{USM}}}, \] donde \[ Var_{p_i}(\hat t_{y i,\pi}) \;=\; \sum_{k,l\in U_i} \Delta_{k l\mid i}\, \frac{y_k}{\pi_{k\mid i}}\, \frac{y_l}{\pi_{l\mid i}}. \]
\[ \underbrace{ \sum_{i,j\in S_I} \frac{\Delta_{I\,ij}}{\pi_{I\,ij}}\, \frac{\hat t_{y i,\pi}}{\pi_{I\,i}}\, \frac{\hat t_{y j,\pi}}{\pi_{I\,j}} }_{\widehat{Var}_{\text{UPM}}} \;+\; \underbrace{ \sum_{i\in S_I} \frac{\widehat{Var}(\hat t_{y i,\pi})}{\pi_{I\,i}} }_{\widehat{Var}_{\text{USM}}}, \] siendo \(\displaystyle \widehat{Var}(\hat t_{y i,\pi}) =\sum_{k,l\in S_i} \frac{\Delta_{k l\mid i}}{\pi_{k l\mid i}}\, \frac{y_k}{\pi_{k\mid i}}\, \frac{y_l}{\pi_{l\mid i}}.\)
representando la estimación del total de la característica de interés en la \(i\)-ésima unidad primaria de muestreo y
\[ \widehat{Var}(\hat{t_i})=\sum\sum_{S_i}\frac{ \Delta_{kl|i}}{\pi_{kl|i}}\frac{y_k}{\pi_{k|i}}\frac{y_l}{\pi_{l|i}} \]
Nótese que la variación del estimador se descompone en las dos etapas propias de este diseño. Además es importante tener en cuenta que \(\widehat{Var}(UPM)\) y \(\widehat{Var}(USM)\) no son estimadores insesgados para \(Var(UPM)\) y \(Var(USM)\). Sin embargo, toda la expresión \(\widehat{Var}_{BI}(\hat{t}_{y,\pi})\) sí lo es para \(Var_{BI}(\hat{t}_{y,\pi})\)
si el parámetro a estimar es \(B\), lo debemos llevar a la siguiente forma
\[ B=f(t_1, t_2,\ldots,t_Q) \]
Donde cada \(t_{q}\) \(q=1,\ldots,Q\) representa un total de las características de interés o un total de una función de las características de interés.
El principio de estimación de este parámetro está en obtener estimadores insesgados \(\hat{t}_{q}\) \(q=1,\ldots,Q\) tal que \(T\) es estimado por
\[ \hat{B}=f(\hat{t}_1,\hat{t}_2,\ldots,\hat{t}_Q) \]
Nota: Nótese que la función \(f\) puede ser lineal o no.
Un resultado muy conocido de la inferencia estadística clásica nos indica que si la función \(f\) es una función lineal entonces \(B\) toma la forma
\[ B=a_0+\sum_{q=1}^Qa_qt_q \]
Por tanto, un estimador insesgado de \(B\) está dado por la siguiente expresión
\[ \hat{B}=a_0+\sum_{q=1}^Qa_q\hat{t}_q \]
Si en la estimación de \(B\) hemos utilizado estimadores de tipo Horvitz-Thompson, entonces es posible escribir la ecuación anterior como
\[ \hat{B}_{\pi}=a_0+\sum_{k\in S}\frac{E_k}{\pi_k} \]
donde \(E_{k}=\sum_{q=1}^{Q}a_{q}y_{qk}\) y el valor del \(K\)-ésimo elemento en la \(q\)-ésima caracteística de interés está dado por \(y_{jk}\)
Siguiendo los principios del estimador de Horvitz-Thompson, la varianza de \(\hat{B}_{\pi}\) se puede expresar como
\[ Var(\hat{B}_{\pi})=\sum\sum_U\Delta_{kl}\frac{E_k}{\pi_k} \frac{E_l}{\pi_l}. \]
Un estimador insesgado para la expresión anterior está dada por
\[ \widehat{Var}_1(\hat{B}_{\pi})=\sum\sum_S\dfrac{\Delta_{kl}}{\pi_{kl}}\frac{E_k}{\pi_k}\frac{E_l}{\pi_l} \] —
Cuando no se puede expresar la función de los totales de manera lineal y dado la complejidad teórica para encontrar la varianza estimada, surge la necesidad de utilizar técnicas matemáticas para aproximar una expresión. La más utilizada en el argot estadístico es la aproximación de Taylor
Si una función se puede aproximar mediante un polinomio, entonces éste estará definido por
\[ f(x)=f(a)+\frac{f'(a)}{1!}(x-a)+\frac{f''(a)}{2!}(x-a)^2+ \ldots+\frac{f^{(n)}}{n!}(x-a)^n+\ldots \]
Mediante esta técnica es posible aproximar la varianza de los estimadores que no son funciones lineales de totales.
Aunque en el ámbito de la inferencia en poblaciones finitas, no existe una teoría asintótica unificada, sí existen resultados particulares para los diseños de muestreo más simples.
Expresar el estimador del parámetro de interés \(\hat{B}\) como una función de estimadores de totales insesgados. Así, \(\hat{B}=f(\hat{t}_1,\hat{t}_2,\ldots,\hat{t}_Q)\)
Determinar todas las derivadas parciales de \(f\) con respecto a cada total estimado \(\hat{t}_{q,\pi}\) y evaluar el resultado en las cantidades poblacionales \(t_q\). Así
\[ a_q=\left.\dfrac{\partial f(\hat{t}_1,\ldots,\hat{t}_Q)}{ \partial\hat{t}_{q}}\right|_{\hat{t}_1=t_1,\ldots,\hat{t}_Q=t_Q} \]
\[ \hat{B}=f(\hat{t}_1,\ldots,\hat{t}_Q)\cong B+\sum_{q=1}^Qa_q(\hat{t}_{q}-t_q) \]
\[ E_k=\sum_{q=1}^Qa_qy_{qk} \]
\[ \begin{align*} AVar(\hat{B})&=Var\left(\sum_{q=1}^Qa_q\hat{t}_{q,\pi}\right) \\ &=Var\left(\sum_S\frac{E_k}{\pi_k}\right)=\sum\sum_U\Delta_{kl}\frac{E_k}{\pi_k}\frac{E_l}{\pi_l}. \end{align*} \]
Para encontrar una estimación de la varianza de \(\hat{B}\), no es posible utilizar directamente los valores \(E_{k}\), porque éstos dependen de los totales poblacionales, pues las derivadas \(a_{q}\) se evalúan en los totales poblacionales que son desconocidos. Por consiguiente, los valores \(E_{k}\) se aproximan reemplazando los totales desconocidos por los estimadores de los mismos. Siendo \(e_{k}\) la aproximación de la variable linealizada dada por
\[ e_k=\sum_{q=1}^Q\hat{a}_qy_{qk} \]
Si los estimadores \(\hat{t}_{q}\) son estimadores de Horvitz-Thompson, se puede usar de manera general el estimador de la varianza de Horvitz-Thompson, así
\[ \widehat{Var}(\hat{t}_{y,\pi})=\sum\sum_S\dfrac{\Delta_{kl}}{\pi_{kl}}\frac{e_k}{\pi_k}\frac{e_l}{\pi_l} \]
Siendo \(B=f(t_{1},t_{2},\ldots,t_{Q})\) una función de totales poblacionales, entonces un estimador aproximadamente insesgado de \(B\), su varianza aproximada y una estimación insesgada para esta última están dadas por las siguientes expresiones
\[ \hat{B}_{\pi}=f(\hat{t}_{1,\pi},\hat{t}_{2,\pi},\ldots, \hat{t}_{Q,\pi}) \]
\[ AVar(\hat{B}_\pi)=\sum\sum_U\Delta_{kl}\frac{E_k}{\pi_k} \frac{E_l}{\pi_l} \]
\[ \widehat{Var}(\hat{B}_\pi)=\sum\sum_S\dfrac{\Delta_{kl}}{ \pi_{kl}}\frac{e_k}{\pi_k}\frac{e_l}{\pi_l} \] Con \(\hat{t}_{q,\pi}\) el estimador de Horvitz-Thompson de \(t_{q,\pi}\) y tanto \(E_{k}\) como \(e_{k}\) se encuentran dados anteriormente.
Un caso especial de una función no-lineal de totales es la razón poblacional \(B\). Ésta se define como el cociente de dos totales poblacionales de características de interés \(z\) e \(y\). Así
\[ B=\dfrac{t_y}{t_z}=\dfrac{\bar{y}_U}{\bar{z}_U} \]
Estudios electorales: para estimar la intención de voto por un candidato se pregunta por qué candidato votaría el encuestado. Dado que no todas las personas entrevistadas pueden votar, incluso algunos de ellos decidirán no votar. El numerador de esta razón está dado por el total de personas que votarían por el candidato, mientras que el denominador de la razón sería el total de personas que participarían activamente en las elecciones.
Investigación de medios: es importante para los canales de televisión tener un estimativo del total de personas observan algún programa de televisión en determinado momento. Con esta información, los canales cobran más o menos dinero a las empresas que deseen pautar un comercial a determinada hora. Si el programa televisivo tiene una audiencia alta, el canal cobrará más por la pauta de un comercial. Para estandarizar esta información, se ha creado un índice llamado “rating” que se define como la razón entre el total de personas que están observando un programa de televisión en un minuto determinado sobre el total de personas que están observando televisión.
Investigación social: uno de los indicadores económicos que más llama la atención en el desarrollo de una región o país es la tasa de desempleo. Hay que tener en cuenta que no todos los habitantes de una región están aptos para trabajar, pues existe un rango de edad para ello. Este indicador económico está definido como el total poblacional de personas que se encuentran en edad laboral pero que carecen de un empleo sobre la cantidad de personas que pertenecen a la población económicamente activa.
Un estimador para la razón poblacional \(B\) de dos características de interés, su varianza y su varianza estimada están dados por
\[ \hat{B}=\dfrac{\hat{t}_{y,\pi}}{\hat{t}_{z,\pi}} \]
\[ AVar(\hat{B}_{\pi})=\sum\sum_U\Delta_{kl}\frac{E_k}{\pi_k}\frac{E_l}{\pi_l}. \]
\[ \widehat{Var}(\hat{B}_{y,\pi})=\sum\sum_S\dfrac{\Delta_{kl}}{\pi_{kl}}\frac{e_k}{\pi_k}\frac{e_l}{\pi_l} \]
donde \(E_k=\dfrac{1}{t_x}(y_k-Bz_k)\) y \(e_k=\dfrac{1}{\hat{t}_{z,\pi}}(y_k-\hat{B}z_k)\) Nótese que \(\hat{B}\) es aproximadamente insesgado para \(B\) al igual que \(\widehat{Var}(\hat{t}_{y,\pi})\) lo es para \(AVar(\hat{t}_{y,\pi})\)