Notas de clase

Muestreo estadístico

Andrés Cruz Ph.D(c)

23 mayo, 2025

Definiciones importantes

Población y muestra

  • Población.

La población es el conjunto de todos los elementos que nos interesa estudiar y a estos elementos los definimos como unidades de estudio.

Se considera una población finita compuesta por \(N\) unidades de observación, donde cada una de las unidades puede identificarse mediante una etiqueta. Sea \(U\) el conjunto de etiquetas, tal que \[U=\left\lbrace 1,...,k,...,N \right\rbrace.\]

  • Muestra.

La muestra se define como un subconjunto de la población.

Variables estadisticas

  • Variable de interés o de estudio.

    Es la característica propia de los individuos sobre la que se realiza la inferencia para resolver los objetivos de la investigación.
    Denotamos por \(y_k\) el valor de dicha variable en la unidad \(k\).

  • Unidad de observación.

    Es el objeto sobre el que finalmente se realiza la medición.

En la teoría de muestreo la variable de interés no se supone como una variable aleatoria sino como una cantidad fija o una característica propia de las unidades que componen la población.

Unidad de muestreo

La unidad de muestreo es la unidad mínima que seleccionamos para la muestra, y de la cual extraeremos la(s) unidad(es) de observación.

Ejemplo:
Seleccionar una muestra de trabajadores del Ministerio de Salud.
- Unidad de muestreo: oficina o centro de salud
- Unidad de observación: trabajador individual

La construcción de la muestra no siempre es a partir de las unidades de observación; de hecho, la muestra se construye a partir de las unidades de muestreo.

Tipos de unidades de muestreo

  • Unidades de muestreo propias
    La unidad de muestreo coincide con la unidad de observación.
    • Ejemplo: si queremos encuestar a los médicos de un hospital y cada médico es directamente seleccionado, la unidad de muestreo es el médico.
  • Unidades de muestreo conjuntas (conglomerados)
    Se selecciona un grupo de unidades de observación—un “conglomerado”—y luego medimos todas (o una submuestra) de las unidades dentro de ese conglomerado.
    • Ejemplo: seleccionar aleatoriamente 5 centros de salud y luego entrevistar a todos los trabajadores de cada centro.

Tipos de unidad de muestreo

  • Identificadora
    Cuando es preciso ubicar elementos que nos permitan identificar la unidad de estudio para ejecutar el muestreo.
    (p. ej., médico → paciente)

  • Contenedora
    También conocidas como secciones censales; áreas geográficas que contienen a las unidades de estudio.
    (p. ej., vivienda → persona)

Característica de interés

  • Se pretende estudiar una característica de interés denotada por \(y\), que toma el valor \(y_k\) para la unidad \(k\) en la población.
  • El objetivo es estimar el valor de una función \(\theta\), llamada parámetro, de la característica de interés de la población:

\[ \theta = f(y_1,\ldots,y_k,\ldots,y_N). \]

Parámetros de interés

  • Total poblacional
    \[ t_y = \sum_{k\in U} y_k \]

  • Media poblacional
    \[ \overline{y}_U = \frac{1}{N}\sum_{k\in U} y_k = \frac{t_y}{N} \]

  • Varianza poblacional
    \[ S^2_{y_U} = \frac{1}{N-1}\sum_{k\in U}(y_k - \overline{y}_U)^2 \]

Limitaciones del censo

  • Población desconocida
    Sin marco muestral
    Ej.: niveles de conocimiento sobre VIH/SIDA en trabajadoras sexuales

  • Población inaccesible
    Difícil localización o medición
    Ej.: valor de hemoglobina en pacientes

  • Población inalcanzable por magnitud
    Tamaño muy grande
    Ej.: encuestas de preferencias electorales

Muestreo probabilístico y Estimación

Muestra probabilística

  • Una muestra es un subconjunto de la población que se estudia para inferir sobre la característica poblacional. Este procedimiento se llama inferencia y sólo funciona si la muestra es representativa en sentido probabilístico.

  • Una muestra probabilística \(s\subseteq U\) se extrae mediante un mecanismo estadístico (aleatorio).
    Un diseño de muestreo \(p(s)\) es una distribución de probabilidad sobre todas las posibles muestras, tal que

    \[ p(s)\ge 0\quad\forall s\subseteq U, \qquad \sum_{s\subseteq U}p(s)=1. \]

Diseño muestral y muestra aleatoria

  • Sea \(S\) una variable aleatoria que toma la muestra \(s\subseteq U\) con probabilidad
    \[ \Pr(S=s)=p(s), \quad p(s)\ge0, \quad \sum_{s\subseteq U}p(s)=1. \] A \(p(\cdot)\) se le llama diseño muestral.

  • El tamaño de muestra \(n(S)\) puede ser aleatorio.
    Si es fijo, lo denotamos simplemente como \(n\).

  • Definimos la variable indicadora
    \[ I_k = \begin{cases} 1, & k\in S,\\ 0, & k\notin S\,. \end{cases} \]

Marco muestral

  • Dispositivo o listados que permiten delimitar, identificar y ubicar las unidades \(U\).

  • Facilita el acceso a los elementos de la población objetivo.

  • Suele incluir información auxiliar (atributos, categorías, variables de estratificación).

Probabilidades de inclusión

La probabilidad de inclusión de primer orden es la probabilidad de que la unidad \(k\) pertenezca a la muestra: \[ \pi_k = \Pr(k \in s) = E(I_k) \;=\; \sum_{s \ni k} p(s). \]

La probabilidad de inclusión de segundo orden es la probabilidad de que las unidades \(k\) y \(l\) pertenezcan simultáneamente a la muestra: \[ \pi_{kl} = \Pr(k \in s \;\text{y}\; l \in s) = E(I_k I_l) \;=\; \sum_{s \ni k,l} p(s). \]

Covarianza de indicadoras

La covarianza de las variables indicadoras está dada por

\[ \Delta_{kl} = \mathrm{Cov}(I_k, I_l) = \begin{cases} \pi_k(1 - \pi_k), & k = l,\\[6pt] \pi_{kl} - \pi_k\,\pi_l, & k \neq l. \end{cases} \]

Ejercicio: diseño muestral

Población
\(\Omega = \{u_1, u_2, u_3\}\)

Procedimiento
1. Se extraen 2 bolas con reposición de una urna con 6 bolas:
- 3 bolas numeradas “1”
- 2 bolas numeradas “2”
- 1 bola numerada “3”
2. Cada bola de valor \(k\) selecciona la unidad \(u_k\) de la población.

Objetivo
Determinar el diseño muestral \(p(s)\) para muestras no ordenadas de tamaño 2.

Estimadores

  • Según Gutiérrez (2009, p. 29), un estimador es una función de la muestra
    \[ \hat\theta = \hat\theta(s) \] que sirve para estimar el parámetro \(\theta\).

  • Su esperanza se define como \[ E[\hat\theta] = \sum_{s\subseteq U} p(s)\,\hat\theta(s). \]

  • Su varianza es \[ \mathrm{Var}(\hat\theta) = \sum_{s\subseteq U} p(s)\,\bigl[\hat\theta(s) - E[\hat\theta]\bigr]^2. \]

Sesgo y error cuadrático medio

Según Särndal (1992, p. 40), dos propiedades fundamentales de un estimador \(\hat\theta\) son:

  • Sesgo
    Diferencia entre la esperanza del estimador y el parámetro:
    \[ B(\hat\theta) \;=\; E[\hat\theta] \;-\; \theta. \]

  • Error cuadrático medio (MSE)
    Promedio del cuadrado del error, que combina varianza y sesgo al cuadrado:
    \[ \mathrm{MSE}(\hat\theta) \;=\; E\bigl[(\hat\theta - \theta)^2\bigr] \;=\; \mathrm{Var}(\hat\theta)\;+\;\bigl(B(\hat\theta)\bigr)^2. \]

Sesgo relativo, insesgadez y ECM

  • Sesgo relativo
    \[RB(\hat{\theta}) = \frac{B(\hat{\theta})}{\theta}\]

  • Insesgadez
    \(\hat{\theta}\) es insesgado si
    \[B(\hat{\theta}) = 0.\]

  • Error cuadrático medio (ECM)
    \[ECM(\hat{\theta}) = E\bigl[(\hat{\theta}-\theta)^2\bigr] = \mathrm{Var}(\hat{\theta}) + \bigl(B(\hat{\theta})\bigr)^2. \]

Aporte relativo del sesgo y coeficiente de variación

  • Aporte relativo del sesgo al ECM
    \[ \xi(\hat{\theta}) = \frac{B(\hat{\theta})^2}{B(\hat{\theta})^2 \;+\;\mathrm{Var}(\hat{\theta})} \]

  • Coeficiente de variación
    \[ CV = \frac{\sqrt{\mathrm{Var}(\hat{\theta})}}{\hat{\theta}} \]

Estimador de Horvitz–Thompson

El estimador de Horvitz–Thompson para el total \(t_y\) se define como

\[ \hat t_{y\pi} \;=\; \sum_{k \in s} \frac{y_k}{\pi_k}. \]

Es insesgado siempre que \(\pi_k > 0\) para todo \(k \in U\).

Varianza y estimación del Estimador de Horvitz–Thompson

Según Särndal (1992, p. 43):

  • Varianza teórica
    \[ \mathrm{Var}(\hat t_{y\pi}) = \sum_{k\in U}\sum_{l\in U} \Delta_{kl}\, \frac{y_k}{\pi_k}\, \frac{y_l}{\pi_l}. \]

  • Estimación de la varianza
    \[ \widehat{\mathrm{Var}}(\hat t_{y\pi}) = \sum_{k\in s}\sum_{l\in s} \frac{\Delta_{kl}}{\pi_{kl}}\, \frac{y_k}{\pi_k}\, \frac{y_l}{\pi_l}. \]

Estimador de Hansen–Hurwitz

Considere una población finita de \(N\) elementos y un diseño de muestreo que permite la selección de
una muestra realizada \(s\), con reemplazo, de tamaño \(m\).

Lohr (2000) afirma que la manera más intuitiva de entender este tipo de diseños muestrales con
reemplazo es pensar en la extracción de \(m\) muestras independientes de tamaño 1. Se extrae un
elemento de la población para ser incluido en la muestra con una probabilidad \(p_k\); sin embargo,
ese mismo elemento participa en el siguiente sorteo aleatorio. Este proceso se repite \(m\) veces;
es decir, se tiene un total de \(m\) sorteos aleatorios.

Estimador de Hansen–Hurwitz (continuación)

Este estimador es usado para el caso de muestreo con reemplazo. Es poco eficiente y se utiliza principalmente en técnicas como bootstrap, jackknife, entre otras.

De manera general, un diseño de muestreo con reemplazo se define como:

\[ p(s)= \begin{cases} \displaystyle \frac{m!}{n_1(s)!\,\cdots\,n_N(s)!} \;\prod_{k\in U}p_k^{\,n_k(s)}, & \text{si } \sum_{k\in U}n_k(s)=m,\\[0.5em] 0, & \text{en otro caso.} \end{cases} \]

donde \(n_k(s)\) es el número de veces que el elemento \(k\)-ésimo es seleccionado en la muestra \(s\).

Probabilidades de inclusión (con reemplazo)

Para un diseño con reemplazo de tamaño \(m\):

  • Primer orden
    \[ \pi_k \;=\; 1 - \bigl(1 - p_k\bigr)^{m} \]

  • Segundo orden
    \[ \pi_{kl} \;=\; 1 \;-\; \bigl(1 - p_k\bigr)^{m} \;-\; \bigl(1 - p_l\bigr)^{m} \;+\; \bigl(1 - p_k - p_l\bigr)^{m} \]

donde \(p_k = \Pr(\text{seleccionar la unidad }k)\), \(k,l\in U\).

Ejercicio

Población:
\(U = \{\text{Yves}, \text{Ken}, \text{Erik}, \text{Sharon}, \text{Leslie}\}\)

Probabilidades de selección \(p_k\):
- \(p_k = \tfrac14\) para \(k =\) Yves, Ken, Leslie
- \(p_k = \tfrac18\) para \(k =\) Sharon, Erik

Verifique que
\[ \sum_{k\in U} p_k = 1. \]

En R…

library(TeachingSampling)
pk<- c(0.25, 0.25, 0.125, 0.125, 0.25)
N<- 5
m<- 2
U<- c("Yves", "Ken", "Leslie", "Sharon", "Erick")
QWR<- SupportWR(N,m,ID=U)
pWR<- p.WR(N, m, pk)
nkWR<- nk(N, m)
SamplesWR<- data.frame(QWR, pWR, nkWR)

Probabilidades de cada muestra

SamplesWR
##        X1     X2      pWR X1.1 X2.1 X3 X4 X5
## 1    Yves   Yves 0.062500    2    0  0  0  0
## 2    Yves    Ken 0.125000    1    1  0  0  0
## 3    Yves Leslie 0.062500    1    0  1  0  0
## 4    Yves Sharon 0.062500    1    0  0  1  0
## 5    Yves  Erick 0.125000    1    0  0  0  1
## 6     Ken    Ken 0.062500    0    2  0  0  0
## 7     Ken Leslie 0.062500    0    1  1  0  0
## 8     Ken Sharon 0.062500    0    1  0  1  0
## 9     Ken  Erick 0.125000    0    1  0  0  1
## 10 Leslie Leslie 0.015625    0    0  2  0  0
## 11 Leslie Sharon 0.031250    0    0  1  1  0
## 12 Leslie  Erick 0.062500    0    0  1  0  1
## 13 Sharon Sharon 0.015625    0    0  0  2  0
## 14 Sharon  Erick 0.062500    0    0  0  1  1
## 15  Erick  Erick 0.062500    0    0  0  0  2

Estimación (Hansen–Hurwitz)

  • Estimador del total
    \[ \hat t_{y,p} = \frac{1}{m}\sum_{i=1}^m \frac{y_{k_i}}{p_{k_i}}. \]

  • Estimación de la varianza
    \[ \widehat{\mathrm{Var}}(\hat t_{y,p}) = \frac{1}{m(m-1)} \sum_{i=1}^m \Bigl(\frac{y_{k_i}}{p_{k_i}} - \hat t_{y,p}\Bigr)^2. \]

  • Forma alternativa
    \[ \widehat{\mathrm{Var}}(\hat t_{y,p}) = \frac{1}{m(m-1)} \Biggl[ \sum_{i=1}^m\Bigl(\frac{y_{k_i}}{p_{k_i}}\Bigr)^2 \;-\; m\,\hat t_{y,p}^2 \Biggr]. \]

Cálculo del estimador HH

y<- c(32, 34, 46, 89, 35)
m<- 2
all.y <- SupportWR(N, m, y)
all.pk <- SupportWR(N, m, pk)
all.HH <- rep(0, 15)
for(k in 1:15)
  {
all.HH[k] <- HH(all.y[k,], all.pk[k,]) 
  }
AllSamplesWR<- data.frame(QWR, all.pk, pWR, all.y, all.HH)
AllSamplesWR
##        X1     X2  X1.1  X2.1      pWR X1.2 X2.2 all.HH
## 1    Yves   Yves 0.250 0.250 0.062500   32   32    128
## 2    Yves    Ken 0.250 0.250 0.125000   32   34    132
## 3    Yves Leslie 0.250 0.125 0.062500   32   46    248
## 4    Yves Sharon 0.250 0.125 0.062500   32   89    420
## 5    Yves  Erick 0.250 0.250 0.125000   32   35    134
## 6     Ken    Ken 0.250 0.250 0.062500   34   34    136
## 7     Ken Leslie 0.250 0.125 0.062500   34   46    252
## 8     Ken Sharon 0.250 0.125 0.062500   34   89    424
## 9     Ken  Erick 0.250 0.250 0.125000   34   35    138
## 10 Leslie Leslie 0.125 0.125 0.015625   46   46    368
## 11 Leslie Sharon 0.125 0.125 0.031250   46   89    540
## 12 Leslie  Erick 0.125 0.250 0.062500   46   35    254
## 13 Sharon Sharon 0.125 0.125 0.015625   89   89    712
## 14 Sharon  Erick 0.125 0.250 0.062500   89   35    426
## 15  Erick  Erick 0.250 0.250 0.062500   35   35    140

Ahora, tomemos una muestra y cálculemos el estimador del total con su respectivo coeficiente de varianción.

set.seed(123)
y<- c(32, 34, 46, 89, 35)
N<- length(y)
m<- 3
pk<-c(0.7, 0.05, 0.05, 0.1, 0.1)
sam<- sample(N, 3, replace=T, prob= pk)
ym<- y[sam]
pkm<- pk[sam]
est<- HH(ym, pkm)[1]
est
## [1] 147.1429
dif<- rep(0,3)
dif[1]<- (ym[1]/pkm[1])-est
dif[2]<- (ym[2]/pkm[2])-est
dif[3]<- (ym[3]/pkm[3])-est
Var<- (1/3)*(1/2)*sum(dif^2)
Var
## [1] 10287.76
cve<- sqrt(Var)/est
cve
## [1] 0.6893204

Diseños de muestreo

Diseños de muestreo probabilísticos

  • Aleatorio simple (MAS)
  • Bernoulli
  • Sistemático
  • Poisson
  • PPT
  • \(\pi\)PT
  • Estratificado
  • Conglomerados
  • Por Etapas

Muestreo aleatorio simple sin reemplazo (MAS)

MAS

  • Forma más sencilla de seleccionar una muestra

  • Igual probabilidad de selección para todos los elementos de la población

  • Requiere un marco muestral explícito

  • Supone población homogénea (sin estratos ni conglomerados)

  • Una vez seleccionado, un elemento no vuelve a la población (sin reemplazo)

  • Diseño de tamaño de muestra fijo (\(n \le N\))

  • También conocido como SRSWOR (Simple Random Sampling Without Replacement)

El diseño MAS

\[ p(s) = \begin{cases} \dfrac{1}{\binom{N}{n}}, & \text{si } |s| = n,\\[0.5em] 0, & \text{en otro caso.} \end{cases} \]

El número total de muestras posibles de tamaño \(n\) es

\[ \#Q = \binom{N}{n}. \]

Método de ordenamiento aleatorio (MAS)

  • Generar para cada unidad \(k\) un número aleatorio \(\zeta_k \sim U(0,1)\).

  • Ordenar el marco muestral según \(\zeta_k\) de menor a mayor o de mayor a menor.

  • Seleccionar las primeras \(n\) unidades del listado ordenado.

  • Este algoritmo respeta el diseño MAS (tamaño fijo, sin reemplazo) y es equivalente al “coordinado negativo” para SRSWOR.

Ejemplo: Supongamos que tenemos una población compuesta por 6 millones de habitantes (Bogotá) y que queremos seleccionar aleatoriamente una muestra de 1000 personas:

# Identificador de los habitantes
k <- 1:6000000
#tamaño muestral
n <- 1000
#generación de números aleatorios
zeta <- runif(6000000,0,1)
marco <- data.frame(cbind(k,zeta))
#marco ordenado por el número aleatorio
marco_o <- marco[with(marco,order(marco$zeta)),]
#selección de los individuos
muestra <- marco_o[1:n,]
head(muestra, 5)
##               k         zeta
## 2620053 2620053 4.400499e-08
## 5197918 5197918 2.200250e-07
## 4903433 4903433 2.386514e-07
## 3714981 3714981 3.802124e-07
## 858429   858429 5.133916e-07

Otra forma mas sencilla:

muestra1<-sample(k,n)
head(muestra1, 5)
## [1] 5163708 5137031 3794868 3801377 5930815

Método secuencial (Fan, Müller & Reçuza)

Para seleccionar \(n\) unidades de un marco de tamaño \(N\) sin reemplazo:

  1. Inicializar \(n_0=0\).
  2. Para \(k=1,\dots,N\):
    • Generar \(\zeta_k \sim U(0,1)\).
    • Calcular
      \[ c_k \;=\;\frac{\,n - n_{k-1}\,}{\,N - k + 1\,} \] donde \(n_{k-1}\) es el total de unidades ya seleccionadas.
    • Si \(\zeta_k < c_k\), incluir la unidad \(k\) y fijar \(n_k = n_{k-1}+1\);
      en caso contrario, \(n_k = n_{k-1}\).
    • Si \(n_k = n\), detener el proceso.

En R lo podemos hacer con el siguiente código:

U <- c("Yves", "Ken", "Erik", "Sharon", "Leslie")
N <- length(U)
sam <- S.SI(N, 2)
U[sam]
## [1] "Yves" "Erik"

Estimación del total bajo MAS

  • Probabilidad de inclusión (1er orden)
    \[ \pi_k = \frac{n}{N} \]

  • Probabilidad de inclusión (2º orden)
    \[ \pi_{kl} = \frac{n(n-1)}{N(N-1)},\quad k\neq l \]

  • Estimador de Horvitz–Thompson
    \[ \hat t_{y,\pi} = \sum_{k\in s}\frac{y_k}{\pi_k} = \frac{N}{n}\sum_{k\in s}y_k \]

Nota: \(N\) es el tamaño de la población, \(n\) el tamaño de la muestra.

Varianza y su estimación (MAS)

  • Varianza del estimador
    \[ \mathrm{Var}_{MAS}(\,\hat t_{y,\pi}\,) = \frac{N^2}{n}\Bigl(1 - \frac{n}{N}\Bigr)\,S^2_{y_U} \]

  • Estimación de la varianza
    \[ \widehat{\mathrm{Var}}_{MAS}(\,\hat t_{y,\pi}\,) = \frac{N^2}{n}\Bigl(1 - \frac{n}{N}\Bigr)\,S^2_{y_s} \]

    donde \[ S^2_{y_U} = \frac{1}{N-1}\sum_{k\in U}\bigl(y_k - \bar y_U\bigr)^2, \qquad S^2_{y_s} = \frac{1}{n-1}\sum_{k\in s}\bigl(y_k - \bar y_s\bigr)^2. \]

Estimación del promedio (MAS)

  • Estimador
    \[ \hat{\bar Y}_\pi = \frac{\hat t_{y,\pi}}{N} \]

  • Varianza
    \[ \mathrm{Var}_{MAS}(\hat{\bar Y}_\pi) = \frac{1}{n}\Bigl(1 - \tfrac{n}{N}\Bigr)\,S^2_{y_U} \]

  • Estimación de varianza
    \[ \widehat{\mathrm{Var}}_{MAS}(\hat{\bar Y}_\pi) = \frac{1}{n}\Bigl(1 - \tfrac{n}{N}\Bigr)\,S^2_{y_s} \]

Ejemplo en R

library(TeachingSampling)
data("BigLucy")
N<- dim(BigLucy)[1] ; n<-1054
samp<-sample(1:N,n)
muestra1<- BigLucy[samp,]
pik1<-n/N
typi<- sum(muestra1$Income)*(1/pik1)
varMAS<- (N^2/n)*(1-(n/N))*var(muestra1$Income)
Cve<- (sqrt(varMAS)/typi)*100
resul = c(round(typi,2), round(varMAS,2), 
          round(Cve,2))
names(resul) = c("Total", "Varianza", "CV")
resul
##       Total    Varianza          CV 
## 3.54540e+07 4.50796e+11 1.89000e+00
# Una forma muy facil... Con TeachingSampling 
# E.SI(N, n, muestra1$Income)

Ejercicio práctico: SRSWOR con babies

  1. Muestra
    Seleccione una muestra aleatoria simple sin reemplazo (MAS) de tamaño \(n\) de la base babies (paquete UsingR).

  2. Variables
    Elija dos variables numéricas, por ejemplo:

    • age (edad de la madre)
    • wt (peso al nacer)
  3. Estimaciones
    Para cada variable, calcule:

    • Media estimada \(\displaystyle \hat{\bar y} = \frac{1}{n}\sum_{k\in s} y_k\)

Continuación…

  • Coeficiente de variación
    \[ CV = \frac{\sqrt{\widehat{\mathrm{Var}}_{MAS}(\hat{\bar y})}}{\hat{\bar y}} \quad\text{con}\quad \widehat{\mathrm{Var}}_{MAS}(\hat{\bar y}) = \frac{1}{n}\Bigl(1 - \tfrac{n}{N}\Bigr)S_{y_s}^2 \]
  • Intervalo de confianza 95% usando distribución normal:
    \(\hat{\bar y}\pm z_{0.975}\,\sqrt{\widehat{\mathrm{Var}}_{MAS}(\hat{\bar y})}\)
  1. Análisis
    Compare la precisión (CV y longitud del IC) entre ambas variables y comente brevemente.

Tamaño de muestra en MAS

Para un margen de error absoluto \(\epsilon\) (en unidades de \(y\)):

\[ n \;\ge\;\frac{n_0}{1 + \dfrac{n_0}{N}}, \qquad n_0 = \frac{z_{1-\alpha/2}^2\,S_{y_U}^2}{\epsilon^2} \]

Tamaño de muestra en MAS

Para un margen de error relativo \(\epsilon\) (fracción de la media), usando el coeficiente de variación \(CV = S_{y_U}/\bar y_U\):

\[ n \;\ge\;\frac{k_0}{1 + \dfrac{k_0}{N}}, \qquad k_0 = \frac{z_{1-\alpha/2}^2\,CV^2}{\epsilon^2} \]

  • \(z_{1-\alpha/2}\): cuantil de la normal estándar
  • \(S_{y_U}^2\): varianza poblacional de \(y\)
  • \(N\): tamaño de la población

Ejercicio:

  • Varíe los distintos parámetros del tamaño de muestra de tal forma que obtenga 3 tamaños de muestra significativamente distintos.

  • Tome cada tamaño de muestra anterior y utilice las variables Income, Taxes, Employees y calcule el Cve para el promedio estimado de cada una de las variables y concluya si el tamaño de muestra influyó significativamente en la estimación.

  • Tome la base de datos babies de la librería UsingR y tome una variable cuantitativa, calcule un tamaño de muestra y estime el promedio junto con su Cve.

Muestreo MAS con dominios

Estimación en dominios

Según Gutiérrez (2015), a veces interesa estimar no solo para la población total, sino también para subgrupos—llamados dominios (ONU):

  • Los dominios se definen después de recolectar los datos
  • Se estiman parámetros (medias, totales, proporciones …) dentro de cada dominio
  • Importante: el tamaño efectivo de muestra en un dominio puede ser muy pequeño

Nota: La selección de la muestra no se hace por dominio, sino que éstos se identifican tras la recolección.

Requisitos de los dominios

  1. Disjunción
    Ningún elemento puede pertenecer a dos dominios distintos:
    \[ \text{Si }k \in U_l,\; \text{entonces }k \notin U_d\quad (d \neq l). \]

  2. Exhaustividad
    Todo elemento debe pertenecer a exactamente un dominio.

  3. Cobertura total
    La unión de todos los dominios es la población completa:
    \[ U = \bigcup_{d=1}^{D} U_d,\quad U_d \subseteq U. \]

Tamaño absoluto y relativo del dominio

  • El número de elementos en el dominio \(U_d\) es \(N_d\), llamado tamaño absoluto del dominio.
  • La proporción de elementos en \(U_d\) respecto a la población total es
    \[ P_d = \frac{N_d}{N}, \] llamado tamaño relativo del dominio.

Estimación en dominios

Queremos estimar el total en un dominio \(U_d\): \[ t_{y,d} \;=\;\sum_{k\in U_d} y_k \]

Definimos la función indicadora del dominio: \[ z_{d k}=\begin{cases} 1, & k\in U_d,\\[6pt] 0, & \text{en otro caso.} \end{cases} \]

  • Estimar el total en un dominio \(U_d\) con Horvitz–Thompson:
    \[ \hat t_{y,d} = \sum_{k\in s} \frac{z_{d k}\,y_k}{\pi_k}=\sum_{k\in s} \frac{y_{dk}}{\pi_k}, \quad\text{donde}\quad z_{d k} = \begin{cases} 1, & k\in U_d,\\ 0, & \text{en otro caso.} \end{cases} \]

    • Aquí \(\pi_k\) es la probabilidad de inclusión de primer orden de la unidad \(k\).
    • Solo se suman las unidades \(k\in s\) que pertenecen al dominio \(d\).
    • con \(y_{dk}=z_{dk} y_k\)
  • Tamaño del dominio \(U_d\)
    \[ N_{d} \;=\;\sum_{k\in U} z_{d k} \]

  • Media en el dominio \(U_d\)
    \[ \bar{y}_{U_d} \;=\; \frac{t_{y,d}}{N_d} \;=\; \frac{\sum_{k\in U} z_{d k}\,y_k}{N_d} \]

MAS sin reemplazo: estimación en dominios

Bajo muestreo aleatorio simple sin reemplazo:

\[ \hat t_{yd,\pi} = \frac{N}{n}\sum_{k\in s_d} y_k, \quad s_d = S\cap U_d \]

\[ \mathrm{Var}(\hat t_{yd,\pi}) = \frac{N^2}{n}\Bigl(1-\frac{n}{N}\Bigr)\,S^2_{yd,U}, \qquad S^2_{yd,U} = \frac{1}{N_d-1}\sum_{k\in U_d}(y_k-\bar y_{U_d})^2 \]

\[ \widehat{\mathrm{Var}}(\hat t_{yd,\pi}) = \frac{N^2}{n}\Bigl(1-\frac{n}{N}\Bigr)\,S^2_{yd,S}, \qquad S^2_{yd,S} = \frac{1}{n_d-1}\sum_{k\in s_d}(y_k-\bar y_{s_d})^2 \]

Además, definimos las varianzas de la característica en el dominio:

  • Varianza poblacional
    \[ S^2_{yd,U} = \frac{1}{N_d-1} \Biggl( \sum_{k\in U} y_{d k}^2 \;-\; \frac{\bigl(\sum_{k\in U} y_{d k}\bigr)^{2}}{N_d} \Biggr) \]

  • Varianza muestral
    \[ S^2_{yd,S} = \frac{1}{n_d-1} \Biggl( \sum_{k\in S} y_{d k}^2 \;-\; \frac{\bigl(\sum_{k\in S} y_{d k}\bigr)^{2}}{n_d} \Biggr) \]

Bajo muestreo aleatorio simple sin reemplazo, el estimador de Horvitz-Thompson para el tamaño absoluto de un dominio \(N_d\), su varianza y su varianza estimada están dados por:

\[ \hat{N}_{d,\pi} = \frac{N}{n} \sum_S z_{dk} = \frac{N}{n} \sum_{S_d} z_{k} \] \[ Var(\hat{N}_{d, \pi}) = \frac{N^2}{n}\ (1-\frac{n}{N}) S^2_{zdU} \] \[ \widehat{Var}(\hat{N}_{d, \pi}) = \frac{N^2}{n}\ (1-\frac{n}{N}) S^2_{zdS} \] respectivamente, con \(S^2_{zdU}\) y \(S^2_{zdS}\) la varianza poblacional y la varianza muestral de los valores de la característica de interés \(z_{dk}\).

MAS sin reemplazo: media en dominios

Bajo muestreo aleatorio simple sin reemplazo:

\[ \hat{\bar y}_{U_d,\pi} = \frac{N}{n\,N_d}\sum_{k\in s_d} y_k \]

\[ \mathrm{Var}\bigl(\hat{\bar y}_{U_d,\pi}\bigr) = \frac{1}{N_d^{2}} \frac{N^2}{n}\Bigl(1-\frac{n}{N}\Bigr)\,S^2_{y,d,U} \]

\[ \widehat{\mathrm{Var}}\bigl(\hat{\bar y}_{U_d,\pi}\bigr) = \frac{1}{N_d^{2}} \frac{N^2}{n}\Bigl(1-\frac{n}{N}\Bigr)\,S^2_{y,d,S} \]

Estimador alternativo (no lineal) de la media en el dominio

Cuando no se conoce \(N_d\), podemos usar el promedio muestral en el dominio:

\[ \hat{\bar y}_{U_d,\text{alt}} = \frac{\sum_{k\in s} y_{d k}}{\sum_{k\in s} z_{d k}} = \frac{\sum_{k\in s_d} y_{k}}{n_d} \]

Ejercicio:

En una población, \(U\), de 10000 personas, hay 3000 personas con edad comprendida entre 0 y 21 años, que llamaremos tipo A, y 7000 de edad superior, tipo B. Para realizar un estudio de hábitos de ocio, se selecciona una muestra aleatoria simple de 15 personas de la población y se pregunta a cada una el gasto aproximado mensual [en dolares] en asistencia al cine y la edad. Los resultados muestrales obtenidos son,

Edad A A B B B B B A B B B A B B A
Gasto 70 75 60 10 90 30 40 50 50 40 65 70 60 50 60

Estimar la media del gasto en cine para los menores de 21, estimar la varianza de la media, el error de muestreo y de nuevo la media suponiendo que \(N_d\) es desconocido.

Muestreo Aleatorio Simple con Reemplazo (MASR)

Definición

Una muestra aleatoria simple con reemplazo de tamaño \(m\) en una población de \(N\) elementos consiste en extraer \(m\) veces, con reposición, un solo elemento:

  • Cada extracción es independiente.
  • Cada elemento \(k\in U\) tiene igual probabilidad de ser seleccionado: \[ p_k = \frac{1}{N},\quad k = 1,\dots,N. \]
  • Un mismo elemento puede aparecer varias veces en la muestra.

Función de densidad (MASR)

Para muestreo aleatorio simple con reemplazo de tamaño \(m\):

\[ p(s)= \begin{cases} \dfrac{m!}{n_1(s)!\,\cdots\,n_N(s)!}\,\displaystyle\prod_{k\in U}p_k^{\,n_k(s)}, & \text{si } \sum_{k\in U}n_k(s)=m,\\[1em] 0, & \text{en otro caso.} \end{cases} \]

  • \(n_k(s)\): número de veces que el elemento \(k\) aparece en la muestra \(s\).
  • \(\{p_k\}\): probabilidades de selección en cada extracción.

Probabilidades de inclusión (MASR)

Para muestreo aleatorio simple con reemplazo (\(p_k = 1/N\)):

  • Primer orden (\(k\in U\)): \[ \pi_{k} \;=\; 1 \;-\;\Bigl(1 - \tfrac{1}{N}\Bigr)^{m} \]

  • Segundo orden (\(k\neq l\in U\)): \[ \pi_{kl} \;=\; 1 \;-\;2\Bigl(1 - \tfrac{1}{N}\Bigr)^{m} \;+\;\Bigl(1 - \tfrac{2}{N}\Bigr)^{m} \]

Algoritmo de selección (MAS con reemplazo)

Para obtener una muestra de tamaño \(m\) con reemplazo:

  1. Para \(i = 1, 2, \dots, m\):
    • Elegir un elemento al azar de la población \(U\) de \(N\) unidades, con probabilidad \[ p_k = \frac{1}{N},\quad k \in U. \]
    • Incluir ese elemento en la muestra (y devolverlo al marco para el siguiente sorteo).

Aunque conceptualmente sencillo, este procedimiento requiere \(m\) sorteos independientes y no es óptimo en grandes poblaciones.

Estimador de Hansen–Hurwitz (MRAS)

Para un diseño aleatorio simple con reemplazo de tamaño \(m\) en población de \(N\) unidades:

  • Estimador del total
    \[ \hat{t}_{y,p} = \frac{N}{m}\sum_{i=1}^m y_i \]

  • Varianza teórica
    \[ \mathrm{Var}_{\mathrm{MRAS}}(\hat{t}_{y,p}) = \frac{N\,(N-1)}{m}\,S^2_{yU}, \quad S^2_{yU} = \frac{1}{N-1}\sum_{k\in U}(y_k - \overline{y}_U)^2 \]

Continuación…

  • Estimación de la varianza
    \[ \widehat{\mathrm{Var}}_{\mathrm{MRAS}}(\hat{t}_{y,p}) = \frac{N^2}{m}\,S^2_{ysr}, \quad S^2_{ysr} = \frac{1}{m-1}\sum_{i=1}^m(y_i - \overline{y}_S)^2 \]

Nota:
- \(\hat{t}_{y,p}\) es insesgado para el total poblacional \(t_y\).
- \(\widehat{\mathrm{Var}}_{\mathrm{MRAS}}(\hat{t}_{y,p})\) es insesgado para \(\mathrm{Var}_{\mathrm{MRAS}}(\hat{t}_{y,p})\).

Diseño Bernoulli

Particularidades

  • Se fija de antemano (por experiencia) una probabilidad de inclusión \(\pi\) igual para todos los individuos:
    \[ \pi_k = \pi \quad \forall\,k \in U. \]
  • El tamaño de muestra \(n(S)\) es aleatorio, no fijo.
  • Diseño de uso poco frecuente en la práctica.
  • Requiere un marco muestral explícito.

Función de probabilidad: Bernoulli

Siendo \(n(s)\) el tamaño de la muestra \(s\), el diseño de muestreo Bernoulli asigna a cada muestra la probabilidad

\[ p(s)= \begin{cases} \pi^{\,n(s)}\,(1-\pi)^{\,N - n(s)}, & \text{si } |s| = n(s),\\[6pt] 0, & \text{en otro caso.} \end{cases} \]

Algoritmo de selección (Bernoulli)

  1. Fijar \(\pi\) tal que \(0 < \pi < 1\).
  2. Para cada \(k \in U\), generar \(\zeta_k \sim U(0,1)\) de manera independiente.
  3. Incluir el individuo \(k\) en la muestra si \(\zeta_k < \pi\).

Probabilidades de inclusión (Bernoulli)

Dado que \(\zeta_{k}\sim \mathrm{Uniforme}[0,1]\),
\[ \Pr(\zeta_{k}<\pi)=\pi, \]
por lo que cada inclusión es independiente. Entonces \(I_k(S)\sim \mathrm{Bernoulli}(\pi)\) y:

  • Primer orden
    \[ \pi_{k} = \Pr(k\in S) = \pi. \]

  • Segundo orden
    \[ \pi_{kl} = \Pr(k\in S,\;l\in S) = \begin{cases} \pi, & k = l,\\[6pt] \pi^2, & k \neq l. \end{cases} \]

Estimador HT (Bernoulli)

  • Estimador del total
    \[ \hat{t}_{y,\pi} = \frac{1}{\pi}\sum_{k\in S} y_k \]

  • Varianza teórica
    \[ \mathrm{Var}_{\mathrm{BER}}(\hat{t}_{y,\pi}) = \Bigl(\tfrac{1}{\pi}-1\Bigr)\sum_{k\in U} y_k^2 \]

  • Estimación de la varianza
    \[ \widehat{\mathrm{Var}}_{\mathrm{BER}}(\hat{t}_{y,\pi}) = \frac{1}{\pi}\Bigl(\tfrac{1}{\pi}-1\Bigr)\sum_{k\in S} y_k^2 \]

Efecto de diseño

Siendo \((\hat{T},p(\cdot))\) y \((\hat{T}_{\pi},\text{MAS})\) dos estrategias de muestreo para estimar el parámetro \(T\), el efecto de diseño se define como

\[ \mathrm{Deff} = \frac{\mathrm{Var}_{p}(\hat{T})} {\mathrm{Var}_{\mathrm{MAS}}(\hat{T}_{\pi})}. \]

Práctica computacional

data(BigLucy)
attach(BigLucy)
N <- dim(BigLucy)[1]
pik <- 0.1669
sam <- S.BE(N,pik)
muestra <- BigLucy[sam,]
attach(muestra)
## The following objects are masked from BigLucy:
## 
##     Employees, ID, Income, ISO, Level, Segments, SPAM, Taxes,
##     Ubication, Years, Zone
head(muestra)
##              ID        Ubication Level    Zone Income Employees Taxes SPAM ISO
## 9  AB0000000009 C0111156K0190741 Small County1    350        84     5  yes  no
## 14 AB0000000014 C0189067K0112830 Small County1    330        23     4  yes  no
## 22 AB0000000022 C0087264K0214633 Small County1    381        42     6  yes  no
## 33 AB0000000033 C0094710K0207187 Small County1    334        72     5  yes  no
## 42 AB0000000042 C0141009K0160888 Small County1    444        34     8  yes  no
## 52 AB0000000052 C0038888K0263009 Small County1    380        90     6  yes  no
##    Years  Segments
## 9   38.7 County1 1
## 14  35.0 County1 2
## 22  34.7 County1 3
## 33  44.4 County1 4
## 42  24.1 County1 5
## 52  17.6 County1 6
n <- dim(muestra)[1]

Continuación…

Con la muestra anterior ¿cómo hacemos para estimar el total, la varianza y el Cve para Income?

estima <- data.frame(Income)
E.BE(estima,pik)
##                           N       Income
## Estimation     8.527861e+04 3.668495e+07
## Standard Error 6.524398e+02 3.288819e+05
## CVE            7.650685e-01 8.965035e-01
## DEFF                    Inf 3.679962e+00
  • Utilizando los códigos anteriores, cambie el \(p\) y estime el promedio y el Cve de las variables Taxes y Employees.

  • Calcule los \(deff\) para las estimaciones anteriores.

Muestreo Sistematico

Particularidades

  • No se dispone de un marco de muestreo, por lo menos no de forma explícita.

  • Cuando el marco disponible está ordenado de forma particular, con respecto a los rótulos del mismo.

  • Todas las unidades se suponen enumeradas del 1 al \(N\).

  • Se tiene conocimiento de que la población se encuentra particionada en a grupos poblacionales latentes.

Definiciones

  • El tamaño poblacional \(N\) puede expresarse como
    \[ N = n\,a + c, \] donde:
    • \(a\) = paso de muestreo
    • \(n = \lfloor N/a\rfloor\) = tamaño de muestra esperado
    • \(c = N - n\,a\), con \(0 \le c < a\)

Posible configuracion del muestreo sistemático

Pascal

Diseño

Suponga que la población tiene tamaño
\[ N = n\,a + c,\quad 0 \le c < a. \]

Definimos el diseño de muestreo sistemático eligiendo un desplazamiento inicial \(r\) en \(\{1,2,\dots,a\}\) con probabilidad \(1/a\), y luego tomando la muestra

\[ s_r = \{\,r,\; r+a,\; r+2a,\;\dots,\; r+(n-1)\,a\}. \]

La función de diseño queda entonces

\[ p(s) = \begin{cases} \displaystyle\frac1a, & \text{si } s = s_r \text{ para algún } r\in\{1,\dots,a\},\\[6pt] 0, & \text{en otro caso.} \end{cases} \]

Algoritmo de selección sistemática

  1. Arranque aleatorio

    Elegir un entero \(r\) con probabilidad \(\tfrac1a\), donde
    \[ r \in \{1,2,\dots,a\}. \]

  2. Construcción de la muestra
    La muestra sistemática \(s_r\) se compone de los \(n\) elementos: \[ s_r \;=\;\bigl\{\,k : k = r + (j-1)\,a,\; j = 1,2,\dots,n \bigr\}. \]

Probabilidades de inclusión (MAS sistemático)

  • Probabilidad de primer orden
    Para cada \(k\in U\): \[ \pi_{k} \;=\;\frac{n}{N}\;=\;\frac1a \]

  • Probabilidad de segundo orden
    Para todo par \(k\neq l\): \[ \pi_{kl} \;=\; \begin{cases} \dfrac1a, & \text{si } |k - l|\text{ es múltiplo de }a,\\[6pt] 0, & \text{en otro caso.} \end{cases} \]

Estimador Horvitz–Thompson y varianza (SIS)

  • Estimador del total
    \[ \hat{t}_{y,\pi} = a \; t_{s_r} \quad\text{con}\quad t_{s_r} = \sum_{k\in S_r} y_k \]

  • Varianza teórica
    \[ \mathrm{Var}_{\text{SIS}}(\hat{t}_{y,\pi}) = a \sum_{r=1}^{a}\Bigl(t_{s_r}-\bar t\Bigr)^{2}, \quad \bar t = \frac{1}{a}\sum_{r=1}^{a}t_{s_r} = \frac{t}{a} \]

Nota:
No existe una fórmula cerrada para estimar esta varianza desde la muestra.

Reescribiendo la varianza de HT

Partiendo de
\(\displaystyle Var(\hat t_{y,\pi}) \;=\;\sum_{k,l\in U}\Delta_{kl}\,\frac{y_k}{\pi_k}\,\frac{y_l}{\pi_l}\)

se puede mostrar que equivale a
\[ \sum_{k,l\in U}\frac{\pi_{kl}}{\pi_k\,\pi_l}\,y_k\,y_l \;-\;\Bigl(\sum_{k\in U}y_k\Bigr)^2 \]

Nota:

  • Aquí \(\displaystyle\Delta_{kl}=\pi_{kl}-\pi_k\pi_l\).
  • Esta forma resulta útil para ciertos diseños muestrales donde se conocen \(\pi_{kl}\).

Ordenamiento aleatorio

  • Si el orden del marco no está correlacionado con la característica de interés:
    • La varianza del estimador HT es prácticamente la misma que en un MAS.
    • El diseño es tan eficiente como el muestreo aleatorio simple sin reemplazo.
  • Ejemplo típico de ordenamiento “aleatorio”:
    • Listar las unidades alfabéticamente (o por cualquier clave sin relación con \(y\)).
    • Luego aplicar un procedimiento sistemático o Bernoulli sobre ese listado.

Ordenamiento lineal

  • Si el marco está ordenado por una variable correlacionada con la característica \(y\):
    • Aparece una tendencia lineal a lo largo del listado.
    • La muestra sistemática “zigzaguea” sobre esa tendencia, garantizando máxima dispersión.
  • Consecuencia:
    • Cada bloque de unidades consecutivas en la muestra resulta heterogéneo en \(y\).
    • Se mejora la eficiencia: reduce la varianza respecto al MAS cuando hay correlación fuerte.
  • Ejemplo práctico:
    1. Ordenar por edad (de menor a mayor).
    2. Luego aplicar selección sistemática con arranque aleatorio.

Ordenamiento periódico

  • Patrón periódico en la población
    Cuando los valores de \(y\) siguen un ciclo regular (por ejemplo, tráfico horario o ventas estacionales).

  • Riesgo con muestreo sistemático
    Si el intervalo de selección “a” coincide con el período de la señal, todos los elementos muestreados serán muy similares en \(y\).

Continuación…

  • Efecto negativo
    • Aumenta la varianza del estimador.
    • La muestra deja de ser representativa de la variabilidad real.
  • Ejemplos
    1. Flujo vehicular medido cada hora en un cruce.
    2. Ventas diarias de un comercio en temporada alta/baja.

Descomposición de la varianza

Suponga que la población se divide en \(a\) grupos de \(n\) unidades cada uno (\(N=an\)). Entonces

\[ (N - 1)S^2_{y_U} = \underbrace{\sum_{k\in U} (y_k - \bar y_U)^2}_{\text{SCT}} = \underbrace{\sum_{r=1}^a \sum_{k\in s_r} (y_{rk} - \bar y_{s_r})^2}_{\text{SCD}} \;+\; \underbrace{n \sum_{r=1}^a (\bar y_{s_r} - \bar y_U)^2}_{\text{SCE}} \]

  • SCT: Suma de cuadrados total
  • SCD: Suma de cuadrados dentro
  • SCE: Suma de cuadrados entre
  • SCT se refiere a la suma de cuadros del total de la población y no es otra cosa que el numerador en la fórmula del estimador de la varianza.

  • SCD denota la suma de cuadrados dentro (al interior) de los grupos.

  • SCE hace referencia a la suma de cuadrados entre los grupos.

Reescribiendo la varianza

Bajo un diseño sistemático con \(N = an\), la varianza del estimador de Horvitz–Thompson se expresa como:

\[ \mathrm{Var}_{\mathrm{SIS}}(\,\hat t_{y,\pi}\,) = N \sum_{r=1}^{a} n \,\bigl(\bar y_{s_r} - \bar y_{U}\bigr)^{2} = N \times \mathrm{SCE} \]

Coeficiente de correlación intra-clase

Se define como:

\[ \rho \;=\; 1 \;-\; \frac{n}{\,n-1\,}\;\frac{\mathrm{SCD}}{\mathrm{SCT}} \]

  • \(\rho\) mide la similitud dentro de los grupos formados.
  • \(\rho = 1\) cuando \(\mathrm{SCE}=0\) (ninguna variación entre grupos).
  • \(\rho = -\tfrac1{n-1}\) cuando \(\mathrm{SCE}\) es máxima.
  • Para diseño sistemático ideal, buscamos \(\rho\approx 0\).

Resultado 1

Dado que \(\mathrm{SCT} = \mathrm{SCE} + \mathrm{SCD}\), se obtiene:

\[ \mathrm{SCE} = \mathrm{SCT}\,\Bigl[\;(\rho - 1)\,\tfrac{n-1}{n}\;+\;1\Bigr] \]

Resultado 2

La varianza del estimador de Horvitz–Thompson bajo muestreo sistemático puede expresarse en función de la varianza bajo MAS y del coeficiente intra-clase \(\rho\):

\[ \mathrm{Var}_{\mathrm{SIS}}(\hat{t}_{y,\pi}) = \underbrace{\frac{N^2}{n}\Bigl(1-\frac{n}{N}\Bigr)S^2_{yU}}_{\displaystyle \mathrm{Var}_{\mathrm{MAS}}(\hat{t}_{y,\pi})} \;\times\; \left\{\frac{N-1}{\,N-n\,}\bigl[\,1 + (n-1)\rho\bigr]\right\}. \]

Efecto de diseño (Deff)

El efecto de diseño para muestreo sistemático con el estimador de Horvitz–Thompson se define como:

\[ \text{Deff} = \frac{\mathrm{Var}_{\mathrm{SIS}}(\hat{t}_{y,\pi})} {\mathrm{Var}_{\mathrm{MAS}}(\hat{t}_{y,\pi})} = \frac{N-1}{\,N-n\,}\,\bigl[\,1 + (n-1)\,\rho\bigr] \]

Dado el efecto de diseño

\[ \mathrm{Deff} = \frac{N-1}{N-n}\,\bigl[1 + (n-1)\,\rho\bigr] \]

se concluye:

  • Igual eficiencia al muestreo aleatorio simple si
    \(\displaystyle \rho = \frac{1}{1 - N}\).

  • Menor eficiencia que el muestreo aleatorio simple si
    \(\displaystyle \rho > \frac{1}{1 - N}\).

  • Mayor eficiencia que el muestreo aleatorio simple si
    \(\displaystyle \rho < \frac{1}{1 - N}\).

Ejercicio: Para estimar el total de horas diarias que los estudiantes permanecen en la biblioteca de una universidad, se utilizó un diseño de muestreo sistemático con dos arranques aleatorios. La población fue divida en siete grupos latentes y se seleccionó una muestra simple de dos enteros entre el uno y el siete. Los enteros seleccionados son el 3 y 7. Lo anterior implica que la muestra de estudiantes, que serán entrevistados a la salida de la biblioteca, está conformada por dos grupos. A saber el grupo \(s_3\) conformado por los estudiantes \(3, 10, 17 \ldots\) y el grupo \(s_7\) conformado por los estudiantes \(7, 14, 21, \ldots\)

Los resultados del sondeo para los dos grupos se dan acontinuación:

\[ t_{s_3}=\sum_{s_3} y_k =3574; \ \ t_{s_3}=\sum_{s_7} y_k =5024 \]

Calcule una estimación insesgada para el número total de horas de permanencia en la biblioteca, reporte el coeficiente de variación estimado y un intervalo de confianza al 95%

Diseño Poisson

Diseño Poisson (Definición)

  • Es una generalización del muestreo Bernoulli: Cada unidad \(k\in U\) tiene una probabilidad de inclusión \(\pi_k\) fijada de antemano, de forma independiente.

  • Originalmente teórico, sin aplicaciones prácticas inmediatas. Se utilizó para estudiar propiedades de estimadores complejos.

  • Aplicaciones reales:

    1. Selección de árboles en inventarios forestales. (Primer caso) 2. Censo anual manufacturero en EE. UU.

Diseño de Poisson

Sea \(U\) la población y para cada \(k \in U\) definimos una probabilidad de inclusión \(\pi_k\) con \(0 < \pi_k \le 1\). El diseño Poisson (o muestreo de inclusión independiente) queda:

\[ p(s) = \prod_{k\in s} \pi_k \;\times\; \prod_{k\notin s} (1 - \pi_k), \quad \forall\,s \in Q \]

  • \(Q\) es el soporte: el conjunto de todas las posibles muestras sin reemplazo.
  • Cada unidad se incluye independientemente de las demás.

Algoritmo de selección (Poisson)

  1. Para cada \(k \in U\), fije la probabilidad de inclusión \(\pi_k\) tal que \(0 < \pi_k \le 1\).

  2. Genere \(\epsilon_k\sim \mathrm{U}(0,1)\) de forma independiente, para cada \(k\in U\).

  3. Incluya el elemento \(k\) en la muestra si y solo si
    \[ \epsilon_k < \pi_k. \]

  • Resultado: El tamaño de muestra \(n(S)\) es una variable aleatoria, con:

    \[ E\bigl[n(S)\bigr] = \sum_{k\in U}\pi_k \quad,\quad \mathrm{Var}\bigl[n(S)\bigr] = \sum_{k\in U}\pi_k\,(1-\pi_k) \]

Probabilidades de inclusión

  • Primer orden
    \[ \pi_{k} = \pi_{k} \]

  • Segundo orden
    \[ \pi_{kl} = \begin{cases} \pi_{k}, & k = l,\\[6pt] \pi_{k}\,\pi_{l}, & k \neq l. \end{cases} \]

Estimador de Horvitz–Thompson (Poisson)

  • Estimador del total
    \[ \hat{t}_{y,\pi} = \sum_{k\in S} \frac{y_k}{\pi_k} \]

  • Varianza teórica
    \[ \mathrm{Var}_{PO}(\hat{t}_{y,\pi}) = \sum_{k\in U} \Bigl(\tfrac{1}{\pi_k} - 1\Bigr)\,y_k^2 \]

  • Estimación de la varianza
    \[ \widehat{\mathrm{Var}}_{PO}(\hat{t}_{y,\pi}) = \sum_{k\in S} (1 - \pi_k)\,\Bigl(\tfrac{y_k}{\pi_k}\Bigr)^{2} \]

Resultado

Bajo un diseño de muestreo Poisson con tamaño de muestra esperado (fijo) \(n\), la varianza del estimador de Horvitz–Thompson se minimiza tomando

\[ \pi_k \;\propto\; y_k \quad\Longrightarrow\quad \pi_k \;=\; \frac{n\,y_k}{\displaystyle\sum_{k\in U}y_k} \]

Diseño Óptimo en Poisson: Caso Práctico

En la práctica no conocemos los valores \(y_k\) para todos los \(k\in U\).
En su lugar, elegimos una variable auxiliar \(x_k\) altamente correlacionada con \(y_k\).

  • Entonces fijamos
    \[ \pi_k \;=\;\frac{n\,x_k}{\displaystyle\sum_{k\in U}x_k}, \quad k\in U, \quad\text{con}\;\sum_{k\in U}\pi_k = n. \]

  • Con esta elección, el estimador de Horvitz–Thompson se aproxima al óptimo sin conocer realmente todos los \(y_k\).

Ejercicio: (Sarndal, Swensson & Wretman 1992, p. 117) Para estimar el total de la característica de interés \(y\) de una población de \(N = 284\) elementos, se utilizó un diseño de muestreo Poisson de tamaño de muestra esperado \(n(S) = 10\). Las probabilidades de inclusión fueron proporcionales a una característica de información auxiliar \(x\) cuyo total poblacional es \(t_x = 8182\). Luego, el algoritmo de selección arrojó una muestra de tamaño efectivo de 12 elementos, para las cuales se obtuvo la siguiente información:

\(x_k\) 54 671 28 27 29 62 42 48 33 446 12 46
\(y_k\) 5246 59877 2208 2546 2903 6850 3773 4055 4014 38945 1162 4852

Continuación…

  • Calcule una estimación insesgada para el total poblacional de la característica de interés, reporte el coeficiente de variación estimado y un intervalo de confianza al 95%.

  • Calcule una estimación insesgada para la media poblacional de la característica de interés, reporte el coeficiente de variación estimado y un intervalo de confianza al 95%.

  • Utilice el estimador alternativo para calcular estimaciones tanto del total como de la media poblacional.

Diseño de muestreo PPT

Características

Según Bautista (1998), en un diseño con reemplazo las probabilidades de selección óptimas son

\[ p_k \;=\; \frac{y_k}{\displaystyle\sum_{k\in U}y_k} \]

  • Cada \(p_k\) es proporcional al valor de la característica de interés \(y_k\).

Caso m = 1 en Hansen–Hurwitz PPT

Con
\[ \hat t_{y,p} = \frac1m \sum_{i=1}^m \frac{y_{k_i}}{p_{k_i}} \quad\text{y}\quad p_k = \frac{y_k}{\sum_{k\in U}y_k}, \] si tomamos \(m = 1\) obtenemos:

\[ \hat t_{y,p} = \frac1{1}\,\frac{y_{k_1}}{p_{k_1}} = \frac{y_{k_1}}{\;y_{k_1} / \sum_{k\in U}y_k\;} = \sum_{k\in U}y_k. \]

Conclusión: Con una sola selección \((m=1)\) y probabilidades PPT, el estimador recupera exactamente el total poblacional \(\sum_{k\in U}y_k\).

Estimación exacta con PPT (m = 1)

  • Con una sola extracción (\(m=1\)) y
    \[ p_k \;=\;\frac{x_k}{\displaystyle\sum_{k\in U}x_k}, \quad \hat t_{y,p} \;=\;\frac{y_{k_1}}{p_{k_1}} \;=\;\sum_{k\in U}y_k \] se recupera exactamente el total poblacional
    \(\displaystyle t_y=\sum_{k\in U}y_k\),
    y la varianza es cero.

Características de la variable auxiliar \(x_k\)

  1. \(x_k>0\) para todo \(k\in U\).
  2. \(x_k\) está disponible y conocida para todos los elementos de la población.
  3. Debe estar altamente correlacionada con \(y_k\) para mejorar la eficiencia.

Diseño de muestreo

Se define un diseño de muestreo con probabilidad de selección proporcional al tamaño de la característica auxiliar, de la siguiente manera:

\[ p(s)=\begin{cases} \frac{m!}{n_1(s)!\ldots n_N(s)!}\prod_U \left(\frac{1}{p_k}\right)^{n_k(s)} & \text{si} \ \sum_Un_k(s)=m \\ 0 &\text{en otro caso} \end{cases} \]

Donde \(n_k(s)\) es el número de veces que el elemento \(k\)-ésimo es seleccionado en la muestra realizada \(s\) y \(p_k\) es la probabilidad de selección del elemento \(k\)-ésimo dada por

\[ p_k=\frac{x_k}{t_x} \] con \(t_x\) el total poblacional de la característica auxiliar \(x\).

Probabilidades de inclusión

Para un diseño de muestreo con reemplazo y con probabilidades de selección proporcionales al tamaño de una característica de información auxiliar, las probabilidades de inclusión de primer y segundo orden están dadas por:

\[ \pi_k = 1-\left(1-p_k\right)^m \]

\[ \pi_{kl} = 1 - (1 - p_k)^m - (1 - p_l)^m + (1 - p_k - p_l)^m \]

En donde \(p_k=\dfrac{x_k}{t_x}\)

Algoritmo de selección (Método Lahiri)

Siendo \(M\geq\max(x_{1},\ldots,x_{N})\), los siguientes dos pasos se ejecutan para seleccionar un elemento.

  1. Seleccione un número \(l\) de manera aleatoria de una distribución de probabilidad uniforme discreta en el intervalo \([1,N]\).

  2. Seleccione un número \(\eta\) de manera aleatoria de una distribución de probabilidad uniforme discreta en el intervalo \([1,M]\).

Si \(\eta \leq x_l\), entonces el elemento \(l\)-ésimo es seleccionado. Si, por el contrario, \(\eta > x_l\) se repite el procedimiento hasta seleccionar una unidad. Si el tamaño de la muestra a seleccionar es \(m\), entonces el anterior esquema se realiza \(m\) veces.

Ejemplo

Suponga que para la población de ejemplo \(U\) se tiene conocimiento de cada valor de la siguiente característica de información auxiliar correlacionada con la característica de interés.

U  <-  c("Yves", "Ken", "Erik", "Sharon", "Leslie") 
x <- c(52, 60, 75, 100, 50)

Para seleccionar una muestra con probabilidad proporcional a \(x\), se crean las probabilidades de selección dadas por

pk <- x / sum(x)

Para seleccionar una muestra con reemplazo de la población \(U\) utilizando el paquete TeachingSampling implementa la función S.PPS que consta de dos argumentos, \(m\) el tamaño de muestra y \(x\) la caracteristica de interés que contiene todos y cada uno de los valores correspondientes a los elementos de la población para la característica auxiliar.

sam <- S.PPS(3, x)
U[sam]
## [1] "Erik" "Erik" "Erik"

Estimador de Hansen-Hurwitz

Sea \(x_k\), el valor de una característica auxiliar continua, para un diseño de muestreo aleatorio proporcional al tamaño con reemplazo, el estimador de Hansen-Hurwitz del total poblacional \(t_y\), su varianza y su varianza estimada están dados por:

\[ \hat{t}_{y,p}=\frac{t_x}{m}\sum_{i=1}^m\frac{y_{ki}}{x_{ki}} \]

\[ Var_{PPT}(\hat{t}_{y,p})=\frac{1}{m}\sum_{k=1}^{N}p_k\left(\frac{y_k}{p_k}-t_y\right)^2 \]

\[ \widehat{Var}_{PPT}(\hat{t}_{y,p})=\frac{1}{m(m-1)}\sum_{i=1}^{m}\left(\frac{y_i}{p_i}-\hat{t}_{y,p}\right)^2 \]

Demostración del insesgamiento del \(\hat{t}_{y,p}\)

\[ \begin{align*} E\left(\frac{t_x}{m}\sum_{i=1}^m\frac{y_{ki}}{x_{ki}}\right)&=E\left(\frac{t_x}{m}\sum_{U}n_k(S)\frac{y_k}{x_k}\right) \\ &=\frac{t_x}{m}\sum_{U}E(n_k(S))\frac{y_k}{x_k} \\ &=\frac{t_x}{m}\sum_{U}m\frac{x_k}{t_x}\frac{y_k}{x_k}=t_y \end{align*} \]

Resultados

Para el diseño de muestreo PPT, el estimador de Hansen-Hurwitz del total de la característica de información auxiliar reproduce ese total con varianza nula

Demo: De la definición del estimador Hansen-Hurwitz, se tiene que:

\[ \begin{align*} \hat{t}_{x,p}=\frac{1}{m}\sum_{k\in S}\frac{x_k}{p_k}=\frac{1}{m}\sum_{k\in S}t_x=t_x \end{align*} \]

Por otro lado,

\[ \begin{align} Var_{PPT}(\hat{t}_{y,p})&=\frac{1}{m}\sum_{k=1}^{N}p_k\left(\frac{x_k}{p_k}-t_x\right)^2\\ &=\frac{1}{m}\sum_{k=1}^{N}p_k(t_x-t_x)^2=0 \end{align} \]

La resta de la varianza de la estrategia aleatoria simple con reemplazo con la varianza de la estrategia PPT da como resultado la siguiente expresión:

\[ \begin{align} Var_{MRAS}(\hat{t}_{y,p})-Var_{PPT}(\hat{t}_{y,p})=\frac{N^2}{m}Cov\left(x,\frac{y^2}{x}\right) \end{align} \]

Demo:

\[ Var_{MRAS}\left(\hat{t}_{y,p})-Var_{PPT}(\hat{t}_{y,p}\right) = A \\ \begin{align*} A &=\frac{1}{m}\left[ N\sum_{k=1}^Ny_k^2-t_y^2-t_x\sum_{k=1}^N\frac{y_k^2}{x_k}+t_y^2\right] \\ &=\frac{1}{m}\left[ \sum_{k=1}^N\frac{y_k^2}{x_k}(Nx_k-t_x)\right] \\ &=\frac{N}{m}\left[ \sum_{k=1}^N\frac{y_k^2}{x_k}(x_k-\bar{x})\right] \\ &=\frac{N^2}{m}Cov\left(x,\frac{y^2}{x}\right) \end{align*} \]

Nota:

\[ \begin{align*} NCov\left(x,w\right)&=\sum_{k=1}^N(x_k-\bar{x})(w_k-\bar{w}) \\ &=\sum_{k=1}^N(x_k-\bar{x})w_k-\bar{w}\sum_{k=1}^N(x_k-\bar{x}) \\ &=\sum_{k=1}^N(x_k-\bar{x})w_k \end{align*} \]

Ejemplo computacioinal:

data(BigLucy)
attach(BigLucy)
m <- 400
pk <- Income/sum(Income)
sam <- S.PPS(m,Income)
muestra <- BigLucy[sam,]
attach(muestra)
pk.s <- pk[sam]
E.PPS(Income,pk.s)
##                           N        y
## Estimation     83394.380084 36634733
## Standard Error  3236.356177        0
## CVE                3.880785        0
## DEFF                    Inf        0

Ejercicio:

Suponga una población de 12 elementos \(U = \epsilon_1, \epsilon_2, \ldots, \epsilon_n\) cuyo marco de muestreo contiene una característica de información auxiliar dada por:

x = c(674, 802, 829, 726, 709, 789, 742, 791, 805, 797, 771, 692)
  • Si se desea seleccionar una muestra con reemplazo de tamaño \(m = 6\), construya un vector de probabilidades de selección proporcionales a \(x\) tales que \(0 < p_k \leq 1\) para todo \(k \in U\) y verifique \(\sum_U p_k =6\)
  • Utilice el metodo acumulativo total para seleccionar una muestra PPT teniendo en cuenta que para cada una de las seis extracciones se generaron los siguientes números aleatorios uniformes \(\zeta = 0.075, 0.397, 0.280, 0.407, 0.982, 0.782\)

  • Utilice el método de Lahiri para seleccionar una muestra PPT usando sus propios números aleatorios \(\eta\) y \(l\) en cada una de las extracciones.

Ejercicio

  1. Cambie el tamaño de muestra y con las variables Employees y Taxes, estime el promedio junto con su Cve (escoja la mejor variable auxiliar).

  2. Compare esto con los otros diseños vistos en clase.

Diseño \(\pi\)PT

Generalizaciones

Según Gutierrez(2015), utilizar una estrategia de muestreo que contemple un diseño de muestreo con reemplazo es menos eficiente que implementar una estrategia de muestreo que contemple un diseño de muestreo sin reemplazo y de tamaño muestral fijo.

De esta forma, es posible aumentar significativamente la eficiencia de la estrategia que involucra al estimador de Horvitz-Thompson.

Probabilidad de inclusión

Este diseño de muestreo induce probabilidades de inclusión proporcionales al tamaño de una característica de información auxiliar. De esta manera, se supone que el marco de muestreo tiene la bondad de poseer información auxiliar de tipo continuo y positiva disponible para todo elemento perteneciente a la población finita. Asimismo, el diseño de muestreo \(\pi\)PT, de tamaño de muestra fijo e igual a \(N\), se basa en la construcción de probabilidades de inclusión que obedezcan la siguiente relación:

\[ \pi_k = \frac{nx_k}{t_x} \ \ \ \ \ \ \ 0<\pi_k\leq 1 \]

Características

Se busca que:

  • El algoritmo de selección de muestras bajo este diseño sea de fácil implementación computacional.

  • Las probabilidades de inclusión de segundo orden sean positivas, \(\pi_{kl} > 0\). De lo contrario el estimador de la varianza podrá ser sesgado.

  • El cálculo de estas probabilidades de inclusión de segundo orden, \(\pi_{kl}\) , sea sencillo.

  • \(\Delta_{kl} < 0\) \(\forall_k \notin l\) para que la estimación de la varianza no sea negativa.

Nota:

En ciertas ocasiones, cuando la población tiene un comportamiento muy variable, irregular y sesgado, algunas de las \(\pi_k\) pueden ser mayores a uno para ciertos elementos. En tal caso, estos elementos son incluidos en todas las posibles muestras y toman el nombre de elementos de inclusión forzosa.

Sin embargo, para calcular la probabilidad de inclusión de los elementos restantes, se utiliza la siguiente expresión:

\[ \pi_k=\frac{(n-n^*)x_k}{\sum_{k\in U^*}x_k} \ \ \ \ \ \ 0<\pi_k\leq 1; \ \ k\in U^* \]

donde \(n^*\) corresponde al número de elementos de inclusión forzosa y \(U^*\) la población finita excluyendo a estos elementos de inclusión forzosa.

Al final del proceso, deberían existir dos grupos de elementos:

  1. Un grupo de elementos de inclusión forzosa con probabilidades de inclusión iguales a uno.

  2. Un grupo de elementos con probabilidades de inclusión \(0 < \pi_k < 1\) y proporcionales a \(x_k\).

Estimador Horvitz-Thompson

Para el diseño de muestreo \(\pi\)PT, el estimador de Horvitz-Thompson, su varianza y su varianza estimada están dados por:

\[ \hat{t}_{y,\pi}=\sum_S\frac{y_k}{\pi_k} \]

\[ Var_{\pi PT}(\hat{t}_{y,\pi})=-\frac{1}{2}\sum\sum_U\Delta_{kl}\left(\frac{y_k}{\pi_k}-\frac{y_l}{\pi_l}\right)^2 \]

\[ \widehat{Var}_{\pi PT}(\hat{t}_{y,\pi})=-\frac{1}{2}\sum\sum_S\frac{\Delta_{kl}}{\pi_{kl}}\left(\frac{y_k}{\pi_k}-\frac{y_l}{\pi_l}\right)^2 \]

Ejemplo:

Suponga que para la población de ejemplo \(U\) se tiene conocimiento de cada valor de la siguiente característica de información auxiliar correlacionada con la característica de interés. Por tanto, un primer paso para el cálculo de las probabilidades de inclusión es:

n <- 4
x <- c(52, 60, 75, 100, 50)
pik <- n * x / sum(x)
pik
## [1] 0.6172107 0.7121662 0.8902077 1.1869436 0.5934718

Nótese que hay un elemento de la población que es de inclusión forzosa; Los demás elementos se calculan como sigue:

n <- 3
x <- c(52, 60, 75, 50)
pik <- n * x / sum(x)
pik
## [1] 0.6582278 0.7594937 0.9493671 0.6329114

Por tanto el vector de probabilidades de inclusión para toda la población U está dado por:

\[ \begin{align*}\boldsymbol{\pi}=(\underbrace{0.6582278}_{\textbf{Yves}},\underbrace{0.7594937}_{\textbf{Ken}},\underbrace{0.9493671}_{\textbf{Erik}},\underbrace{1.0000}_{\textbf{Sharon}},\underbrace{0.6329114}_{\textbf{Leslie}})\end{align*}' \]

Resultado

Para el diseño de muestreo \(\pi\)PT, el estimador de Horvitz-Thompson del total de la característica de información auxiliar reproduce ese total con varianza nula

Demostración

De la definición del estimador de Horvitz-Thompson se tiene que:

\[ \begin{align*}\hat{t}_{x,\pi}=\sum_{k\in S}\frac{x_k}{\pi_k}=\sum_{k\in S}t_x\frac{1}{n}=t_x\end{align*} \] Por otro lado,

\[ \begin{align} Var_{\pi PT}(\hat{t}_{x,\pi})&=-\frac{1}{2}\sum\sum_U\Delta_{kl}\left(\frac{x_k}{\pi_k}-\frac{x_l}{\pi_l}\right)^2 \\ &=-\frac{1}{2}\sum\sum_U\Delta_{kl}\left(\frac{t_x}{n}- \frac{t_x}{n}\right)^2=0\end{align} \]

Algoritmo de selección (Método Sunter)

  • Ordenar descendentemente la población de acuerdo con los valores que toma la característica de información auxiliar \(x_k\). Realizar \(\xi \in U(0,1)\).

  • Para \(k = 1\), el primer elemento de la lista ordenada es incluido en la muestra sí y solamente sí \(\xi_1 < \pi_1\).

  • Para \(k \geq 2\), el \(k\)-ésimo elemento de la lista ordenada es incluido en la muestra sí y solamente sí

\[ \xi_k \leq\dfrac{n-n_{k-1}}{n-\sum_{i=1}^{k-1}\pi_i}\pi_k \] donde \(n_{k-1}\) representa el número de elementos que ya han sido seleccionados al final del paso \(k-1\).

Ejemplo computacional

U <- c("Yves", "Ken", "Erik", "Sharon", "Leslie")
N <- length(U)
n <- 3
x <- c(52,60,75,100,50)
pi <- (n*x)/sum(x)
sum(pi)
## [1] 3
sam <- S.piPS(n,x,e=runif(N))
U[sam]
## [1] "Sharon" "Erik"   "Ken"
x[sam]
## [1] 100  75  60
data(BigLucy)
attach(BigLucy)
N <- nrow(BigLucy)
n <- 3000
sam <- S.piPS(n, Income)
muestra <- BigLucy[sam,]
attach(muestra)
pik.s <- sam[,2]
variables = data.frame(Income, Employees, Taxes)
E.piPS(variables, pik.s)
##                           N       Income    Employees        Taxes
## Estimation     86467.520010 3.663473e+07 5.508469e+06 9.879927e+05
## Standard Error  1192.624515 4.667965e-11 7.246061e+04 1.018031e+04
## CVE                1.379275 1.274191e-16 1.315440e+00 1.030403e+00
## DEFF                    Inf 9.403773e-33 1.560477e+00 6.790956e-02

Muestreo estratificado

Características generales

  • Útil cuando la variabilidad entre estratos es alta y dentro de estratos es baja.
  • Divide la población en \(H\) estratos mutuamente excluyentes \(U_1,\dots,U_H\).
  • Se aplican muestras independientes en cada estrato.
  • Mejora la precisión global si los promedios estratales difieren entre sí.
  • Permite asegurar representatividad en cada subgrupo.

Cuando el marco de muestreo incluye información auxiliar para dividir la población en \(H\) subgrupos antes de la recolección:

  • Cada subgrupo \(U_h\) (conjunto de unidades) se llama estrato.
  • Se selecciona independientemente una muestra dentro de cada estrato.
  • Cada estrato puede tener diseños, tamaños de muestra o estimadores distintos, según su variabilidad interna.
  • Objetivo: Reducir la varianza global aprovechando la homogeneidad interna de cada estrato y la heterogeneidad entre ellos.

¿Por qué estratificar?

  1. Estructura administrativa preexistente
    • Muchos marcos ya agrupan unidades en subgrupos “naturales” (regiones, sucursales, etc.).
    • Aprovechamos esa segmentación para muestreos más ordenados.
  2. Representatividad garantizada
    • Una SRS sobre toda la población podría omitir por completo a un subgrupo (p. ej. todos hombres).
    • Al fijar cuotas en cada estrato, aseguramos que cada segmento aparezca en la muestra.
  1. Precisión para subpoblaciones clave
    • Si necesitamos estimaciones fiables por subgrupo, podemos asignar más muestras a los estratos pequeños o de alta variabilidad.
    • Optimiza el uso de recursos y mejora la exactitud en los dominios críticos.
  2. Menor Costo
  • Distintos esquemas operativos para diversos estratos. Encuestas por correo para empresas grandes. Menor tamaño de muestras en zonas de tolerancia o zonas de difícil manejo del orden público.
  1. Reducción de la varianza en la estimación
  • Personas de distintas edades con distintas presiones sanguíneas (estratificar por grupos de edad). Se reduce la varianza pues los estratos son homogéneos por dentro, pero heterogéneos entre sí.

  • Nota importante

El objetivo del diseño estratificado es dar un tratamiento particular a cada subgrupo, ya sea por razones económicas, administrativas o logísticas. Es indispensable delimitar bien los subgrupos en la etapa de diseño.

Fundamentos teóricos

Dividimos la población \(U\) en \(H\) estratos mutuamente excluyentes \(U_h\), \(h=1,\dots,H\):

  • \(\displaystyle U = \bigcup_{h=1}^{H} U_h\)
  • \(\displaystyle U_h \,\cap\, U_i = \varnothing\quad(h\neq i)\)

Cada estrato \(U_h\) tiene tamaño \(N_h\), de modo que

\[ \sum_{h=1}^{H} N_h \;=\; N. \]

Estimación en estratos

  • Total poblacional
    \[ t_y \;=\;\sum_{k\in U}y_k \;=\; \sum_{h=1}^H \sum_{k\in U_h} y_k \;=\; \sum_{h=1}^H t_{y h}, \quad t_{y h} = \sum_{k\in U_h} y_k \]

  • Media poblacional
    \[ \bar y \;=\; \frac{1}{N}\sum_{k\in U}y_k \;=\; \frac{1}{N}\sum_{h=1}^H \sum_{k\in U_h} y_k \;=\; \frac{1}{N}\sum_{h=1}^H N_h \,\bar y_h \;=\; \sum_{h=1}^H \frac{N_h}{N}\,\bar y_h, \] donde \(\bar y_h = \dfrac{1}{N_h}\sum_{k\in U_h} y_k\).

La muestra \(S\) queda definida por

\[ S=\bigcup_{h=1}^H S_h. \]

En particular, si la muestra seleccionada es \(s\), entonces

\[ s=\bigcup_{h=1}^H s_h. \]

Nótese que, si para cada estrato \(h\) seleccionamos \(n_h\) unidades, entonces el tamaño total de la muestra queda \[ n \;=\; \sum_{h=1}^{H} n_h. \]

Diseño de muestreo

Si en cada estrato \(h\) usamos un diseño de muestreo con distribución \(p_h(s_h)\), y las selecciones son independientes entre estratos, entonces el diseño global es

\[ p(s) = \prod_{h=1}^{H} p_h\bigl(s_h\bigr), \]

donde: \[ s \;=\;\bigcup_{h=1}^H s_h, \quad p_h(s_h)\;=\;\Pr\bigl(S_h = s_h\bigr). \]

Estimación en muestreo estratificado

Si \(\hat t_{yh}\) es un estimador insesgado de \(t_{yh}\) con varianza \(\mathrm{Var}(\hat t_{yh})\), entonces un estimador insesgado del total poblacional \(t_y\) se define como

\[ \hat t_y \;=\; \sum_{h=1}^H \hat t_{yh}, \]

y su varianza es

\[ \mathrm{Var}(\hat t_y) \;=\; \sum_{h=1}^H \mathrm{Var}(\hat t_{yh}). \]

Estimación de la varianza

Si \(\widehat{\mathrm{Var}}(\hat t_{yh})\) es un estimador insesgado de \(\mathrm{Var}(\hat t_{yh})\), entonces un estimador insesgado de \(\mathrm{Var}(\hat t_{y})\) es

\[ \widehat{\mathrm{Var}}(\hat t_{y}) \;=\; \sum_{h=1}^H \widehat{\mathrm{Var}}(\hat t_{yh}). \]

Estimador de Horvitz–Thompson

Para muestreo estratificado, el estimador de Horvitz–Thompson, su varianza y su varianza estimada son:

\[ \hat{t}_{y,\pi} = \sum_{h=1}^H \hat{t}_{y_h,\pi}, \qquad \hat{t}_{y_h,\pi} = \sum_{k\in S_h} \frac{y_k}{\pi_k} \]

\[ \mathrm{Var}_{\mathrm{EST}}(\hat{t}_{y,\pi}) = \sum_{h=1}^H \mathrm{Var}_{p_h}\bigl(\hat{t}_{y_h,\pi}\bigr) \]

Continuación…

\[ \widehat{\mathrm{Var}}_{\mathrm{EST}}(\hat{t}_{y,\pi}) = \sum_{h=1}^H \widehat{\mathrm{Var}}_{p_h}\bigl(\hat{t}_{y_h,\pi}\bigr) \]

donde: - \(\mathrm{Var}_{p_h}(\hat{t}_{y_h,\pi})\) es la varianza de \(\hat{t}_{y_h,\pi}\) en el \(h\)-ésimo estrato. - \(\widehat{\mathrm{Var}}_{p_h}(\hat{t}_{y_h,\pi})\) es su estimación basada en la muestra del \(h\)-ésimo estrato.

Diseño de muestreo aleatorio estratificado

Estimador de Horvitz-Thompson

  • El diseño de muestreo aleatorio estratificado (EST-MAS) es el más sencillo de los diseños estratificados. En este caso particular se selecciona una muestra aleatoria simple en cada estrato, de tal forma que las selecciones sean independientes.

  • En cada estrato \(h\) una muestra aleatoria simple sin reemplazo de tamaño \(n_h\) es seleccionada, de manera independiente, de la población del estrato de tamaño \(N_h\).

  • Aunque el diseño de muestreo aleatorio simple es utilizado como un método final de selección de elemento, en conjunto el diseño estratificado puede resultar dramáticamente más eficiente que utilizar un diseño de muestreo aleatorio simple sin dividir la población.

Diseño de muestreo

Para tamaños de muestra fijos en cada estrato, denotados como \(n_1,\ldots,n_H\), un diseño estratificado aleatorio simple sin reemplazo tiene:

\[ p(s)= \begin{cases} \displaystyle \prod_{h=1}^H \frac{1}{\binom{N_h}{n_h}}, & \text{si } \sum_{h=1}^H n_h = n, \\[1ex] 0, & \text{en otro caso.} \end{cases} \]

Algoritmo de selección

  1. Separar la población en \(H\) subgrupos (estratos) usando información auxiliar.

  2. Para cada estrato \(h=1,\dots,H\):

    • Seleccionar una muestra aleatoria simple sin reemplazo de tamaño \(n_h\) de un universo de \(N_h\) unidades, usando el algoritmo deseado (p. ej. “coordinado negativo” o “selección y rechazo”).
  3. Las \(H\) selecciones se realizan de forma independiente.

Ejemplo

Suponga que nuestra población de ejemplo \(U\) está particionada de acuerdo a la sección anterior. Es necesario definir los dos estratos, de manera tal que ningún elemento tenga una doble pertenencia a algún estrato.

U1 <- c("Erik", "Sharon")
N1 <- length(U1)
U2 <- c("Yves", "Ken", "Leslie")
N2 <- length(U2)
U <- union(U1,U2)
N <- N1+N2
sam1 <- sample(N1, 1, replace=FALSE)
U1[sam1]
## [1] "Sharon"
sam2 <- S.SI(N2,2)
U2[sam2]
## [1] "Ken"    "Leslie"
sam <- union(U1[sam1],U2[sam2])
sam
## [1] "Sharon" "Ken"    "Leslie"

Probabilidades de inclusión

Para un diseño de muestreo aleatorio estratificado (EST-MAS), las probabilidades de inclusión de primer y segundo orden son

\[ \pi_k \;=\;\frac{n_h}{N_h} \quad\text{si }k\in U_h \]

\[ \pi_{kl} \;=\; \begin{cases} \displaystyle \frac{n_h}{N_h}, & k = l,\;k\in U_h,\\[1ex] \displaystyle \frac{n_h}{N_h}\,\frac{n_h-1}{N_h-1}, & k\neq l,\;k,l\in U_h,\\[1ex] \displaystyle \frac{n_h}{N_h}\,\frac{n_i}{N_i}, & k\in U_h,\;l\in U_i,\;i\neq h. \end{cases} \]

La covarianza de las variables indicadoras está dada por

\[ \Delta_{kl}= \begin{cases} \dfrac{n_h}{N_h}\dfrac{N_h-n_h}{N_h}, & \text{si} \ \ k=l, k\in U_h, \\ -\dfrac{n_h}{N_h^2}\dfrac{(N_h-n_h)}{(N_h-1)}, & \text{si} \ \ k,l\in U_h, \\ 0, & \text{si} \ \ k\in U_h, l\in U_i, i\neq h. \end{cases} \]

Estimador de H-T para la media

Bajo un diseño de muestreo aleatorio simple sin reemplazo en el estrato \(h\), un estimador insesgado de la media \(\bar{y}_{Uh}\), su varianza y su varianza estimada están dados por

\[ \hat{\bar{y}}_{Uh,\pi}=\dfrac{1}{n_h}\sum_{k\in S_h}y_k \]

\[ Var_{MAS}(\hat{\bar{y}}_{Uh,\pi})=\frac{1}{n_h} \left(1-\frac{n_h}{N_h}\right)S^2_{yU_h} \]

\[ \widehat{Var}_{MAS}(\hat{\bar{y}}_{Uh,\pi})=\frac{1}{n_h}\left(1-\frac{n_h}{N_h}\right)S^2_{ys_h} \]

Nota

¿Si un estimador insesgado del total poblacional \(t_y\) es la suma de cada una de las estimaciones en los \(H\) estratos, entonces un estimador del promedio poblacional \(\bar{y}_U\) será un promedio de los promedios estimados en los \(H\) estratos?. El anterior razonamiento es intuitivo pero es errado por la siguiente razón:

\[ \bar{y}_U\neq\dfrac{\bar{y}_{U_1}+\bar{y}_{U_2}+ \ldots+\bar{y}_{U_H}}{H} \]

Intervalo de confianza

Un intervalo de \(100(1-\alpha)\)% de confianza para la media de una población está dado por

\[ \hat{\bar{y}}_{U,\pi}\pm Z_{1-\frac{\alpha}{2}} \sqrt{Var_{MAE}(\hat{\bar{y}}_{U,\pi})} \]

si se cumple algunas de las siguientes condiciones:

  • El tamaño de muestra \(n_h\) en cada estrato \(h\) es grande.

  • Existe una gran número de estratos.

Si las anteriores condiciones no pueden ser satisfechas, se prefiere utilizar el percentil de una distribución t-student con \(N-H\) grados de libertad. Así, un intervalo de confianza para la media poblacional está dado por

\[ \hat{\bar{y}}_{U,\pi}\pm t_{1-\frac{\alpha}{2},N-H} \sqrt{Var_{MAE}(\hat{\bar{y}}_{U,\pi})} \]

Asignación del tamaño de muestra: Asignación proporcional

Se decide utilizar este tipo de asignación cuando la muestra debe ser representativa de la población de acuerdo al comportamiento de la información auxiliar.
Lohr (2000) señala que, bajo asignación proporcional, la muestra puede verse como una versión “miniatura” de la población.

Un diseño de muestreo aleatorio estratificado tiene asignación proporcional si:

\[ \frac{n_h}{N_h} \;=\; \frac{n}{N} \quad (h = 1, \ldots, H) \]

Resultado

Para un diseño de muestreo aleatorio estratificado con asignación proporcional, el estimador de Horvitz–Thompson del total poblacional \(t_y\), su varianza y su varianza estimada están dados por:

\[ \hat{t}_{y,\pi} = \frac{N}{n}\,\sum_{k\in S} y_k \]

\[ \mathrm{Var}_{\mathrm{MAE}}(\hat{t}_{y,\pi}) = \frac{N^2}{n}\biggl(1 - \frac{n}{N}\biggr) \sum_{h=1}^H \frac{n_h}{n}\,S^2_{yU_h} \]

\[ \widehat{\mathrm{Var}}_{\mathrm{MAE}}(\hat{t}_{y,\pi}) = \frac{N^2}{n}\biggl(1 - \frac{n}{N}\biggr) \sum_{h=1}^H \frac{n_h}{n}\,S^2_{ys_h} \]

Demostraciones

Para el total: \[ \begin{aligned} \hat{t}_{y,\pi} &= \sum_{h=1}^H \frac{N_h}{n_h} \sum_{k\in S_h} y_k \\ &= \frac{N}{n} \sum_{h=1}^H \sum_{k\in S_h} y_k \\ &= \frac{N}{n} \sum_{k\in S} y_k \end{aligned} \]

Para la varianza: \[ \begin{aligned} \sum_{h=1}^{H}\frac{N_{h}^{2}}{n_{h}}\Bigl(1-\frac{n_{h}}{N_{h}}\Bigr)S^2_{yU_{h}} &= \sum_{h=1}^{H}\frac{N_{h}^{2}}{n_{h}^{2}}\Bigl(1-\frac{n_{h}}{N_{h}}\Bigr)\,n_{h}\,S^2_{yU_{h}}\\ &= \frac{N^{2}}{n^{2}}\Bigl(1-\frac{n}{N}\Bigr)\sum_{h=1}^{H}n_{h}\,S^2_{yU_{h}}\\ &= \frac{N^{2}}{n}\Bigl(1-\frac{n}{N}\Bigr)\sum_{h=1}^{H}\frac{n_{h}}{n}\,S^2_{yU_{h}} \end{aligned} \]

Asignación Neyman

Bajo la asignación de Neyman, el tamaño de muestra que minimiza la varianza en los estratos está dado por

\[ n_h \;=\; n \,\frac{N_h\,S_{y,U_h}}{\displaystyle\sum_{j=1}^H N_j\,S_{y,U_j}} \]

donde \(S_{y,U_h} = \sqrt{S^2_{y,U_h}}\).

Demostración

Queremos minimizar \[ \sum_{h=1}^H \frac{N_h^2}{n_h}\!\Bigl(1 - \frac{n_h}{N_h}\Bigr)\,S^2_{yU_h} \] sujeto a \(\sum_{h=1}^H n_h = n\). Definimos la función de Lagrange \[ \mathcal{L}(n_1,\dots,n_H,\lambda) = \sum_{h=1}^H \frac{N_h^2}{n_h}\!\Bigl(1 - \frac{n_h}{N_h}\Bigr)\,S^2_{yU_h} \;-\; \lambda\Bigl(n - \sum_{h=1}^H n_h\Bigr). \]

Anulamos derivadas parciales:

\[ \begin{cases} \displaystyle \frac{\partial\mathcal{L}}{\partial \lambda} = n - \sum_{h=1}^H n_h = 0, \\[1em] \displaystyle \frac{\partial\mathcal{L}}{\partial n_h} = -\,\frac{N_h^2}{n_h^2}\,S^2_{yU_h} + \lambda = 0. \end{cases} \]

De la segunda ecuación, \[ n_h = \frac{N_h}{\sqrt{\lambda}}\,S_{yU_h}. \]

Sustituyendo en \(\sum n_h = n\): \[ n = \frac{1}{\sqrt{\lambda}}\sum_{h=1}^H N_h\,S_{yU_h}, \quad\Longrightarrow\quad \sqrt{\lambda} = \frac{1}{n}\sum_{h=1}^H N_h\,S_{yU_h}. \] Por tanto resulta \[ n_h = n \;\frac{N_h\,S_{yU_h}}{\displaystyle\sum_{j=1}^H N_j\,S_{yU_j}}. \]

Asignación óptima

Bajo la asignación óptima, el tamaño de muestra que minimiza la función de coste está dado por

\[ n_h \;=\; \frac{C}{\sqrt{c_h}} \;\frac{N_h\,S_{yU_h}}{\displaystyle\sum_{i=1}^H N_i\,\sqrt{c_i}\,S_{yU_i}}, \]

con

\[ C \;=\; \sum_{h=1}^H n_h\,C_h. \]

Resumiendo…

  • Afijación uniforme (menos utilizada). Reparte el tamaño muestral \(n\) en \(H\) partes iguales: \[ n_h = \frac{n}{H}\,,\quad h=1,\dots,H. \]

  • Afijación proporcional. Reparte el tamaño global \(n\) proporcionalmente al tamaño de cada estrato: \[ n_h = n\,\frac{N_h}{N} = n\,\phi_h,\quad \phi_h=\frac{N_h}{N}. \] (redondear \(n_h\) por exceso si es necesario).

  • Afijación óptima. Reparte \(n\) según la variabilidad en cada estrato: estratos más homogéneos necesitan menos muestras, los más heterogéneos más.
    \[ n_h = n\,\frac{N_h\,s_h}{\sum_{i=1}^H N_i\,s_i} = n\,\frac{\phi_h\,s_h}{\sum_{i=1}^H \phi_i\,s_i}\,. \]

En general…

En los tres casos, puede escribirse \[ n_h = n\,w_h, \] con \[ w_h = \begin{cases} \tfrac1H, & \text{(uniforme)},\\[6pt] \phi_h, & \text{(proporcional)},\\[6pt] \displaystyle\frac{\phi_h\,s_h}{\sum_{i=1}^H \phi_i\,s_i}, & \text{(óptima)}. \end{cases} \]

Afijación de potencia (generalizada)

  • Definición
    Para un parámetro \(\alpha\in\mathbb{R}\), se elige \[ n_h \;=\; \frac{N_h^{\,\alpha}}{\displaystyle\sum_{h=1}^H N_h^{\,\alpha}}\;\times n \quad h = 1,\dots,H \] donde
    • \(N_h\) = tamaño del estrato \(h\)
    • \(n\) = tamaño total de muestra
    • \(\alpha\) controla la “potencia” de la asignación
  • Casos particulares
    • \(\alpha = 0\) → afijación uniforme \(\;n_h = n/H\)
    • \(\alpha = 1\) → afijación proporcional \(\;n_h = n\,N_h/N\)
    • \(\alpha > 1\) → sobre-asignación a estratos grandes
    • \(\alpha < 0\) → sobre-asignación a estratos pequeños
  • Interpretación
    Ajustando \(\alpha\) podemos “enfocar” la muestra en estratos de cierto tamaño sin conocer su variabilidad interna.

Tamaño de muestra

\[ n = \frac{\displaystyle\sum_{h=1}^H \frac{\phi_h^2\,s_h^2}{w_h}} {\displaystyle\Bigl(\frac{\epsilon}{z_{1-\alpha/2}}\Bigr)^2 \;+\;\frac{1}{N}\sum_{h=1}^H \phi_h\,s_h^2} \]

Para población infinita (\(N\to\infty\)):

\[ n = \Bigl(\frac{z_{1-\alpha/2}}{\epsilon}\Bigr)^{\!2} \sum_{h=1}^H \phi_h^2\,\frac{s_h^2}{w_h} \]

Ejemplo computacional

data(BigLucy)
attach(BigLucy)
p1 <- qplot(Level, Income, data=BigLucy, geom=c("boxplot"))
p2 <- qplot(Level, Employees, data=BigLucy, geom=c("boxplot"))
p3 <- qplot(Level, Taxes, data=BigLucy, geom=c("boxplot"))
p4 <- qplot(Level, Years, data=BigLucy, geom=c("boxplot"))
N1 <- summary(Level)[[1]]
N2 <- summary(Level)[[2]]
N3 <- summary(Level)[[3]]
N <- c(N1,N2,N3)
n1 <- round(2000 * N1/sum(N))
n2 <- round(2000 * N2/sum(N))
n3 <- round(2000 * N3/sum(N))
n <- c(n1,n2,n3)
sam <- S.STSI(Level, N, n)
muestra <- BigLucy[sam,]
attach(muestra)
head(muestra)
estima <- Income
E.STSI(Level, N, n, estima)

Muestreo de conglomerados

Definición

Se emplea muestreo por conglomerados cuando:

  • Marco de elementos inaccesible
    Listados completos (abejas, árboles, hogares…) son muy costosos o imposibles de obtener.
  • Agrupaciones naturales
    Hogares en manzanas, escuelas, clínicas, familias, etc., que facilitan el muestreo.
  • Reducción de costos
    Visitas a grupos geográficos o unidades predefinidas en lugar de individuos dispersos.

Notas clave sobre muestreo por conglomerados

  • Selección a nivel de conglomerado
    Los individuos sólo pueden entrar en la muestra si su “bloque” (conglomerado) ha sido elegido.

  • Contraste con estratificación

    • Muestreo estratificado → mejora precisión
    • Muestreo por conglomerados → suele reducirla, pues se sacrifica exactitud para abaratar costos o cuando no hay marco de individuos.
  • Redundancia de información
    Dentro de cada conglomerado, los individuos comparten rasgos similares → “repite” datos del mismo grupo y aporta menos información nueva.

  • Impacto en la varianza
    Varianza muestral mayor que en SRS de mismo tamaño, a menos que los conglomerados sean muy heterogéneos internamente.

Tipos de muestreo por conglomerados

  1. Un paso (one-stage)
    Selección de \(n\) conglomerados de un total de \(N\), y se miden todos los elementos dentro de cada uno.
  2. Dos pasos (two-stage)
    • Etapa 1: muestreo de conglomerados
    • Etapa 2: muestreo de elementos dentro de los conglomerados seleccionados.
  3. Multietápico
    Más de dos niveles de muestreo (p. ej. regiones → manzanas → hogares → individuos).

Fundamentos teóricos

Suponga que la población de elementos
\[ U = \{1,\dots,k,\dots,N\} \]
se divide en \(N_I\) subgrupos poblacionales, llamados conglomerados, denotados
\[ U_1, U_2, \dots, U_{N_I}. \]
La población de conglomerados se indexa, sin pérdida de generalidad, como
\[ U_I = \{1,\dots,N_I\}. \]

Estos conglomerados definen una partición de \(U\) tal que:

  1. \(\displaystyle U = \bigcup_{i=1}^{N_I} U_i\)
  2. \(U_i \cap U_j = \emptyset\) para todo \(i \neq j\)

El número de unidades en el conglomerado \(i\)-ésimo se llama tamaño del conglomerado \(N_i\), y satisface
\[ N = \sum_{i=1}^{N_I} N_i, \]
donde \(N\) es el tamaño total de la población \(U\).

Parámetros en conglomerados

  1. Total poblacional
    \[ t_y = \sum_{k \in U} y_k = \sum_{i=1}^{N_I} \sum_{k \in U_i} y_k = \sum_{i=1}^{N_I} t_{y i}, \]
    donde
    \[ t_{y i} = \sum_{k \in U_i} y_k \]
    es el total del \(i\)-ésimo conglomerado.
  1. Media poblacional

\[ \bar{y}_U = \frac{\sum_{k \in U} y_k}{N} = \frac{1}{N} \sum_{i=1}^{N_I} \sum_{k \in U_i} y_k = \frac{1}{N} \sum_{i=1}^{N_I} N_i \bar{y}_i, \]

donde
\[ \bar{y}_i = \frac{1}{N_i} \sum_{k \in U_i} y_k \]
es la media del \(i\)-ésimo conglomerado.

Esquema de diseño

El esquema general del diseño de muestreo por conglomerados está definido de la siguiente forma:

  1. Seleccionar una muestra probabilística \(s_I\) de conglomerados de la población \(U_I\) mediante un diseño de muestreo tal que \[ \Pr\bigl(S_I = s_I\bigr) \;=\; p_I(s_I), \quad \forall\,s_I \in Q_I, \] donde \(Q_I\) es el soporte que contiene todas las posibles muestras de conglomerados.
  1. Todos y cada uno de los elementos pertenecientes a los conglomerados seleccionados son observados y medidos.

El tamaño de la muestra aleatoria de conglomerados está dado por:

  • Si la muestra es de tamaño fijo,
    \[ n(S_I) = n_I \]

  • Si la muestra es de tamaño variable,
    \[ n(S_I) \text{ es una variable aleatoria.} \]

  1. Si la muestra es con reemplazo,
    \[ n(S_I) = m_I \]

La muestra aleatoria de elementos viene caracterizada por
\[ S = \bigcup_{i\in S_I} U_i \]

y el tamaño de la muestra de elementos por
\[ n(S) = \sum_{i\in S_I} N_i \]

Probabilidades de inclusión

La probabilidad de inclusión del conglomerado \(i\)-ésimo está dada por
\[ \pi_{Ii} \;=\; \Pr(i \in S_I) \;=\; \sum_{s_I \ni i} p_I(s_I)\,. \]

La probabilidad de inclusión conjunta de los conglomerados \(i\)-ésimo y \(j\)-ésimo está dada por
\[ \pi_{Iij} \;=\; \Pr\bigl(i \in S_I \;\text{y}\; j \in S_I\bigr) \;=\; \sum_{s_I \ni i,\;s_I \ni j} p_I(s_I)\,. \]

Por consiguiente, para \(i = j\) se tiene
\[ \pi_{Iii} = \pi_{Ii}\,. \]

Probabilidades de inclusión en muestreo por conglomerados

La probabilidad de inclusión del elemento \(k\)-ésimo, que pertenece al conglomerado \(i\), está dada por
\[ \pi_{k} \;=\; \pi_{Ii} \quad\text{si } k \in U_i. \]

La probabilidad conjunta de inclusión de los elementos \(k\)-ésimo y \(l\)-ésimo es
\[ \pi_{kl} \;=\; \begin{cases} \pi_{Ii}, & \text{si } k,l \in U_i,\\[6pt] \pi_{Iij}, & \text{si } k \in U_i,\; l \in U_j,\; i \neq j. \end{cases} \]

Estimador de Horvitz–Thompson

Bajo un diseño de muestreo por conglomerados, el estimador de Horvitz–Thompson para el total \(t_{y}\), su varianza teórica y su varianza estimada se definen como:

\[ \hat{t}_{y,\pi} \;=\; \sum_{i\in S_I} \frac{t_{y i}}{\pi_{I i}} \]

\[ \mathrm{Var}_{1}(\hat{t}_{y,\pi}) \;=\; \sum_{i=1}^{N_I}\;\sum_{j=1}^{N_I} \Delta_{I\,ij} \;\frac{t_{y i}}{\pi_{I i}} \;\frac{t_{y j}}{\pi_{I j}} \quad,\quad \Delta_{I\,ij} =\pi_{I\,ij}-\pi_{I i}\,\pi_{I j} \]

\[ \widehat{\mathrm{Var}}_{1}(\hat{t}_{y,\pi}) \;=\; \sum_{i\in S_I}\;\sum_{j\in S_I} \frac{\Delta_{I\,ij}}{\pi_{I\,ij}} \;\frac{t_{y i}}{\pi_{I i}} \;\frac{t_{y j}}{\pi_{I j}} \]

donde
- \(t_{y i}=\sum_{k\in U_i}y_k\) es el total del \(i\)-ésimo conglomerado,
- \(\pi_{I i}=P(i\in S_I)\) y \(\pi_{I\,ij}=P(i,j\in S_I)\) son las probabilidades de inclusión de primer y segundo orden,
- \(\Delta_{I\,ij}=\pi_{I\,ij}-\pi_{I i}\,\pi_{I j}\).

Ambos estimadores cumplen:
\[ E[\hat{t}_{y,\pi}]=t_{y}, \quad E\bigl[\widehat{\mathrm{Var}}_{1}(\hat{t}_{y,\pi})\bigr] =\mathrm{Var}_{1}(\hat{t}_{y,\pi}). \]

Demostración

Para el estimador:

\[ \begin{aligned} \hat{t}_{y,\pi} &= \sum_{k\in S}\frac{y_k}{\pi_k} = \sum_{i\in S_I}\sum_{k\in U_i}\frac{y_k}{\pi_k} = \sum_{i\in S_I}\frac{1}{\pi_{I\,i}}\sum_{k\in U_i}y_k = \sum_{i\in S_I}\frac{t_{y i}}{\pi_{I\,i}}. \end{aligned} \]

Para la varianza, notemos primero que las diferencias de inclusión son

\[ \Delta_{k\ell} = \pi_{k\ell}-\pi_k\pi_\ell = \begin{cases} \pi_{I\,i}-\pi_{I\,i}^2, & k,\ell\in U_i,\\ \pi_{I\,ij}-\pi_{I\,i}\,\pi_{I\,j}, & k\in U_i,\ \ell\in U_j,\ i\neq j. \end{cases} \]

Entonces

\[ \begin{aligned} \mathrm{Var}_{1}(\hat{t}_{y,\pi}) &= \sum_{k\in U}\sum_{\ell\in U} \Delta_{k\ell} \;\frac{y_k}{\pi_k}\;\frac{y_\ell}{\pi_\ell} \\ &= \sum_{i=1}^{N_I}\sum_{j=1}^{N_I} \Delta_{I\,ij} \;\frac{1}{\pi_{I\,i}} \;\frac{1}{\pi_{I\,j}} \sum_{k\in U_i}y_k \sum_{\ell\in U_j}y_\ell \\ &= \sum_{i=1}^{N_I}\sum_{j=1}^{N_I} \Delta_{I\,ij} \;\frac{t_{y i}}{\pi_{I\,i}} \;\frac{t_{y j}}{\pi_{I\,j}}. \end{aligned} \]

Resultado

Si el diseño de muestreo \(p_I(s_I)\) es de tamaño fijo, la varianza del estimador de Horvitz–Thompson y su varianza estimada toman la siguiente forma:

\[ Var_2(\hat{t}_{y,\pi}) = -\tfrac{1}{2} \sum_{i=1}^{N_I}\sum_{j=1}^{N_I} \Delta_{I\,ij} \left( \frac{t_{y\,i}}{\pi_{I\,i}} - \frac{t_{y\,j}}{\pi_{I\,j}} \right)^{\!2}, \]

\[ \widehat{Var}_2(\hat{t}_{y,\pi}) = -\tfrac{1}{2} \sum_{i\in S_I}\sum_{j\in S_I} \frac{\Delta_{I\,ij}}{\pi_{I\,ij}} \left( \frac{t_{y\,i}}{\pi_{I\,i}} - \frac{t_{y\,j}}{\pi_{I\,j}} \right)^{\!2}. \]

Nótese que \(\widehat{Var}_2(\hat{t}_{y,\pi})\) es insesgado para \(Var_2(\hat{t}_{y,\pi})\).

Muestreo aleatorio simple de conglomerados

Un diseño de muestreo se dice aleatorio simple para conglomerados si todas las posibles muestras de tamaño \(n_I\) tienen la misma probabilidad de ser seleccionadas:

\[ p_I(s_I)= \begin{cases} \dfrac{1}{\displaystyle\binom{N_I}{n_I}}, & \text{si } \#s_I = n_I,\\[1em] 0, & \text{en otro caso}. \end{cases} \]

Una vez que la muestra de conglomerados \(s_I\) es seleccionada, se realiza la enumeración completa y la medición de todos los elementos de cada conglomerado incluido en \(s_I\).

Algoritmo de selección

Para MAS de conglomerados sin reemplazo:

  1. Definir conglomerados
    Construir el marco de muestreo de conglomerados, dividiendo la población en \(N_I\) grupos: \[ U_I = \{U_1, U_2, \dots, U_{N_I}\}. \]

  2. Elegir conglomerados
    Seleccionar \(n_I\) conglomerados de \(U_I\) mediante un método probabilístico (sin reemplazo), por ejemplo: Coordinado negativo o Fan–Müller–Reza (FMR)

  3. Enumerar unidades
    Para cada conglomerado \(i\in s_I\), medir todos los elementos \(k\in U_i\) y registrar su \(y_k\).

Estimador de Horvitz–Thompson (MAS-Conglomerados)

Para muestreo aleatorio simple de conglomerados (MAS de conglomerados) sin reemplazo:

Probabilidades de inclusión de conglomerados

  • Primer orden (cada conglomerado):
    \[ \pi_{Ii} \;=\; \frac{n_I}{N_I} \]
  • Segundo orden (pares de conglomerados \(i\neq j\)):
    \[ \pi_{Iij} \;=\; \frac{n_I\,(n_I-1)}{N_I\,(N_I-1)} \]

Muestreo Aleatorio Simple de Conglomerados (MAS-Conglomerados)

Para MAS de conglomerados (sin reemplazo, tamaño de muestra fijo \(n_I\)):

  1. Estimador de Horvitz–Thompson
    \[ \hat t_{y,\pi} = \frac{N_I}{n_I}\;\sum_{i\in S_I} t_{y\,i} \quad,\quad t_{y\,i} = \sum_{k\in U_i} y_k \]

  2. Varianza teórica
    \[ \mathrm{Var}_{MAC}(\hat t_{y,\pi}) = \frac{N_I^2}{n_I}\, \Bigl(1 - \tfrac{n_I}{N_I}\Bigr)\, S^2_{t_{y\,U_I}} \quad,\quad S^2_{t_{y\,U_I}} = \frac{1}{N_I - 1} \sum_{i=1}^{N_I} \bigl(t_{y\,i} - \bar t_{y\,U_I}\bigr)^2 \]

  1. Estimación de la varianza
    \[ \widehat{\mathrm{Var}}_{MAC}(\hat t_{y,\pi}) = \frac{N_I^2}{n_I}\, \Bigl(1 - \tfrac{n_I}{N_I}\Bigr)\, S^2_{t_{y\,S_I}} \quad,\quad S^2_{t_{y\,S_I}} = \frac{1}{n_I - 1} \sum_{i\in S_I} \bigl(t_{y\,i} - \bar t_{y\,S_I}\bigr)^2 \]

con \(S^2_{t_{yU_I}}\) y \(S^2_{t_{ys_I}}\) el estimador de la varianza de los totales de los conglomerados para la característica de interés en el universo \(U_I\) y en la muestra \(s_I\).

Esto es

\[ S^2_{t_{yU_I}}=\frac{1}{N_I-1}\sum_{i\in U_I}(t_{yi}-\bar{t}_{U_I})^2, \]

donde \(\bar{t}_{U_I}=\sum_{i=1}^{N_I}t_{yi}/N_I\), y \(S^2_{t_{yS_I}}\) se define de manera análoga. Nótese que \(\hat{t}_{y,\pi}\) es insesgado para el total poblacional \(t_y\) de la característica de interés \(y\), y que \(\widehat{Var}_{MAC}(\hat{t}_{y,\pi})\) es insesgado para \(Var_{MAC}(\hat{t}_{y,\pi})\).

Práctica computacional

library(TeachingSampling)
data(BigLucy)
attach(BigLucy)
Conglo<- names(table(BigLucy$Zone))
NI<- length(Conglo)
nI<- 0.5*NI
samI <- S.SI(NI,nI)
muestra <- Conglo[samI]
Inc<- NA;
for(i in 1:nI){
Lucy1 <- BigLucy[which(Zone==muestra[i]),]
Inc[i]<- sum(Lucy1$Income)}
E.SI(NI,nI,Inc)
  • Ejercicio: Hacer lo mismo para las otras variables y compararlos con otro diseño de muestreo.

Muestreo en Varias Etapas

Introducción

En el muestreo en varias etapas, repetimos jerárquicamente hasta \(l\) veces:

  1. Construcción del marco de muestreo
    • Etapas 1 a \(l-1\): conglomerados (clusters)
    • Última etapa \(l\): unidades finales (elementos)
  2. Selección de submuestras
    • Aplicar un diseño muestral en cada marco
    • Obtener submuestra de conglomerados o de elementos

Ejemplo de 2 etapas

  1. Etapa 1 (conglomerados):
    • Marco: colegios de la ciudad, \(N_1\) escuelas
    • Diseñamos SRS sin reemplazo de tamaño \(n_1\)
    • Muestra: \(S^{(1)}\subset\{1,\dots,N_1\}\)
  2. Etapa 2 (elementos):
    • Para cada escuela \(i\in S^{(1)}\), marco de alumnos \(U_i^{(2)}\)
    • SRS sin reemplazo de tamaño \(n_{2,i}\) dentro de cada \(U_i^{(2)}\)
    • Muestra final:
      \[ S=\bigcup_{i\in S^{(1)}} S^{(2)}(i) \]

Ventajas y Desventajas

Ventajas Desventajas
– Reduce costos de campo – Menor precisión (diseño de clusters)
– Facilita muestreos de poblaciones dispersas – Cálculo de varianza más complejo
– Flexible (diseños mixtos, varios estratos) – Requiere marcos intermedios bien definidos

Características

  • Nótese que se ha introducido el concepto de unidad de muestreo refiriéndose a conglomerados de elementos o a los elementos.

  • Si el diseño de muestreo tiene tres etapas, por ejemplo: si se quieren obtener estimaciones acerca del comportamiento de los alumnos en determinada ciudad, y no se dispone de un marco de muestreo de los alumnos, es posible en una primera etapa levantar un marco de muestreo de todas y cada una de las escuelas en la ciudad y realizar una selección de una muestra de escuelas mediante cierto diseño de muestreo.

Forma visual

Una vez que las escuelas son seleccionadas, en una segunda etapa, se levanta un marco de muestreo de niveles académicos dentro de las escuelas (cursos o clases) y se procede a seleccionar una muestra de niveles. De tal forma que en la tercera y última etapa, se levanta un marco de muestreo de elementos; es decir, de alumnos pertenecientes a cada nivel seleccionado, y se realiza una muestra de elementos que serán observados y medidos.

Es interesante observar cómo la población, en el estado de la naturaleza, se subdivide gracias al comportamiento jerárquico, que en este caso particular toma la siguiente forma:

\[\begin{equation*} \underbrace{\textbf{Ciudad}}_{\text{Población$U$}} \Rrightarrow \underbrace{\textbf{Escuelas}}_{\text{UPM}} \Rrightarrow \underbrace{\textbf{Niveles}}_{ \text{USM}} \Rrightarrow \underbrace{\textbf{Alumnos}}_{ \text{UTM}} \end{equation*}\]

Notación

  • Se llama Unidad Primaria de Muestreo o UPM a la primera subdivisión en conglomerados de la población original,

  • Se llama Unidad Secundaria de Muestreo o USM a la sub-subdivisión de la población, es decir la subdivisión de las UPM

  • y Unidad Terciaria de Muestreo o UTM corresponde a los elementos de la población objetivo, que en este caso particular son los alumnos de la ciudad.

Ejemplo de hogares

No siempre las unidades finales de muestreo son elementos, es así como es posible planear un diseño en dos etapas de conglomerados, refiriéndose a que la unidad secundaria de muestreo son conglomerados, o también es posible aplicar un diseño en cuatro etapas de elementos, en donde las unidades finales de muestreo sean elementos; por ejemplo:

\[ \begin{equation*} \underbrace{\textbf{Ciudad}}_{\text{Población$U$}} \Rrightarrow \underbrace{\textbf{Sección}}_{\text{UPM}} \Rrightarrow \underbrace{\textbf{Manzana}}_{ \text{USM}} \Rrightarrow \underbrace{\textbf{Vivienda}}_{ \text{UTM}} \Rrightarrow \underbrace{\textbf{Persona}}_{\text{UCM}} \end{equation*} \]

Principios Básicos del Muestreo en Varias Etapas

  • Invariancia
    La probabilidad de seleccionar cualquier muestra en la etapa \(r\) no depende de cómo se haya muestreado en las etapas \(<r\).

  • Independencia
    Cada submuestreo (ya sea de conglomerados o de elementos) se realiza de forma independiente de:

    • Otras submuestras en la misma etapa
    • Submuestreos en etapas anteriores o posteriores

Muestreo en 2 etapas

Muestreo en Dos Etapas (Bietápico)

  • También llamado muestreo bietápico.
  • Se estima el total de cada conglomerado (cluster) \(t_i = \sum_{k\in U_i} y_k\) a partir de una submuestra de elementos.
  • Dos fuentes de variabilidad:
    1. Variabilidad en la 1.ª etapa: selección de unidades primarias (conglomerados).
    2. Variabilidad en la 2.ª etapa: sub-muestreo de elementos dentro de cada conglomerado seleccionado.
  • Cada etapa aporta error muestral independiente, que debe combinarse al estimar la varianza total.

Conceptos Básicos del Muestreo en Dos Etapas

  1. Partición en Conglomerados
    • La población de elementos \(U\) se agrupa en \(N_I\) unidades primarias (conglomerados)
      \[ U_I = \{U_1, U_2, \dots, U_{N_I}\},\quad U = \bigcup_{i=1}^{N_I} U_i,\quad U_i \,\cap\, U_j = \emptyset\;(i\neq j) \]
    • Cada conglomerado \(U_i\) contiene \(N_i\) elementos, y \(\sum_{i=1}^{N_I} N_i = N\).
  2. Etapa 1: Selección de Conglomerados
    • Se extrae una muestra de conglomerados
      \[ s_I \subset U_I,\quad Pr(S_I = s_I) = p_I(s_I),\quad s_I \in Q_I \]
    • Aquí \(S_I\) es la variable aleatoria que toma valor \(s_I\), y \(Q_I\) su soporte.
  1. Etapa 2: Submuestreo dentro de cada Conglomerado
    • Para cada \(i \in s_I\), se selecciona en \(U_i\) una submuestra
      \[ s_i \subset U_i,\quad Pr(S_i = s_i) = p_i(s_i),\quad s_i \in Q_i \]
    • \(S_i\) es la variable aleatoria de la submuestra en el conglomerado \(i\).
  2. Propiedades del Diseño Bietápico
    • Invariancia: el diseño de la 2.ª etapa no depende de qué conglomerados fueron elegidos
      \[ Pr\bigl(S_i = s_i \mid S_I = s_I\bigr)\;=\;Pr\bigl(S_i = s_i\bigr) \]
    • Independencia: las submuestras en conglomerados distintos se toman de forma independiente

Nótese que lo anterior implica que \(p_i(\cdot|s_I)=p_I(\cdot)\) La independencia significa que el proceso de selección de muestras en la segunda etapa dentro de cada unidad primaria de muestreo no depende de los procesos de selección utilizados en los restantes unidades primarias de muestreo.

Conceptos Básicos (Continuación)

  1. Independencia Condicional: Para cada realización \(s_I\) de la 1.ª etapa, las submuestras en los conglomerados seleccionados se toman de forma independiente: \[ Pr\Bigl(\bigcup_{i\in s_I} S_i \,\Big|\, S_I = s_I\Bigr) \;=\; \prod_{i\in s_I} Pr\bigl(S_i \,\big|\, S_I = s_I\bigr) \;=\; \prod_{i\in s_I} Pr(S_i) \]

  2. Unión de Todas las Submuestras: La muestra final de elementos (unidades secundarias) se obtiene uniendo todas las submuestras de cada conglomerado seleccionado: \[ S \;=\;\bigcup_{i\in S_I} S_i, \qquad S_i \;\in\; Q_i \] donde \(Q_i\) es el soporte del diseño de la 2.ª etapa en el conglomerado \(i\).

Parámetros Poblacionales

  • Total poblacional
    \[ t_y \;=\; \sum_{k\in U} y_k \;=\; \sum_{i=1}^{N_I}\;\sum_{k\in U_i} y_k \;=\; \sum_{i=1}^{N_I} t_{y i} \]
    donde
    \[ t_{y i} \;=\; \sum_{k\in U_i} y_k \quad\text{es el total dentro del conglomerado (unidad primaria) }i. \]
  • Media poblacional
    \[ \bar{y}_U \;=\; \frac{\sum_{k\in U} y_k}{N} \;=\; \frac{1}{N}\sum_{i=1}^{N_I}\;\sum_{k\in U_i} y_k \;=\; \frac{1}{N}\sum_{i=1}^{N_I} N_i\,\bar{y}_i \]
    donde
    \[ \bar{y}_i \;=\; \frac{1}{N_i}\sum_{k\in U_i} y_k \quad\text{es la media dentro del conglomerado }i. \]

Probabilidades de Inclusión

1. Primer Orden (Unidades Primarias)

Para el diseño de primera etapa \(p_I(s_I)\), las probabilidades de inclusión de primer y segundo orden de los conglomerados (unidades primarias) son:

  • \(\displaystyle \pi_{I\,i} \;=\; \Pr(i\in S_I)\)
  • \(\displaystyle \pi_{I\,ij} \;=\; \Pr(i,j\in S_I)\)

Definimos
\[ \Delta_{I\,ij} \;=\; \begin{cases} \pi_{I\,ij} \;-\;\pi_{I\,i}\,\pi_{I\,j}, & i \neq j,\\[6pt] \pi_{I\,i}\,(1 - \pi_{I\,i}), & i = j. \end{cases} \]

2. Segundo Orden (Unidades Secundarias)

Condicionado a que el conglomerado \(U_i\) fue seleccionado en la primera etapa, para cada diseño \(p_i(s_i)\) de la segunda etapa tenemos:

  • \(\displaystyle \pi_{k\mid i} \;=\; \Pr(k\in S_i \mid U_i\in S_I)\)
  • \(\displaystyle \pi_{kl\mid i} \;=\; \Pr(k,l\in S_i \mid U_i\in S_I)\)

Y análogamente definimos
\[ \Delta_{kl\mid i} \;=\; \begin{cases} \pi_{kl\mid i} \;-\;\pi_{k\mid i}\,\pi_{l\mid i}, & k \neq l,\\[6pt] \pi_{k\mid i}\,(1 - \pi_{k\mid i}), & k = l. \end{cases} \]

Estimador del Total (Muestreo Bietápico)

Bajo un diseño en dos etapas:

  1. Primera etapa: se selecciona \(S_I\subset U_I\) con diseño \(p_I(s_I)\).
  2. Segunda etapa: para cada \(i\in S_I\), se selecciona \(S_i\subset U_i\) con diseño \(p_i(s_i)\).

Estimador Horvitz–Thompson

\[ \hat{t}_{y,\pi} \;=\; \sum_{i\in S_I}\;\sum_{k\in S_i} \frac{y_k}{\pi_{I\,i}\,\pi_{k\mid i}} \;=\; \sum_{i\in S_I}\frac{\hat t_{y i,\pi}}{\pi_{I\,i}}, \] donde \(\displaystyle \hat t_{y i,\pi}=\sum_{k\in S_i}\frac{y_k}{\pi_{k\mid i}}\).

Varianza Total

Se descompone en dos términos:

\[ \underbrace{\sum_{i}\sum_{j\in U_I} \Delta_{I\,ij}\, \frac{t_{y i}}{\pi_{I\,i}}\, \frac{t_{y j}}{\pi_{I\,j}} }_{\displaystyle Var_{\text{UPM}}} \;+\; \underbrace{ \sum_{i\in U_I} \frac{Var_{p_i}(\hat t_{y i,\pi})}{\pi_{I\,i}} }_{\displaystyle Var_{\text{USM}}}, \] donde \[ Var_{p_i}(\hat t_{y i,\pi}) \;=\; \sum_{k,l\in U_i} \Delta_{k l\mid i}\, \frac{y_k}{\pi_{k\mid i}}\, \frac{y_l}{\pi_{l\mid i}}. \]

Estimación Insesgada de la Varianza

\[ \underbrace{ \sum_{i,j\in S_I} \frac{\Delta_{I\,ij}}{\pi_{I\,ij}}\, \frac{\hat t_{y i,\pi}}{\pi_{I\,i}}\, \frac{\hat t_{y j,\pi}}{\pi_{I\,j}} }_{\widehat{Var}_{\text{UPM}}} \;+\; \underbrace{ \sum_{i\in S_I} \frac{\widehat{Var}(\hat t_{y i,\pi})}{\pi_{I\,i}} }_{\widehat{Var}_{\text{USM}}}, \] siendo \(\displaystyle \widehat{Var}(\hat t_{y i,\pi}) =\sum_{k,l\in S_i} \frac{\Delta_{k l\mid i}}{\pi_{k l\mid i}}\, \frac{y_k}{\pi_{k\mid i}}\, \frac{y_l}{\pi_{l\mid i}}.\)

representando la estimación del total de la característica de interés en la \(i\)-ésima unidad primaria de muestreo y

\[ \widehat{Var}(\hat{t_i})=\sum\sum_{S_i}\frac{ \Delta_{kl|i}}{\pi_{kl|i}}\frac{y_k}{\pi_{k|i}}\frac{y_l}{\pi_{l|i}} \]

Nota:

Nótese que la variación del estimador se descompone en las dos etapas propias de este diseño. Además es importante tener en cuenta que \(\widehat{Var}(UPM)\) y \(\widehat{Var}(USM)\) no son estimadores insesgados para \(Var(UPM)\) y \(Var(USM)\). Sin embargo, toda la expresión \(\widehat{Var}_{BI}(\hat{t}_{y,\pi})\) sí lo es para \(Var_{BI}(\hat{t}_{y,\pi})\)

Estimadores diferentes al total

Conceptos teóricos

si el parámetro a estimar es \(B\), lo debemos llevar a la siguiente forma

\[ B=f(t_1, t_2,\ldots,t_Q) \]

Donde cada \(t_{q}\) \(q=1,\ldots,Q\) representa un total de las características de interés o un total de una función de las características de interés.

El principio de estimación de este parámetro está en obtener estimadores insesgados \(\hat{t}_{q}\) \(q=1,\ldots,Q\) tal que \(T\) es estimado por

\[ \hat{B}=f(\hat{t}_1,\hat{t}_2,\ldots,\hat{t}_Q) \]

Nota: Nótese que la función \(f\) puede ser lineal o no.

Un resultado muy conocido de la inferencia estadística clásica nos indica que si la función \(f\) es una función lineal entonces \(B\) toma la forma

\[ B=a_0+\sum_{q=1}^Qa_qt_q \]

Por tanto, un estimador insesgado de \(B\) está dado por la siguiente expresión

\[ \hat{B}=a_0+\sum_{q=1}^Qa_q\hat{t}_q \]

Estimado Horvitz-Thompson

Si en la estimación de \(B\) hemos utilizado estimadores de tipo Horvitz-Thompson, entonces es posible escribir la ecuación anterior como

\[ \hat{B}_{\pi}=a_0+\sum_{k\in S}\frac{E_k}{\pi_k} \]

donde \(E_{k}=\sum_{q=1}^{Q}a_{q}y_{qk}\) y el valor del \(K\)-ésimo elemento en la \(q\)-ésima caracteística de interés está dado por \(y_{jk}\)

Varianza Horvitz-Thompson

Siguiendo los principios del estimador de Horvitz-Thompson, la varianza de \(\hat{B}_{\pi}\) se puede expresar como

\[ Var(\hat{B}_{\pi})=\sum\sum_U\Delta_{kl}\frac{E_k}{\pi_k} \frac{E_l}{\pi_l}. \]

Estimador de la varianza

Un estimador insesgado para la expresión anterior está dada por

\[ \widehat{Var}_1(\hat{B}_{\pi})=\sum\sum_S\dfrac{\Delta_{kl}}{\pi_{kl}}\frac{E_k}{\pi_k}\frac{E_l}{\pi_l} \]

Aproximación de Taylor

Cuando no se puede expresar la función de los totales de manera lineal y dado la complejidad teórica para encontrar la varianza estimada, surge la necesidad de utilizar técnicas matemáticas para aproximar una expresión. La más utilizada en el argot estadístico es la aproximación de Taylor

Resultado:

Si una función se puede aproximar mediante un polinomio, entonces éste estará definido por

\[ f(x)=f(a)+\frac{f'(a)}{1!}(x-a)+\frac{f''(a)}{2!}(x-a)^2+ \ldots+\frac{f^{(n)}}{n!}(x-a)^n+\ldots \]

Aplicación en el muestreo del teorema de Taylor

  • Mediante esta técnica es posible aproximar la varianza de los estimadores que no son funciones lineales de totales.

  • Aunque en el ámbito de la inferencia en poblaciones finitas, no existe una teoría asintótica unificada, sí existen resultados particulares para los diseños de muestreo más simples.

Pasos para linealizar la varianza

  1. Expresar el estimador del parámetro de interés \(\hat{B}\) como una función de estimadores de totales insesgados. Así, \(\hat{B}=f(\hat{t}_1,\hat{t}_2,\ldots,\hat{t}_Q)\)

  2. Determinar todas las derivadas parciales de \(f\) con respecto a cada total estimado \(\hat{t}_{q,\pi}\) y evaluar el resultado en las cantidades poblacionales \(t_q\). Así

\[ a_q=\left.\dfrac{\partial f(\hat{t}_1,\ldots,\hat{t}_Q)}{ \partial\hat{t}_{q}}\right|_{\hat{t}_1=t_1,\ldots,\hat{t}_Q=t_Q} \]

  1. Aplicar el teorema de Taylor para funciones vectoriales para linealizar la estimación \(\hat{B}\) con \(\mathbf{a}=(t_1,t_2,\cdots,t_Q)'\). En el paso anterior, se vio que \(\bigtriangledown\hat{B}'=(a_1,\cdots,a_Q)\). Por consiguiente se tiene que

\[ \hat{B}=f(\hat{t}_1,\ldots,\hat{t}_Q)\cong B+\sum_{q=1}^Qa_q(\hat{t}_{q}-t_q) \]

  1. Definir una nueva variable \(E_k\) con \(k\in S\) al nivel de cada elemento observado en la muestra aleatoria.

\[ E_k=\sum_{q=1}^Qa_qy_{qk} \]

  1. Así, si los estimadores \(\hat{t}_{q}\) son estimadores de Horvitz-Thompson, una expresión que aproxima la varianza de \(\hat{B}\) está dada por

\[ \begin{align*} AVar(\hat{B})&=Var\left(\sum_{q=1}^Qa_q\hat{t}_{q,\pi}\right) \\ &=Var\left(\sum_S\frac{E_k}{\pi_k}\right)=\sum\sum_U\Delta_{kl}\frac{E_k}{\pi_k}\frac{E_l}{\pi_l}. \end{align*} \]

Estimación de la varianza de \(\hat{B}\)

Para encontrar una estimación de la varianza de \(\hat{B}\), no es posible utilizar directamente los valores \(E_{k}\), porque éstos dependen de los totales poblacionales, pues las derivadas \(a_{q}\) se evalúan en los totales poblacionales que son desconocidos. Por consiguiente, los valores \(E_{k}\) se aproximan reemplazando los totales desconocidos por los estimadores de los mismos. Siendo \(e_{k}\) la aproximación de la variable linealizada dada por

\[ e_k=\sum_{q=1}^Q\hat{a}_qy_{qk} \]

Si los estimadores \(\hat{t}_{q}\) son estimadores de Horvitz-Thompson, se puede usar de manera general el estimador de la varianza de Horvitz-Thompson, así

\[ \widehat{Var}(\hat{t}_{y,\pi})=\sum\sum_S\dfrac{\Delta_{kl}}{\pi_{kl}}\frac{e_k}{\pi_k}\frac{e_l}{\pi_l} \]

Resultado

Siendo \(B=f(t_{1},t_{2},\ldots,t_{Q})\) una función de totales poblacionales, entonces un estimador aproximadamente insesgado de \(B\), su varianza aproximada y una estimación insesgada para esta última están dadas por las siguientes expresiones

\[ \hat{B}_{\pi}=f(\hat{t}_{1,\pi},\hat{t}_{2,\pi},\ldots, \hat{t}_{Q,\pi}) \]

\[ AVar(\hat{B}_\pi)=\sum\sum_U\Delta_{kl}\frac{E_k}{\pi_k} \frac{E_l}{\pi_l} \]

\[ \widehat{Var}(\hat{B}_\pi)=\sum\sum_S\dfrac{\Delta_{kl}}{ \pi_{kl}}\frac{e_k}{\pi_k}\frac{e_l}{\pi_l} \] Con \(\hat{t}_{q,\pi}\) el estimador de Horvitz-Thompson de \(t_{q,\pi}\) y tanto \(E_{k}\) como \(e_{k}\) se encuentran dados anteriormente.

Estimación del parémetro: Razón

Estimación de una razón poblacional

Un caso especial de una función no-lineal de totales es la razón poblacional \(B\). Ésta se define como el cociente de dos totales poblacionales de características de interés \(z\) e \(y\). Así

\[ B=\dfrac{t_y}{t_z}=\dfrac{\bar{y}_U}{\bar{z}_U} \]

Ejemplos

Estudios electorales: para estimar la intención de voto por un candidato se pregunta por qué candidato votaría el encuestado. Dado que no todas las personas entrevistadas pueden votar, incluso algunos de ellos decidirán no votar. El numerador de esta razón está dado por el total de personas que votarían por el candidato, mientras que el denominador de la razón sería el total de personas que participarían activamente en las elecciones.

Investigación de medios: es importante para los canales de televisión tener un estimativo del total de personas observan algún programa de televisión en determinado momento. Con esta información, los canales cobran más o menos dinero a las empresas que deseen pautar un comercial a determinada hora. Si el programa televisivo tiene una audiencia alta, el canal cobrará más por la pauta de un comercial. Para estandarizar esta información, se ha creado un índice llamado “rating” que se define como la razón entre el total de personas que están observando un programa de televisión en un minuto determinado sobre el total de personas que están observando televisión.

Investigación social: uno de los indicadores económicos que más llama la atención en el desarrollo de una región o país es la tasa de desempleo. Hay que tener en cuenta que no todos los habitantes de una región están aptos para trabajar, pues existe un rango de edad para ello. Este indicador económico está definido como el total poblacional de personas que se encuentran en edad laboral pero que carecen de un empleo sobre la cantidad de personas que pertenecen a la población económicamente activa.

Estimador

Un estimador para la razón poblacional \(B\) de dos características de interés, su varianza y su varianza estimada están dados por

\[ \hat{B}=\dfrac{\hat{t}_{y,\pi}}{\hat{t}_{z,\pi}} \]

\[ AVar(\hat{B}_{\pi})=\sum\sum_U\Delta_{kl}\frac{E_k}{\pi_k}\frac{E_l}{\pi_l}. \]

\[ \widehat{Var}(\hat{B}_{y,\pi})=\sum\sum_S\dfrac{\Delta_{kl}}{\pi_{kl}}\frac{e_k}{\pi_k}\frac{e_l}{\pi_l} \]

donde \(E_k=\dfrac{1}{t_x}(y_k-Bz_k)\) y \(e_k=\dfrac{1}{\hat{t}_{z,\pi}}(y_k-\hat{B}z_k)\) Nótese que \(\hat{B}\) es aproximadamente insesgado para \(B\) al igual que \(\widehat{Var}(\hat{t}_{y,\pi})\) lo es para \(AVar(\hat{t}_{y,\pi})\)