En la mayoría de los estudios es imposible trabajar con toda la población, en general porque resulta demasiado dispendioso y costoso, adicionalmente si pensamos en el área de la salud, tomaría demasiado tiempo la conducción de un estudio, haciendo posible que al finalizar sus resultados posiblemente ya no sean válidos. Es por esto que el muestreo estadístico es de gran importancia siempre que queramos hacer algún tipo de inferencia estadística (estimación o prueba de hipótesis)
Con el propósito de fortalecer la política púbica relacionada con el linfoma no Hodgkin, el ministerio de salud busca estimar la prevalencia de linfoma no Hodgkin en la población colombiana. Pregunta de investigación: ¿Cuál es la prevalencia de linfoma no Hodgkin en Colombia?
Población (Universo) : Conjunto de la totalidad (\(N\)) de elementos, lo notaremos como:
\[U=\left\lbrace\ 1,2,...,N\right\rbrace\] Variable en estudio: Es la característica de interés, la notaremos como \(Y\), de tal forma que \(y_k\) será el valor de la variable en el \(k\)-ésimo individuo en estudio.
Parámetro: Es un valor poblacional. Generalmente es desconocido, por lo que se busca hacer inferencia sobre éstos, los más comunes a estimar son:
El total poblacional: \(t_y=\sum_{U}y_k\).
El promedio poblacional: \(\bar{y}_U=\frac{t_y}{N}\)
Muestra: Subconjunto de la población sobre el cual se hace la medición de interés.
Conjunto de todas las muestras posibles: Lo notaremos como \[S=\left\lbrace s_1,s_2,...,s_m\right\rbrace\] De tal forma que el proceso de muestreo implica seleccionar una de todas esas muestras posibles y determinar con base en su probabilidad de selección unos límites en los cuáles con alta probabilidad se encuentra el valor del parámetro a estimar.
Estimador: Es una estadística cuyas realizaciones son usadas para estimar al parámetro.
Probabilidad de selección de una muestra (\(p(s)\)):Probabilidad de seleccionar la muestra \(s\).
Probabilidad de selección de un individuo (\(p_k\)): Probailidad de seleccionar el individuo \(k\) en la muestra.
\[\pi_k=\sum_{s\text{ que contiene a }k}p(s)\]
\[\pi_{kl}=\sum_{s\text{ que contiene a }k\text{ y a }l}p(s)\]
\[1-\alpha=\sum_{s\in S_0}p(s)\]
donde \(S_0\) es el conjunto de muestras cuyo intervalo contiene a \(\theta\).
Población (Universo) : Personas colombianas que tengan residencia permanente en el país
Variable en estudio: \[y_k=\begin{cases} 1 & \mbox{si el individuo } k \text{ tiene linfoma no Hodgkin} \\ 0 & \mbox{en otro caso}\end{cases}\]
¿Qué representaría \(t_y=\sum_{U}y_k\)?
-Parámetro a estimar : \(\bar{y}_U=\frac{t_y}{N}\)
Un proceso de muestreo es probabilístico si cumple los siguientes requisitos (Bautista, 1998):
Se puede definir el conjunto de todas las muestras posibles: Se debe disponer de un marco muestral, es decir de un “listado” que permita identificar y ubicar a todos los individuos de la población.
Cada muestra tiene una probabilidad de selección conocida \(p(s)\) (Diseño muestral): Esta condición es indispensable para poder aplicar posteriormente la teoría de inferencia estadística, es decir que de no cumplirse, no es posible hacer inferencia con los resultados obtenidos.
Reflexión: En la mayoría de estudios epidemiológicos reportados en la literatura, ¿es posible hacer inferencia estadística?, ¿por qué?.
El proceso de selección garantiza que todos los elementos de la población tienen probabilidad ser incluidos en la muestra mayor a cero: Lo cual significa que solo se deben tener en cuenta aquellos elementos de la población que puedan ser incluidos, en caso de ser imposible, se debe restringir desde la población y el proceso inferencial cubriría únicamente a esta nueva población “restringida”.
El proceso de selección es aleatorio y garantiza que cada muestra tenga la probabilidad de selección definida (\(p(s)\))
En una etapa: La selección se hace directamente sobre los elementos del universo
En dos etapas: Se seleccionan primero los conglomerados (Unidades Primarias de Muestreo, UPM) y dentro de los seleccionados, los elementos (Unidades Secundarias de Muestreo, USM).
En general,
Es un listado, un archivo, un aplicativo, etc., que permite identificar y ubicar a los elementos del universo (Bautista, 1998):
Por otro lado, un marco muestral ideal debería contar también con información auxiliar, que por ejemplo permita tener variables de estratificación o dominios de estudio o que pueda ser utilizada para hacer un diseño muestral más eficiente.
En general, los problemas de los marcos muestrales se presentan por falta de mantemiento o actualización de los mismos. Estos pueden ser de tres tipos:
Subcobertura
Sobrecobertura
Repetición
Nota: Cuando no existe un marco muestral de los elementos, es posible que sea más sencillo tener un marco muestral de conglomerados (UPMs), y que una vez seleccionados éstos se pueda construir un marco muestral de cada uno de ellos.
¿Cuál podría ser un buen marco muestral?, ¿qué problemas podría presentar?
Dado \(\hat(\theta): S\to R\) un estimador para el parámetro \(\theta\), se definen:
Para recordar: Un estimador con \(B(\hat\theta)=0\) se dice insesgado para \(\theta\). Recordemos que en términos de las propiedades de un estimador buscamos que éste en lo posible sea insesgado de mínima varianza.
Dado que para calcular los anteriores valores es necesario disponer de todas las muestras posibles, lo cual en la práctica no es posible, dichos valores se pueden obtener de forma teórica o es posible calcular una estimación para los mismos. Por ejemplo:
El sesgo está relacionado con la confiabilidad de la estimación muestral, a mayor sesgo, menor confiabilidad. Veamos:
Supongamos que \(Z=\frac{\hat\theta-E(\hat\theta)}{\sqrt{V(\hat\theta)}}\sim N(0,1)\), lo cual se tiene por ejemplo en el caso de que se pueda aplicar el teorema del límite central (TLC). Así, la probabilidad de cobertura está dada por:
\[P_c=P\left(\theta-z_{1-\alpha/2}\sqrt{V(\hat\theta)}\leq\hat\theta\leq\theta+z_{1-\alpha/2}\sqrt{V(\hat\theta)}\right)\] Restando \(E(\hat\theta)\) y dividiendo por \(\sqrt{V(\hat\theta)}\):
\[P_c=P\left(-B_r(\theta)-z_{1-\alpha/2}\leq Z\leq -B_r(\theta)+z_{1-\alpha/2}\right)\] Luego:
\[P_c=P\left(-z_{1-\alpha/2}\leq Z\leq z_{1-\alpha/2}\right)=1-\alpha\]
A mayor sesgo relativo, mayor diferencia entre la probabilidad de cobertura y la confiabilidad deseada.
En general se recomienda utilizar estimadores insesgados, sin embargo, un sesgo relativo inferior a \(1\) no ocasiona graves problemas
br<-seq(0,5,0.01)
pc<-pnorm(-br+qnorm(1-0.05/2))-pnorm(-br-qnorm(1-0.05/2))
plot(br,pc, main="Probabilidad de cobertura según la magnitud del sesgo relativo", xlab="Sesgo relativo", ylab="Probabilidad de cobertura",type="l" )
La precisión está relacionada con la variabilidad del estimador a utilizar, es decir puede ser medidad por \(V(\hat\theta)\), \(\sqrt{V(\hat\theta)}\) y \(CV(\hat\theta)\), siendo este último la mejor opción. En términos generales:
Nota: Un plan de muestreo busca escoger un diseño y un estimador (Estrategia muestral) que con el menor de los costos provea un intervalo con la confianza y la precisión deseadas, o lo más cercana a ellas posible (eficiente).
Recordemos que un estadístico es una función de la muestra aleatoria que no depende de parámetros desconocidos. A continuación exploraremos un par de estadísticos que resultan muy útiles en la teoría de muestreo.
Sea: \[I_k(s)=\begin{cases} 1 & \mbox{si el individuo } k \text{ pertenece a la muestra } s\\ 0 & \mbox{en otro caso}\end{cases}\]
Se cumple que:
\(E(I_k)=\sum_{s\in S}I_k(s)p(s)=\sum_{s\text{ que contiene a }k}p(s)= \pi_k\)
\(V(I_k)=\sum_{s\in S}(I_k(s)-\pi_k)^2p(s)=\pi_k(1-\pi_k)\)
\(Cov(I_k,I_l)=\sum_{s\in S}(I_k(s)-\pi_k)(I_l(s)-\pi_l)p(s)=\Delta_{kl}=\pi_{kl}-\pi_k\pi_l\)
Sea \(n_s=\sum_{U}I_k(s)\), se cumple que:
\(E(n_s)=\sum_{U}\pi_k\)
\(V(n_s)=\sum_{U}\pi_k-\left(\sum_{U}\pi_k\right)^2+\sum\sum_{k\neq l}\pi_{kl}\)
Nota: No todos los diseños muestrales implican tamaños de muestra fijos, si el tamaño de muestra es constante, se tiene que:
\(E(n_s)=\sum_{U}\pi_k=n\)
\(V(n_s)=n-n^2+\sum\sum_{k\neq l}\pi_{kl}=0\), entonces:
\[\sum\sum_{k\neq l}\pi_{kl}=n(n-1)\]
Se define como:
\[\hat t_{y\pi}=\sum_{s}\frac{y_k}{\pi_k}\] Donde \(\frac{1}{\pi_k}\) es el llamado factor de expansión.
\[E(\hat t_{y\pi})=E\left(\sum_{s}\frac{y_k}{\pi_k}\right)=\sum_{s\in S}p(s)\left(\sum_{s}\frac{y_k}{\pi_k}\right)=\sum_{s\in S}p(s)\left(\sum_{U}I_k(s)\frac{y_k}{\pi_k}\right)\] Que reescribiéndolo está dado :
\[E(\hat t_{y\pi})=\sum_{U}\frac{y_k}{\pi_k}\sum_{s\in S}p(s)I_k(s)\] Como \(E(I_k)=\sum_{s\in S}p(s)I_k(s)=\pi_k\):
\[E(\hat t_{y\pi})=\sum_{U}\frac{y_k}{\pi_k}\pi_k=\sum_{U}y_k=t_y\]
\(V(\hat{t}_{y\pi})=\sum\sum_{U}\Delta_{kl}\frac{y_k}{\pi_k}\frac{y_l}{\pi_l}\)
Dado que \(V(t_{y\pi})\) es un valor poblacional, no es posible calcularlo, por lo cual para estimarla se utiliza el siguiente estimador insesgado:
\[\hat{V}(\hat{t}_{y\pi})=\sum\sum_{U}\frac{\Delta_{kl}}{\pi_{kl}}\frac{y_k}{\pi_k}\frac{y_l}{\pi_l}\]
Los diseños muestrales son la carta de navegación a la hora de utilizar un muestreo probabilístico, pues son aquellos que determinan las probabilidades de selección de la muestra, la probabilidades de inclusión y por lo tanto, parte de las características del estimador se deben a ellos.
El M.A.S es el más común de todos los diseños muestrales
Consiste en seleccionar aleatoriamente y sin repetición, un conjunto de \(n\) elementos dentro de los \(N\) del universo
Todos los elementos tienen igual probabilidad de ser seleccionados: para el primero seleccionado \(1/N\), para el segundo \(1/(N-1)\), …
-Todas las muestras tienen igual probabilidad de selección: \(\frac{1}{N\choose n}\)
\(p(s)=\frac{1}{N\choose n}\)
\(\pi_k=\frac{N-1\choose {n-1}}{N\choose n}=\frac{n}{N}\)
\(\pi_{kl}=\frac{N-2\choose {n-2}}{N\choose n}=\frac{n(n-1)}{N(N-1)}\)
\(\hat{t}_{y\pi}=\sum_{s}\frac{y_k}{\pi_k}=\sum_{s}\frac{y_k}{n/N}=\frac{N}{n}\sum_{s}{y_k}\)
\(V_{MAS}(\hat{t}_{y\pi})=\frac{N^2}{n}\left(1-\frac{n}{N}\right)S^2_{y_U}\), con \(S^2_{y_U}=\frac{1}{N-1}\sum_{U}(y_k-\bar{y}_U)^2\)
\(\hat{V}_{MAS}(\hat{t}_{y\pi})=\frac{N^2}{n}\left(1-\frac{n}{N}\right)S^2_{y_s}\), con \(S^2_{y_s}=\frac{1}{n-1}\sum_{s}(y_k-\bar{y}_s)^2\)
Dado que (M.A.S, \(\hat{t}_{y\pi}\)) es una estrategia insesgada, para \(t_y=\sum_{U}y_k\), se garantiza que para un tamaño de muestra grande, la confiabilidad es muy cercana a la confiabilidad deseada (\(1-\alpha\))
Si se busca una precisión determinada \(CV_{MAS}(\hat{t}_{y\pi})\leq CV_0\):
\[CV_{MAS}(\hat{t}_{y\pi})\leq CV_0\] \[\frac{\sqrt{V_{MAS}(\hat{t}_{y\pi})}}{t_y}\leq CV_0\] De dónde:
\[n\geq \frac{n_0}{1+\frac{n_0}{N}}\] con \(n_0=\frac{CV^2_{y_u}}{CV^2_0}\)
Por lo tanto, a mayor variabilidad de la variable a estudiar, mayor tamaño de muestra requerido:
n0<-seq(0.001,100,0.01)
N<-100
n<-n0/(1+n0/N)
plot(n0,n, main="Tamaño de muestra mínimo requerido MAS(100,n)", xlab="n0", ylab="n",type="l" )
Para estimar el total de hospitales de primer nivel en los 200 municipios más pequeños del país, se seleccionó una muestra de 50 de ellos, mediante un MAS(200,50). Se obtuvo lo siguiente:
Centros de salud | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 16 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
# de municipios | 4 | 7 | 3 | 6 | 7 | 10 | 4 | 2 | 2 | 1 | 1 | 1 | 2 |
Luego, la estimación para el total está dada por:
\[\hat t_{y\pi}=\frac{200}{50}\sum_{s}y_k=4(3*4+4*7+...+14*1+16*2)=1476\] Por otro lado, la estimación de la varianza es:
\[\hat{V}_{MAS}(\hat{t}_{y\pi})=\frac{200^2}{50}\left(1-\frac{50}{200}\right)S^2_{y_s}=\frac{200^2}{50}\frac{150}{200}*9.9139=5948.33\] De tal forma que con un \(95\%\) de confiabilidad, se estima que el número total de hospitales de primer nivel en los 200 municipios, está entre:
\[\hat t_{y\pi}\mp 1.96\sqrt{\hat{V}_{MAS}(\hat{t}_{y\pi})} \] es decir entre \(1325\) y \(1627\).
El método de selección debe respetar el diseño muestral \(p(s)\). Uno de los algoritmos que respetan el diseño M.A.S. es el coordinado negativo, el cuál consiste en:
Generar un número aleatorio (\(\zeta_k\)), para cada individuo de la población, a partir de una distribución uniforme continua (0,1), (\(\zeta_k\sim U(0,1)\)).
Ordenar el marco muestral con respecto a \(\zeta_k\).
Seleccionar los primeros \(n\) elementos del marco ordenado.
#Algoritmo coordinado negativo
#Identificador de los habitantes. En la práctica se tendrá el marco muestral, es decir el listado de personas con su identificación y ubicación.
i<-1:6000000
#tamaño muestral
n<-1000
#generación de números aleatorios
zeta<-runif(6000000,0,1)
marco<-data.frame(cbind(i,zeta))
#marco ordenado por el número aleatorio
marco_o<-marco[with(marco,order(marco$zeta)),]
#selección de los individuos
muestra<-marco_o[1:n,]
head(muestra)
## i zeta
## 1606727 1606727 3.026798e-08
## 5588594 5588594 4.726462e-08
## 1321120 1321120 4.449394e-07
## 720338 720338 5.755574e-07
## 4266722 4266722 7.061753e-07
## 5499651 5499651 7.713679e-07
## [1] 1000 2
De forma más sencilla puede hacerse así:
## [1] 5155296 2484813 1133463 4482920 5369535 3929030
## [1] 1000
linfo<-read.table("linfoma.txt", h=T)
#cálculo de la estimación de Horvitz-Thompson para el
#total de personas con linfoma no Hodgkin en Bogotá:
N<-6000000
n<-1000
typi<-N/n*sum(linfo$y)
typi
## [1] 72000
## [1] 1.2
## [1] 427172036
## [1] 593294.5
## [1] 31491.19
## [1] 112508.8
#límites de confianza del 95% para la prevalencia
linfp<-(typi/N-qnorm(0.975)*sqrt(vest/(N^2)))*100
linfp
## [1] 0.5248531
## [1] 1.875147
Para hacer el calculo de la estimación del total y de la varianza, podríamos crear una función, así:
mas<-function(N,y,alpha){
typi<-N/length(y)*sum(y)
vest<-N^2/length(y)*(1-length(y)/N)*var(y)
linf<-typi-qnorm(1-alpha/2)*sqrt(vest)
lsup<-typi+qnorm(1-alpha/2)*sqrt(vest)
ic<-c(linf,lsup)
names(ic)<-c("Inf","Sup")
result<-list(typi, vest,linf,lsup)
names(result)<-c("typi","Vest", "IC_inf","IC_sup")
return(result)
}
m<-mas(6000000,linfo$y,0.05)
m
## $typi
## [1] 72000
##
## $Vest
## [1] 427172036
##
## $IC_inf
## [1] 31491.19
##
## $IC_sup
## [1] 112508.8
Otra forma es hacerlo con una función previamente programada, como horvitzThompson, que se encuentra en la librería survey:
library(mase)
#para utilizar esta función es necesario calcular las probabilidades de inclusión de primer y segundo orden
linfo$pik<-n/N
#matriz de probabilidades de inclusión de segundo orden
PIkl<-matrix(n*(n-1)/{N*(N-1)},nr=n,nc=n)
horvitzThompson(linfo$y, N=N, pi2=PIkl, pi=linfo$pik, var_method = 'lin_HT')
## $pop_total
## [1] 72000
##
## $pop_mean
## [1] 0.012
En este diseño se fija un valor \(0<\pi<1\), para cada individuo \(k\) en el universo se genera un número aleatorio \(\zeta_k\sim U(0,1)\), el individuo se incluye en la muestra si \(\zeta_k<\pi\).
Dadas las características del diseño, éste tiene un tamaño de muestra aleatorio \(n_s\).
\(p(s)=\pi^{n_s}(1-\pi)^{N-n_s}\)
\(\pi_k=\pi\)
\(\pi_{kl}=\pi^2\), para \(k\neq l\)
\(\hat{t}_{y\pi}=\sum_{s}\frac{y_k}{\pi_k}=\sum_{s}\frac{y_k}{\pi}=\frac{1}{\pi}\sum_{s}{y_k}\)
\(V_{BER}(\hat{t}_{y\pi})=\left(\frac{1}{\pi}-1\right)\sum_{U}y_k^2\)
\(\hat{V}_{BER}(\hat{t}_{y\pi})=\frac{1}{\pi}\left(\frac{1}{\pi}-1\right)\sum_{s}y_k^2\)
Dado que (BER, \(\hat{t}_{y\pi}\)) es una estrategia insesgada, para \(t_y=\sum_{U}y_k\), se garantiza que para un tamaño de muestra grande, la confiabilidad es muy cercana a la confiabilidad deseada (\(1-\alpha\))
\(E(n_s)=\sum_U\pi_k=\sum_U\pi=N\pi\), \(V(n_s)=N\pi(1-\pi)\)
Consiste en:
1.Fijar un valor \(0<\pi<1\).
Generar un número aleatorio \(\zeta_k\sim U(0,1)\).
Seleccionar el individuo \(k\) si \(\zeta_k<\pi\).
Supongamos que tenemos una población compuesta por 6 millones de habitantes (Bogotá) y que queremos seleccionar aleatoriamente una muestra a partir de un diseño \(Ber(0.1)\):
#Identificador de los habitantes. En la práctica se tendrá el marco muestral, es decir el listado de personas con su identificación y ubicación.
i<-1:6000000
#probabilidad de inclusión
pi<-0.1
#generación de números aleatorios
zeta<-runif(6000000,0,1)
marco<-data.frame(cbind(i,zeta))
#selección de los individuos
muestra<-subset(marco,marco$zeta<pi)
head(muestra)
## i zeta
## 3 3 0.066628495
## 11 11 0.021601288
## 36 36 0.036497783
## 41 41 0.064787988
## 49 49 0.075544559
## 62 62 0.003706959
## [1] 600031 2
Suponga que en la base de datos “linfoma.txt” se encuentran los datos de la muestra de 1000 personas de la ciudad de Bogotá, muestra seleccionada mediante un diseño Ber(0.001). En la base de datos encontrará la identificación de la persona (id) y si tiene o no linfoma no Hodgkin (y). Calcule el \(\pi\)-estimador para el número total de personas y para la prevalencia de linfoma no Hodgkin en Bogotá, de dos formas: a. Construyendo una función que permita obtener la estimación del total de personas con linfoma no Hodgkin en Bogotá, la estimación de la varianza y los límites del intervalo de confianza.
El efecto de diseño de una estrategia compara la varianza de la estrategia a estudiar con la varianza de la estrategia \((M.A.S(N,n),\hat{t}_{y\pi})\). Para una estrategia con diseño \(p(.)\) con \(E_p(n_s)=n\) y estimador \(\hat t_y\), se define el efecto de diseño como:
\[deff(p,\hat t_y)=\frac{V_p(\hat t_y)}{V_{MAS}(\hat{t}_{y\pi})}\] Nota: El \(deff\) es un valor poblacional, por lo que en general se obtienen expresiones que permitan hacer el análisis, o en su defecto se utilizan estimaciones para llegar a valores puntuales.
Como se debe garantizar que \(E_{BER}(\hat{t}_{y\pi})=n\), entonces \(\pi=n/N\), así:
\[deff(BER,\hat{t}_{y\pi})=\frac{V_{BER}( \hat{t}_{y\pi})}{V_{MAS}(\hat{t}_{y\pi})}=\frac{\left(\frac{N}{n}-1\right)\sum_{U}y_k^2}{\frac{N^2}{n}\left(1-\frac{n}{N}\right)S^2_{y_U}}\] Como \(\sum_{U}y_k^2=(N-1)S^2_{y_U}+N\bar y^2\):
\[deff(BER,\hat{t}_{y\pi})=\frac{(N-1)S^2_{y_U}+N\bar y^2}{NS^2_{y_U}}=1-\frac{1}{N}+\frac{1}{CV_{y_U}^2 }\] Por lo tanto, entre más grande sea el coeficiente de variación de la variable, más cercana será la eficiencia de la estrategia \((BER,\hat{t}_{y\pi})\) a la de la estrategia \((M.A.S(N,n),\hat{t}_{y\pi})\):
cvy<-seq(0.1,10,0.1)
N<-1000
deff<-1-1/N+1/cvy^2
plot(cvy,deff, main="Efecto de diseño Bernoulli", xlab="CVy", ylab="deff",type="l" )
En general, buscamos una precisión determinada: \(V_p(\hat t_y)\leq V_0\), es decir, siendo \(deff=deff(p,\hat t_y)\):
\[deff V_{MAS}(\hat{t}_{y\pi})\leq V_0\] \[ \frac{N^2}{n}\left(1-\frac{n}{N}\right)S^2_{y_U}\leq\frac{V_0}{deff}\] \[n\geq \frac{deff*n_0}{1+deff\frac{n_0}{N}}\] con \(n_0=\frac{N^2S^2_{y_U}}{V0}\). Lo cuál es equivalente, en términos del coeficiente de variación a:
\[n\geq \frac{deff*n^*_0}{1+deff\frac{n^*_0}{N}}\]
con \(n^*_0=\frac{N^2CV^2_{y_U}}{CV^2_0}\).
El muestreo estratificado consiste en aplicar un diseño a cada uno de los estratos, de tal forma que permite tener en cuenta las diferencias entre dichos grupos poblacionales.
Se debe pensar en utilizar muestreo estratificado cuando hay grupos que presentan características muy diferentes, de tal forma que deben tratarse por separado.
Implica tener la información auxiliar para identificar a qué estrato pertenece cada elemento del universo.
En general resulta más costoso
\[\hat t_{y\pi}=\sum_s \hat t_{hy\pi}\]
A. Cuando el objetivo de estratificar es la estimación confiable de cada estrato (estrato=dominio):
-Se define una estrategia por estrato, de tal forma que se tiene un \(CV_h\) deseado para cada uno. -La estimación del total resulta mucho más precisa, pero el objetivo es el total de cada estrato.
B. Cuando el objetivo de estratificar es ganar eficiencia en la estimación del total (reducir la varianza para un costo dado).
C. Cuando el objetivo es tener estimaciones precisas tanto para los estratos como para el total.
En este tipo de muestreo las unidades de muestreo son los conglomerados.
Es útil cuando no se dispone del marco muestral de cada elemento.
Se tiene una partición del universo (conglomerados) \(U=\{ U_1,U_2,...,U_{N_I}\}\)
De acuerdo a un diseño muestral \(p_I(.)\), se extrae una muestra probabilística de conglomerados (\(s_I\))
Todos los individuos de los conglomerados seleccionados quedarán incluídos en la muestra
Se busca que los conglomerados sean lo más heterogéneos posible
El \(\pi\)-estimador del total en el universo es:
\[\hat t_{y\pi}=\sum_{s_I} \frac{t_i}{\pi_{Ii}} \] donde \(\pi_{Ii}\) es la probabilidad de inclusión del \(i\)-ésimo conglomerado y \(t_i\) el total del \(i\)-ésimo conglomerado.
En el muestreo multietápico, en las primeras etapas se seleccionan conglomerados y en la última se seleccionan elementos dentro de los conglomerados seleccionados.
Se busca que los conglomerados sean lo más heterogéneos posible.
Ejemplo: Bietápico: En la primera etapa se seleccionan conglomerados y en la segunda se seleccionan elementos. En este caso, el \(\pi\)-estimador para el total estaría dado por:
\[\hat t_{y\pi}=\sum_{s_I} \frac{\hat t_i}{\pi_{Ii}} \] donde \(\hat t_i=\sum_{s} \frac{y_k}{\pi_{k|i}}\).