1 Introducción

En la mayoría de los estudios es imposible trabajar con toda la población, en general porque resulta demasiado dispendioso y costoso, adicionalmente si pensamos en el área de la salud, tomaría demasiado tiempo la conducción de un estudio, haciendo posible que al finalizar sus resultados posiblemente ya no sean válidos. Es por esto que el muestreo estadístico es de gran importancia siempre que queramos hacer algún tipo de inferencia estadística (estimación o prueba de hipótesis)

2 Problema de investigación

Con el propósito de fortalecer la política púbica relacionada con el linfoma no Hodgkin, el ministerio de salud busca estimar la prevalencia de linfoma no Hodgkin en la población colombiana. Pregunta de investigación: ¿Cuál es la prevalencia de linfoma no Hodgkin en Colombia?

3 Conceptos preliminares

Población (Universo) : Conjunto de la totalidad (\(N\)) de elementos, lo notaremos como:

\[U=\left\lbrace\ 1,2,...,N\right\rbrace\] Variable en estudio: Es la característica de interés, la notaremos como \(Y\), de tal forma que \(y_k\) será el valor de la variable en el \(k\)-ésimo individuo en estudio.

Parámetro: Es un valor poblacional. Generalmente es desconocido, por lo que se busca hacer inferencia sobre éstos, los más comunes a estimar son:

  1. El total poblacional: \(t_y=\sum_{U}y_k\).

  2. El promedio poblacional: \(\bar{y}_U=\frac{t_y}{N}\)

  3. Razón: Cuando se estudian dos características y se quiere estimar el cociente de los totales \[R=\frac{t_y}{t_z}\]
  4. Muestra: Subconjunto de la población sobre el cual se hace la medición de interés.

  5. Conjunto de todas las muestras posibles: Lo notaremos como \[S=\left\lbrace s_1,s_2,...,s_m\right\rbrace\] De tal forma que el proceso de muestreo implica seleccionar una de todas esas muestras posibles y determinar con base en su probabilidad de selección unos límites en los cuáles con alta probabilidad se encuentra el valor del parámetro a estimar.

  6. Estimador: Es una estadística cuyas realizaciones son usadas para estimar al parámetro.

  7. Probabilidad de selección de una muestra (\(p(s)\)):Probabilidad de seleccionar la muestra \(s\).

  8. Probabilidad de selección de un individuo (\(p_k\)): Probailidad de seleccionar el individuo \(k\) en la muestra.

  9. Probabilidad de inclusión:
  • De primer orden (\(\pi_k\)): Es la suma de las probabilidades de las muestras que contienen al elemento \(k\).

\[\pi_k=\sum_{s\text{ que contiene a }k}p(s)\]

  • De segundo orden (\(\pi_{kl}\)): Es la suma de las probabilidades de las muestras que contienen a los elementos \(k\) y \(l\)

\[\pi_{kl}=\sum_{s\text{ que contiene a }k\text{ y a }l}p(s)\]

  1. Confiabilidad: El nivel de confiabilidad de un estimador se define como:

\[1-\alpha=\sum_{s\in S_0}p(s)\]

donde \(S_0\) es el conjunto de muestras cuyo intervalo contiene a \(\theta\).

3.1 Ejemplo: Problema de investigación

  • Población (Universo) : Personas colombianas que tengan residencia permanente en el país

  • Variable en estudio: \[y_k=\begin{cases} 1 & \mbox{si el individuo } k \text{ tiene linfoma no Hodgkin} \\ 0 & \mbox{en otro caso}\end{cases}\]

¿Qué representaría \(t_y=\sum_{U}y_k\)?

-Parámetro a estimar : \(\bar{y}_U=\frac{t_y}{N}\)

4 Muestreo probabilístico

Un proceso de muestreo es probabilístico si cumple los siguientes requisitos (Bautista, 1998):

  1. Se puede definir el conjunto de todas las muestras posibles: Se debe disponer de un marco muestral, es decir de un “listado” que permita identificar y ubicar a todos los individuos de la población.

  2. Cada muestra tiene una probabilidad de selección conocida \(p(s)\) (Diseño muestral): Esta condición es indispensable para poder aplicar posteriormente la teoría de inferencia estadística, es decir que de no cumplirse, no es posible hacer inferencia con los resultados obtenidos.

Reflexión: En la mayoría de estudios epidemiológicos reportados en la literatura, ¿es posible hacer inferencia estadística?, ¿por qué?.

  1. El proceso de selección garantiza que todos los elementos de la población tienen probabilidad ser incluidos en la muestra mayor a cero: Lo cual significa que solo se deben tener en cuenta aquellos elementos de la población que puedan ser incluidos, en caso de ser imposible, se debe restringir desde la población y el proceso inferencial cubriría únicamente a esta nueva población “restringida”.

  2. El proceso de selección es aleatorio y garantiza que cada muestra tenga la probabilidad de selección definida (\(p(s)\))

4.1 Clasificación de los diseños muestrales según sus etapas

  • En una etapa: La selección se hace directamente sobre los elementos del universo

  • En dos etapas: Se seleccionan primero los conglomerados (Unidades Primarias de Muestreo, UPM) y dentro de los seleccionados, los elementos (Unidades Secundarias de Muestreo, USM).

En general,

  • Multietápico: Se seleccionan: UPM, USM, hasta llegar a la selección de los elementos.

4.2 Marco muestral

Es un listado, un archivo, un aplicativo, etc., que permite identificar y ubicar a los elementos del universo (Bautista, 1998):

  • La identificación de los elementos debe permitir diferenciar a los seleccionados de los no seleccionados
  • Se deben poder ubicar, con el objetivo de realizar la medición de interés

Por otro lado, un marco muestral ideal debería contar también con información auxiliar, que por ejemplo permita tener variables de estratificación o dominios de estudio o que pueda ser utilizada para hacer un diseño muestral más eficiente.

4.2.1 Posibles problemas del marco muestral

En general, los problemas de los marcos muestrales se presentan por falta de mantemiento o actualización de los mismos. Estos pueden ser de tres tipos:

  1. Subcobertura

  2. Sobrecobertura

  3. Repetición

Nota: Cuando no existe un marco muestral de los elementos, es posible que sea más sencillo tener un marco muestral de conglomerados (UPMs), y que una vez seleccionados éstos se pueda construir un marco muestral de cada uno de ellos.

4.2.1.1 Problema de investigación

¿Cuál podría ser un buen marco muestral?, ¿qué problemas podría presentar?

5 Características de un estimador

Dado \(\hat(\theta): S\to R\) un estimador para el parámetro \(\theta\), se definen:

  1. \(E(\hat\theta))=\sum_{s\in S}p(s)\hat\theta(s)\)
  2. \(V(\hat\theta)=\sum_{s\in S}p(s)\left(\hat\theta(s)-E(\hat\theta)\right)^2\) (Precisión)
  3. \(CV(\hat\theta)=\frac{\sqrt{V(\hat\theta)}}{E(\hat\theta)}\) (Precisión)
  4. \(ECM(\hat\theta)=V(\hat\theta)+B(\hat\theta)^2\), siendo \(B(\hat\theta)=E(\hat\theta)-\theta\) el sesgo del estimador.
  5. \(B_r(\theta)=\frac{B(\hat\theta)}{\sqrt{V(\hat\theta)}}\)

Para recordar: Un estimador con \(B(\hat\theta)=0\) se dice insesgado para \(\theta\). Recordemos que en términos de las propiedades de un estimador buscamos que éste en lo posible sea insesgado de mínima varianza.

Dado que para calcular los anteriores valores es necesario disponer de todas las muestras posibles, lo cual en la práctica no es posible, dichos valores se pueden obtener de forma teórica o es posible calcular una estimación para los mismos. Por ejemplo:

  • Error estándar de la estimación: \(\sqrt{\hat V(\hat\theta)}\)
  • Coeficiente de variación estimado:\(CV(\hat\theta)=\frac{\sqrt{\hat V(\hat\theta)}}{\hat\theta(s)}\)

5.1 El efecto del sesgo

El sesgo está relacionado con la confiabilidad de la estimación muestral, a mayor sesgo, menor confiabilidad. Veamos:

Supongamos que \(Z=\frac{\hat\theta-E(\hat\theta)}{\sqrt{V(\hat\theta)}}\sim N(0,1)\), lo cual se tiene por ejemplo en el caso de que se pueda aplicar el teorema del límite central (TLC). Así, la probabilidad de cobertura está dada por:

\[P_c=P\left(\theta-z_{1-\alpha/2}\sqrt{V(\hat\theta)}\leq\hat\theta\leq\theta+z_{1-\alpha/2}\sqrt{V(\hat\theta)}\right)\] Restando \(E(\hat\theta)\) y dividiendo por \(\sqrt{V(\hat\theta)}\):

\[P_c=P\left(-B_r(\theta)-z_{1-\alpha/2}\leq Z\leq -B_r(\theta)+z_{1-\alpha/2}\right)\] Luego:

  1. Si el estimador es insesgado, \(B_r(\theta)=0\), la probabilidad de cobertura (nivel de confianza real) coincide con la confiabilidad deseada:

\[P_c=P\left(-z_{1-\alpha/2}\leq Z\leq z_{1-\alpha/2}\right)=1-\alpha\]

  1. A mayor sesgo relativo, mayor diferencia entre la probabilidad de cobertura y la confiabilidad deseada.

  2. En general se recomienda utilizar estimadores insesgados, sin embargo, un sesgo relativo inferior a \(1\) no ocasiona graves problemas

5.2 El efecto de la precisión

La precisión está relacionada con la variabilidad del estimador a utilizar, es decir puede ser medidad por \(V(\hat\theta)\), \(\sqrt{V(\hat\theta)}\) y \(CV(\hat\theta)\), siendo este último la mejor opción. En términos generales:

  1. Si \(CV(\hat\theta)\leq 3\%\), la estimación es excelente.
  2. Si \(3\%<CV(\hat\theta)\leq 5\%\), la estimación es buena.
  3. Si \(5\%<CV(\hat\theta)\leq 10\%\) la estimación es regular.
  4. Si \(10\%<CV(\hat\theta)\leq 15\%\) la estimación es apenas aceptable.
  5. Si \(5\%CV(\hat\theta)\geq 15\%\) la estimación es inútil.

Nota: Un plan de muestreo busca escoger un diseño y un estimador (Estrategia muestral) que con el menor de los costos provea un intervalo con la confianza y la precisión deseadas, o lo más cercana a ellas posible (eficiente).

6 Algunas estadísticas útiles en muestreo

Recordemos que un estadístico es una función de la muestra aleatoria que no depende de parámetros desconocidos. A continuación exploraremos un par de estadísticos que resultan muy útiles en la teoría de muestreo.

6.1 El estadístico \(I_k(s)\)

Sea: \[I_k(s)=\begin{cases} 1 & \mbox{si el individuo } k \text{ pertenece a la muestra } s\\ 0 & \mbox{en otro caso}\end{cases}\]

Se cumple que:

  1. \(E(I_k)=\sum_{s\in S}I_k(s)p(s)=\sum_{s\text{ que contiene a }k}p(s)= \pi_k\)

  2. \(V(I_k)=\sum_{s\in S}(I_k(s)-\pi_k)^2p(s)=\pi_k(1-\pi_k)\)

  3. \(Cov(I_k,I_l)=\sum_{s\in S}(I_k(s)-\pi_k)(I_l(s)-\pi_l)p(s)=\Delta_{kl}=\pi_{kl}-\pi_k\pi_l\)

6.2 El estadístico \(n_s\) (tamaño de muestra)

Sea \(n_s=\sum_{U}I_k(s)\), se cumple que:

  1. \(E(n_s)=\sum_{U}\pi_k\)

  2. \(V(n_s)=\sum_{U}\pi_k-\left(\sum_{U}\pi_k\right)^2+\sum\sum_{k\neq l}\pi_{kl}\)

Nota: No todos los diseños muestrales implican tamaños de muestra fijos, si el tamaño de muestra es constante, se tiene que:

  1. \(E(n_s)=\sum_{U}\pi_k=n\)

  2. \(V(n_s)=n-n^2+\sum\sum_{k\neq l}\pi_{kl}=0\), entonces:

\[\sum\sum_{k\neq l}\pi_{kl}=n(n-1)\]

7 El estimador de Horvitz-Thompson o \(\pi\)- estimador para el total

Se define como:

\[\hat t_{y\pi}=\sum_{s}\frac{y_k}{\pi_k}\] Donde \(\frac{1}{\pi_k}\) es el llamado factor de expansión.

7.0.1 Propiedades

  1. El \(\hat t_{y\pi}\) es un estimador insesgado para el total, pues:

\[E(\hat t_{y\pi})=E\left(\sum_{s}\frac{y_k}{\pi_k}\right)=\sum_{s\in S}p(s)\left(\sum_{s}\frac{y_k}{\pi_k}\right)=\sum_{s\in S}p(s)\left(\sum_{U}I_k(s)\frac{y_k}{\pi_k}\right)\] Que reescribiéndolo está dado :

\[E(\hat t_{y\pi})=\sum_{U}\frac{y_k}{\pi_k}\sum_{s\in S}p(s)I_k(s)\] Como \(E(I_k)=\sum_{s\in S}p(s)I_k(s)=\pi_k\):

\[E(\hat t_{y\pi})=\sum_{U}\frac{y_k}{\pi_k}\pi_k=\sum_{U}y_k=t_y\]

  1. \(V(\hat{t}_{y\pi})=\sum\sum_{U}\Delta_{kl}\frac{y_k}{\pi_k}\frac{y_l}{\pi_l}\)

  2. Dado que \(V(t_{y\pi})\) es un valor poblacional, no es posible calcularlo, por lo cual para estimarla se utiliza el siguiente estimador insesgado:

\[\hat{V}(\hat{t}_{y\pi})=\sum\sum_{U}\frac{\Delta_{kl}}{\pi_{kl}}\frac{y_k}{\pi_k}\frac{y_l}{\pi_l}\]

8 Diseños de muestreo

Los diseños muestrales son la carta de navegación a la hora de utilizar un muestreo probabilístico, pues son aquellos que determinan las probabilidades de selección de la muestra, la probabilidades de inclusión y por lo tanto, parte de las características del estimador se deben a ellos.

8.1 Muestreo aleatorio simple. M.A.S. (N,n)

  • El M.A.S es el más común de todos los diseños muestrales

  • Consiste en seleccionar aleatoriamente y sin repetición, un conjunto de \(n\) elementos dentro de los \(N\) del universo

  • Todos los elementos tienen igual probabilidad de ser seleccionados: para el primero seleccionado \(1/N\), para el segundo \(1/(N-1)\), …

-Todas las muestras tienen igual probabilidad de selección: \(\frac{1}{N\choose n}\)

8.1.1 Características

  1. \(p(s)=\frac{1}{N\choose n}\)

  2. \(\pi_k=\frac{N-1\choose {n-1}}{N\choose n}=\frac{n}{N}\)

  3. \(\pi_{kl}=\frac{N-2\choose {n-2}}{N\choose n}=\frac{n(n-1)}{N(N-1)}\)

  4. \(\hat{t}_{y\pi}=\sum_{s}\frac{y_k}{\pi_k}=\sum_{s}\frac{y_k}{n/N}=\frac{N}{n}\sum_{s}{y_k}\)

  5. \(V_{MAS}(\hat{t}_{y\pi})=\frac{N^2}{n}\left(1-\frac{n}{N}\right)S^2_{y_U}\), con \(S^2_{y_U}=\frac{1}{N-1}\sum_{U}(y_k-\bar{y}_U)^2\)

  6. \(\hat{V}_{MAS}(\hat{t}_{y\pi})=\frac{N^2}{n}\left(1-\frac{n}{N}\right)S^2_{y_s}\), con \(S^2_{y_s}=\frac{1}{n-1}\sum_{s}(y_k-\bar{y}_s)^2\)

  7. Dado que (M.A.S, \(\hat{t}_{y\pi}\)) es una estrategia insesgada, para \(t_y=\sum_{U}y_k\), se garantiza que para un tamaño de muestra grande, la confiabilidad es muy cercana a la confiabilidad deseada (\(1-\alpha\))

  8. Si se busca una precisión determinada \(CV_{MAS}(\hat{t}_{y\pi})\leq CV_0\):

\[CV_{MAS}(\hat{t}_{y\pi})\leq CV_0\] \[\frac{\sqrt{V_{MAS}(\hat{t}_{y\pi})}}{t_y}\leq CV_0\] De dónde:

\[n\geq \frac{n_0}{1+\frac{n_0}{N}}\] con \(n_0=\frac{CV^2_{y_u}}{CV^2_0}\)

Por lo tanto, a mayor variabilidad de la variable a estudiar, mayor tamaño de muestra requerido:

8.1.2 Ejemplo (Bautista, 1998)

Para estimar el total de hospitales de primer nivel en los 200 municipios más pequeños del país, se seleccionó una muestra de 50 de ellos, mediante un MAS(200,50). Se obtuvo lo siguiente:

Centros de salud 3 4 5 6 7 8 9 10 11 12 13 14 16
# de municipios 4 7 3 6 7 10 4 2 2 1 1 1 2

Luego, la estimación para el total está dada por:

\[\hat t_{y\pi}=\frac{200}{50}\sum_{s}y_k=4(3*4+4*7+...+14*1+16*2)=1476\] Por otro lado, la estimación de la varianza es:

\[\hat{V}_{MAS}(\hat{t}_{y\pi})=\frac{200^2}{50}\left(1-\frac{50}{200}\right)S^2_{y_s}=\frac{200^2}{50}\frac{150}{200}*9.9139=5948.33\] De tal forma que con un \(95\%\) de confiabilidad, se estima que el número total de hospitales de primer nivel en los 200 municipios, está entre:

\[\hat t_{y\pi}\mp 1.96\sqrt{\hat{V}_{MAS}(\hat{t}_{y\pi})} \] es decir entre \(1325\) y \(1627\).

8.1.3 Método de selección

El método de selección debe respetar el diseño muestral \(p(s)\). Uno de los algoritmos que respetan el diseño M.A.S. es el coordinado negativo, el cuál consiste en:

  1. Generar un número aleatorio (\(\zeta_k\)), para cada individuo de la población, a partir de una distribución uniforme continua (0,1), (\(\zeta_k\sim U(0,1)\)).

  2. Ordenar el marco muestral con respecto a \(\zeta_k\).

  3. Seleccionar los primeros \(n\) elementos del marco ordenado.

8.1.3.1 Ejemplo

  1. Supongamos que tenemos una población compuesta por 6 millones de habitantes (Bogotá) y que queremos seleccionar aleatoriamente una muestra de 1000 personas:
##               i         zeta
## 1606727 1606727 3.026798e-08
## 5588594 5588594 4.726462e-08
## 1321120 1321120 4.449394e-07
## 720338   720338 5.755574e-07
## 4266722 4266722 7.061753e-07
## 5499651 5499651 7.713679e-07
## [1] 1000    2

De forma más sencilla puede hacerse así:

## [1] 5155296 2484813 1133463 4482920 5369535 3929030
## [1] 1000
  1. Suponga que en la base de datos “linfoma.txt” se encuentran los datos de la muestra de 1000 personas de la ciudad de Bogotá, muestra seleccionada mediante un diseño MAS(6.000.000, 1000). En la base de datos encontrará la identificación de la persona (id) y si tiene o no linfoma no Hodgkin (y). Calcule el \(\pi\)-estimador para el número total de personas y para la prevalencia de linfoma no Hodgkin en Bogotá.
## [1] 72000
## [1] 1.2
## [1] 427172036
## [1] 593294.5
## [1] 31491.19
## [1] 112508.8
## [1] 0.5248531
## [1] 1.875147

Para hacer el calculo de la estimación del total y de la varianza, podríamos crear una función, así:

## $typi
## [1] 72000
## 
## $Vest
## [1] 427172036
## 
## $IC_inf
## [1] 31491.19
## 
## $IC_sup
## [1] 112508.8

Otra forma es hacerlo con una función previamente programada, como horvitzThompson, que se encuentra en la librería survey:

## $pop_total
## [1] 72000
## 
## $pop_mean
## [1] 0.012

8.2 Diseño Bernoulli

En este diseño se fija un valor \(0<\pi<1\), para cada individuo \(k\) en el universo se genera un número aleatorio \(\zeta_k\sim U(0,1)\), el individuo se incluye en la muestra si \(\zeta_k<\pi\).

Dadas las características del diseño, éste tiene un tamaño de muestra aleatorio \(n_s\).

8.2.1 Características

  1. \(p(s)=\pi^{n_s}(1-\pi)^{N-n_s}\)

  2. \(\pi_k=\pi\)

  3. \(\pi_{kl}=\pi^2\), para \(k\neq l\)

  4. \(\hat{t}_{y\pi}=\sum_{s}\frac{y_k}{\pi_k}=\sum_{s}\frac{y_k}{\pi}=\frac{1}{\pi}\sum_{s}{y_k}\)

  5. \(V_{BER}(\hat{t}_{y\pi})=\left(\frac{1}{\pi}-1\right)\sum_{U}y_k^2\)

  6. \(\hat{V}_{BER}(\hat{t}_{y\pi})=\frac{1}{\pi}\left(\frac{1}{\pi}-1\right)\sum_{s}y_k^2\)

  7. Dado que (BER, \(\hat{t}_{y\pi}\)) es una estrategia insesgada, para \(t_y=\sum_{U}y_k\), se garantiza que para un tamaño de muestra grande, la confiabilidad es muy cercana a la confiabilidad deseada (\(1-\alpha\))

  8. \(E(n_s)=\sum_U\pi_k=\sum_U\pi=N\pi\), \(V(n_s)=N\pi(1-\pi)\)

8.2.2 Método de selección

Consiste en:

1.Fijar un valor \(0<\pi<1\).

  1. Generar un número aleatorio \(\zeta_k\sim U(0,1)\).

  2. Seleccionar el individuo \(k\) si \(\zeta_k<\pi\).

8.2.3 Ejemplo

Supongamos que tenemos una población compuesta por 6 millones de habitantes (Bogotá) y que queremos seleccionar aleatoriamente una muestra a partir de un diseño \(Ber(0.1)\):

##     i        zeta
## 3   3 0.066628495
## 11 11 0.021601288
## 36 36 0.036497783
## 41 41 0.064787988
## 49 49 0.075544559
## 62 62 0.003706959
## [1] 600031      2

8.2.4 Ejercicio

Suponga que en la base de datos “linfoma.txt” se encuentran los datos de la muestra de 1000 personas de la ciudad de Bogotá, muestra seleccionada mediante un diseño Ber(0.001). En la base de datos encontrará la identificación de la persona (id) y si tiene o no linfoma no Hodgkin (y). Calcule el \(\pi\)-estimador para el número total de personas y para la prevalencia de linfoma no Hodgkin en Bogotá, de dos formas: a. Construyendo una función que permita obtener la estimación del total de personas con linfoma no Hodgkin en Bogotá, la estimación de la varianza y los límites del intervalo de confianza.

  1. Utilizando funciones predefinidas en R.

8.2.5 El efecto de diseño (deff)

El efecto de diseño de una estrategia compara la varianza de la estrategia a estudiar con la varianza de la estrategia \((M.A.S(N,n),\hat{t}_{y\pi})\). Para una estrategia con diseño \(p(.)\) con \(E_p(n_s)=n\) y estimador \(\hat t_y\), se define el efecto de diseño como:

\[deff(p,\hat t_y)=\frac{V_p(\hat t_y)}{V_{MAS}(\hat{t}_{y\pi})}\] Nota: El \(deff\) es un valor poblacional, por lo que en general se obtienen expresiones que permitan hacer el análisis, o en su defecto se utilizan estimaciones para llegar a valores puntuales.

8.2.5.1 \(deff(BER,\hat{t}_{y\pi})\)

Como se debe garantizar que \(E_{BER}(\hat{t}_{y\pi})=n\), entonces \(\pi=n/N\), así:

\[deff(BER,\hat{t}_{y\pi})=\frac{V_{BER}( \hat{t}_{y\pi})}{V_{MAS}(\hat{t}_{y\pi})}=\frac{\left(\frac{N}{n}-1\right)\sum_{U}y_k^2}{\frac{N^2}{n}\left(1-\frac{n}{N}\right)S^2_{y_U}}\] Como \(\sum_{U}y_k^2=(N-1)S^2_{y_U}+N\bar y^2\):

\[deff(BER,\hat{t}_{y\pi})=\frac{(N-1)S^2_{y_U}+N\bar y^2}{NS^2_{y_U}}=1-\frac{1}{N}+\frac{1}{CV_{y_U}^2 }\] Por lo tanto, entre más grande sea el coeficiente de variación de la variable, más cercana será la eficiencia de la estrategia \((BER,\hat{t}_{y\pi})\) a la de la estrategia \((M.A.S(N,n),\hat{t}_{y\pi})\):

8.2.6 Relación con el tamaño muestral

En general, buscamos una precisión determinada: \(V_p(\hat t_y)\leq V_0\), es decir, siendo \(deff=deff(p,\hat t_y)\):

\[deff V_{MAS}(\hat{t}_{y\pi})\leq V_0\] \[ \frac{N^2}{n}\left(1-\frac{n}{N}\right)S^2_{y_U}\leq\frac{V_0}{deff}\] \[n\geq \frac{deff*n_0}{1+deff\frac{n_0}{N}}\] con \(n_0=\frac{N^2S^2_{y_U}}{V0}\). Lo cuál es equivalente, en términos del coeficiente de variación a:

\[n\geq \frac{deff*n^*_0}{1+deff\frac{n^*_0}{N}}\]

con \(n^*_0=\frac{N^2CV^2_{y_U}}{CV^2_0}\).

9 Muestreo estratificado

  • El muestreo estratificado consiste en aplicar un diseño a cada uno de los estratos, de tal forma que permite tener en cuenta las diferencias entre dichos grupos poblacionales.

  • Se debe pensar en utilizar muestreo estratificado cuando hay grupos que presentan características muy diferentes, de tal forma que deben tratarse por separado.

  • Implica tener la información auxiliar para identificar a qué estrato pertenece cada elemento del universo.

  • En general resulta más costoso

9.1 Consideraciones

  • Se tiene una partición del universo \(U=\{ U_1,U_2,...,U_H\}\)
  • Para cada estrato \(U_h\), \(h=1,2,...,H\) se aplica en forma independiente una estrategia de muestreo \((p_h(s), \hat t_{yh})\)
  • El \(\pi\)-estimador del total en el universo es la suma de los estimadores de cada estrato:

\[\hat t_{y\pi}=\sum_s \hat t_{hy\pi}\]

9.2 Situaciones en las que se utiliza un diseño estratificado

A. Cuando el objetivo de estratificar es la estimación confiable de cada estrato (estrato=dominio):

-Se define una estrategia por estrato, de tal forma que se tiene un \(CV_h\) deseado para cada uno. -La estimación del total resulta mucho más precisa, pero el objetivo es el total de cada estrato.

B. Cuando el objetivo de estratificar es ganar eficiencia en la estimación del total (reducir la varianza para un costo dado).

C. Cuando el objetivo es tener estimaciones precisas tanto para los estratos como para el total.

10 Muestreo de conglomerados

  • En este tipo de muestreo las unidades de muestreo son los conglomerados.

  • Es útil cuando no se dispone del marco muestral de cada elemento.

10.1 Consideraciones

  • Se tiene una partición del universo (conglomerados) \(U=\{ U_1,U_2,...,U_{N_I}\}\)

  • De acuerdo a un diseño muestral \(p_I(.)\), se extrae una muestra probabilística de conglomerados (\(s_I\))

  • Todos los individuos de los conglomerados seleccionados quedarán incluídos en la muestra

  • Se busca que los conglomerados sean lo más heterogéneos posible

  • El \(\pi\)-estimador del total en el universo es:

\[\hat t_{y\pi}=\sum_{s_I} \frac{t_i}{\pi_{Ii}} \] donde \(\pi_{Ii}\) es la probabilidad de inclusión del \(i\)-ésimo conglomerado y \(t_i\) el total del \(i\)-ésimo conglomerado.

11 Muestreo multietápico

  • En el muestreo multietápico, en las primeras etapas se seleccionan conglomerados y en la última se seleccionan elementos dentro de los conglomerados seleccionados.

  • Se busca que los conglomerados sean lo más heterogéneos posible.

  • Ejemplo: Bietápico: En la primera etapa se seleccionan conglomerados y en la segunda se seleccionan elementos. En este caso, el \(\pi\)-estimador para el total estaría dado por:

\[\hat t_{y\pi}=\sum_{s_I} \frac{\hat t_i}{\pi_{Ii}} \] donde \(\hat t_i=\sum_{s} \frac{y_k}{\pi_{k|i}}\).

12 Bibliografía

  1. Särndal, C. E., Swensson, B., & Wretman, J. (2003). Model assisted survey sampling. Springer Science & Business Media.
  2. Bautista, L. (1998). Diseños de muestreo estadístico. Universidad Nacional de Colombia.