Técnica de muestreo por conglomerado

Es un método de muestreo probabilístico en el que la población se divide en grupos o “conglomerados” (clusters), que son heterogéneos internamente pero similares entre sí en cuanto a su composición general. En lugar de seleccionar individuos directamente de toda la población, se seleccionan aleatoriamente algunos conglomerados y luego se estudian todos los elementos dentro de esos conglomerados, o una muestra de ellos

Fórmula

El tamaño de muestra ajustado por el efecto de diseño se calcula como:

\[ n_{requerido} = n_{MAS} \times deff \]

donde el efecto de diseño se estima mediante:

\[ deff \approx 1 + (m - 1)\rho \]

Definiciones de los términos

  • \(n_{requerido}\): Tamaño de muestra final ajustado por el efecto de diseño.
  • \(n_{MAS}\): Tamaño de muestra obtenido bajo un muestreo aleatorio simple (MAS).
  • \(deff\): Efecto de diseño, que mide el aumento en la varianza debido al diseño muestral complejo.
  • \(m\): Tamaño promedio del conglomerado (número de unidades por conglomerado).
  • \(\rho\): Coeficiente de correlación intraclase (ICC), que refleja el grado de similitud entre unidades dentro del mismo conglomerado.

EJEMPLO

  # Población estructurada en 50 conglomerados de tamaño fijo 20 (1000 unidades)

poblacion_cl <- data.frame(
id = 1:1000,
cluster = rep(sprintf("G%02d", 1:50), each = 20)
)

# Supongamos que necesitamos n_MAS = 200 y sabemos m = 20, rho = 0.03

n_MAS <- 200
m <- 20
rho <- 0.03
deff <- 1 + (m - 1) * rho
n_req <- ceiling(n_MAS * deff)           # tamaño efectivo requerido

# Número de conglomerados a seleccionar (1 etapa: tomar clusters completos)

G_seleccionar <- ceiling(n_req / m)

set.seed(2024)  # reproducible
clusters_sel <- sample(unique(poblacion_cl$cluster), size = G_seleccionar)
muestra_cl_1etapa <- subset(poblacion_cl, cluster %in% clusters_sel)

table(muestra_cl_1etapa$cluster)
## 
## G02 G11 G14 G16 G17 G26 G29 G32 G34 G36 G37 G41 G42 G43 G45 G48 
##  20  20  20  20  20  20  20  20  20  20  20  20  20  20  20  20
nrow(muestra_cl_1etapa)
## [1] 320

Análisis del ejemplo

En este ejercicio se simuló una población compuesta por 50 conglomerados de tamaño fijo \(m = 20\), para un total de 1000 unidades. El objetivo era obtener una muestra equivalente, en precisión, a una muestra aleatoria simple (MAS) de tamaño \(n_{MAS} = 200\), pero seleccionando conglomerados completos en lugar de unidades individuales.

Debido a que las unidades dentro de un mismo conglomerado tienden a parecerse entre sí, se considera la correlación intra–conglomerado \(\rho = 0.03\), que mide la similitud interna entre las observaciones. Este valor influye en la varianza del estimador y se refleja en el efecto del diseño (deff), calculado mediante la expresión:

\[ \text{deff} = 1 + (m - 1)\rho = 1 + (20 - 1)(0.03) = 1.57 \]

El resultado indica que la varianza de las estimaciones aumenta en un 57 % respecto a la obtenida con una MAS del mismo tamaño. Para mantener la misma precisión, se incrementa el tamaño de la muestra de la siguiente forma:

\[ n_{req} = n_{MAS} \times \text{deff} = 200 \times 1.57 = 314 \]

Al redondear hacia arriba, se obtiene \(n_{req} = 320\). Dado que cada conglomerado tiene 20 unidades, el número de conglomerados que se deben seleccionar es:

\[ G_{\text{seleccionar}} = \frac{n_{req}}{m} = \frac{320}{20} = 16 \]

Por tanto, se seleccionan 16 conglomerados completos, los cuales aportan en conjunto \(16 \times 20 = 320\) unidades. Este tamaño de muestra permite alcanzar la misma precisión que una MAS de 200 unidades, compensando el efecto de la homogeneidad interna de los conglomerados.

En conclusión, el procedimiento corresponde a un muestreo por conglomerados de una etapa, donde se seleccionan algunos conglomerados al azar y se incluyen todas sus unidades. Aunque este método es menos eficiente estadísticamente que la MAS, resulta más práctico y económico cuando los elementos de la población están naturalmente agrupados.