{r setup, include=FALSE} knitr::opts_chunk$set(echo = TRUE)

Técnica de muestreo por conglomerado

Es un método de muestreo probabilístico en el que la población se divide en grupos o “conglomerados” (clusters), que son heterogéneos internamente pero similares entre sí en cuanto a su composición general. En lugar de seleccionar individuos directamente de toda la población, se seleccionan aleatoriamente algunos conglomerados y luego se estudian todos los elementos dentro de esos conglomerados, o una muestra de ellos

Fórmula

El tamaño de muestra ajustado por el efecto de diseño se calcula como:

\[ n_{requerido} = n_{MAS} \times deff \]

donde el efecto de diseño se estima mediante:

\[ deff \approx 1 + (m - 1)\rho \]

Definiciones de los términos

$n_{requerido}$: Tamaño de muestra final ajustado por el efecto de diseño.
$n_{MAS}$: Tamaño de muestra obtenido bajo un muestreo aleatorio simple (MAS).
$deff$: Efecto de diseño, que mide el aumento en la varianza debido al diseño muestral complejo.
$m$: Tamaño promedio del conglomerado (número de unidades por conglomerado).
$\rho$: Coeficiente de correlación intraclase (ICC), que refleja el grado de similitud entre unidades dentro del mismo conglomerado.

EJEMPLO

{r cars} # Población estructurada en 50 conglomerados de tamaño fijo 20 (1000 unidades)

poblacion_cl <- data.frame( id = 1:1000, cluster = rep(sprintf(“G%02d”, 1:50), each = 20) )

Supongamos que necesitamos n_MAS = 200 y sabemos m = 20, rho = 0.03

n_MAS <- 200 m <- 20 rho <- 0.03 deff <- 1 + (m - 1) * rho n_req <- ceiling(n_MAS * deff) # tamaño efectivo requerido

Número de conglomerados a seleccionar (1 etapa: tomar clusters completos)

G_seleccionar <- ceiling(n_req / m)

set.seed(2024) # reproducible clusters_sel <- sample(unique(poblacion_cl$cluster), size = G_seleccionar) muestra_cl_1etapa <- subset(poblacion_cl, cluster %in% clusters_sel)

table(muestra_cl_1etapa$cluster) nrow(muestra_cl_1etapa)

Análisis del ejemplo

En este ejercicio se simuló una población compuesta por 50 conglomerados de tamaño fijo $m = 20$, para un total de 1000 unidades. El objetivo era obtener una muestra equivalente, en precisión, a una muestra aleatoria simple (MAS) de tamaño $n_{MAS} = 200$, pero seleccionando conglomerados completos en lugar de unidades individuales.

Debido a que las unidades dentro de un mismo conglomerado tienden a parecerse entre sí, se considera la correlación intra–conglomerado $\rho = 0.03$, que mide la similitud interna entre las observaciones. Este valor influye en la varianza del estimador y se refleja en el efecto del diseño (deff), calculado mediante la expresión:

\[ \text{deff} = 1 + (m - 1)\rho = 1 + (20 - 1)(0.03) = 1.57 \]

El resultado indica que la varianza de las estimaciones aumenta en un 57 % respecto a la obtenida con una MAS del mismo tamaño. Para mantener la misma precisión, se incrementa el tamaño de la muestra de la siguiente forma:

\[ n_{req} = n_{MAS} \times \text{deff} = 200 \times 1.57 = 314 \]

Al redondear hacia arriba, se obtiene $n_{req} = 320$. Dado que cada conglomerado tiene 20 unidades, el número de conglomerados que se deben seleccionar es:

\[ G_{\text{seleccionar}} = \frac{n_{req}}{m} = \frac{320}{20} = 16 \]

Por tanto, se seleccionan 16 conglomerados completos, los cuales aportan en conjunto $16 \times 20 = 320$ unidades. Este tamaño de muestra permite alcanzar la misma precisión que una MAS de 200 unidades, compensando el efecto de la homogeneidad interna de los conglomerados.

En conclusion, el procedimiento corresponde a un muestreo por conglomerados de una etapa, donde se seleccionan algunos conglomerados al azar y se incluyen todas sus unidades. Aunque este método es menos eficiente estadísticamente que la MAS, resulta más práctico y económico cuando los elementos de la población están naturalmente agrupados.

Tecnicas de Muestreo por Conglomerado

Steven Medina - Francisco Galeano - Nina Sanchez - Bibiana Barrios

2025-11-08