{r setup, include=FALSE} knitr::opts_chunk$set(echo = TRUE)
Es un método de muestreo probabilístico en el que la población se divide en grupos o “conglomerados” (clusters), que son heterogéneos internamente pero similares entre sí en cuanto a su composición general. En lugar de seleccionar individuos directamente de toda la población, se seleccionan aleatoriamente algunos conglomerados y luego se estudian todos los elementos dentro de esos conglomerados, o una muestra de ellos
El tamaño de muestra ajustado por el efecto de diseño se calcula como:
\[ n_{requerido} = n_{MAS} \times deff \]
donde el efecto de diseño se estima mediante:
\[ deff \approx 1 + (m - 1)\rho \]
{r cars} # Población estructurada en 50 conglomerados de tamaño fijo 20 (1000 unidades)
poblacion_cl <- data.frame( id = 1:1000, cluster = rep(sprintf(“G%02d”, 1:50), each = 20) )
n_MAS <- 200 m <- 20 rho <- 0.03 deff <- 1 + (m - 1) * rho n_req <- ceiling(n_MAS * deff) # tamaño efectivo requerido
G_seleccionar <- ceiling(n_req / m)
set.seed(2024) # reproducible clusters_sel <- sample(unique(poblacion_cl$cluster), size = G_seleccionar) muestra_cl_1etapa <- subset(poblacion_cl, cluster %in% clusters_sel)
table(muestra_cl_1etapa$cluster) nrow(muestra_cl_1etapa)
En este ejercicio se simuló una población compuesta por 50 conglomerados de tamaño fijo \(m = 20\), para un total de 1000 unidades. El objetivo era obtener una muestra equivalente, en precisión, a una muestra aleatoria simple (MAS) de tamaño \(n_{MAS} = 200\), pero seleccionando conglomerados completos en lugar de unidades individuales.
Debido a que las unidades dentro de un mismo conglomerado tienden a parecerse entre sí, se considera la correlación intra–conglomerado \(\rho = 0.03\), que mide la similitud interna entre las observaciones. Este valor influye en la varianza del estimador y se refleja en el efecto del diseño (deff), calculado mediante la expresión:
\[ \text{deff} = 1 + (m - 1)\rho = 1 + (20 - 1)(0.03) = 1.57 \]
El resultado indica que la varianza de las estimaciones aumenta en un 57 % respecto a la obtenida con una MAS del mismo tamaño. Para mantener la misma precisión, se incrementa el tamaño de la muestra de la siguiente forma:
\[ n_{req} = n_{MAS} \times \text{deff} = 200 \times 1.57 = 314 \]
Al redondear hacia arriba, se obtiene \(n_{req} = 320\). Dado que cada conglomerado tiene 20 unidades, el número de conglomerados que se deben seleccionar es:
\[ G_{\text{seleccionar}} = \frac{n_{req}}{m} = \frac{320}{20} = 16 \]
Por tanto, se seleccionan 16 conglomerados completos, los cuales aportan en conjunto \(16 \times 20 = 320\) unidades. Este tamaño de muestra permite alcanzar la misma precisión que una MAS de 200 unidades, compensando el efecto de la homogeneidad interna de los conglomerados.
En conclusion, el procedimiento corresponde a un muestreo por conglomerados de una etapa, donde se seleccionan algunos conglomerados al azar y se incluyen todas sus unidades. Aunque este método es menos eficiente estadísticamente que la MAS, resulta más práctico y económico cuando los elementos de la población están naturalmente agrupados.