El muestreo por conglomerados es una técnica de la estadística inferencial que divide la población en grupos heterogéneos, como regiones o países. Cada grupo comparte una clasificación común, asegurando homogeneidad interna. Conocido también como muestreo por racimos, cúmulos o áreas, se utiliza cuando la población está naturalmente dividida en conglomerados, siendo útil para estudiar datos en grandes extensiones geográficas y cuando la información está dispersa en diferentes grupos. Este método permite reducir costos en investigaciones con recursos limitados. La técnica implica analizar completamente algunos conglomerados, descartando los demás, y se aplica comúnmente a zonas geográficas.
Mayor información en los siguientes enlaces:
Se quiere analizar la población que conforma la fauna del Amazonas, territorio comprendido entre 9 países:
Estos países, por lo tanto, conforman los conglomerados del estudio.
Unietapico: Estudio de la fauna basado en las provincias nacionales que ocupan el territorio amazónico:
Se estima el tamaño de la muestra: este dato equivale a 5 conglomerados.
Seleccionar los conglomerados: los investigadores encargados del estudio deben seleccionar, aleatoriamente, 5 países para la muestra. Para ello, utilizan algunos de los métodos proporcionados por el muestreo aleatorio simple, como el sorteo y la asignación de números aleatorios para cada nación.
Posteriormente, se seleccionan los grupos mediante un ordenamiento. En este caso, se escogen aquellos primeros cinco países que fueron asignados con los números aleatorios más pequeños:
# Definir los datos
pais <- c("Colombia", "Surinam", "Guyana", "Brasil", "Peru", "Guyana Francesa", "Venezuela", "Ecuador", "Bolivia")
numero <- c(1, 2, 3, 4, 5, 6, 7, 8, 9)
# Crear el data frame
mi_tabla <- data.frame(Pais = pais, Numero = numero)
# Mostrar la tabla
print(mi_tabla)
## Pais Numero
## 1 Colombia 1
## 2 Surinam 2
## 3 Guyana 3
## 4 Brasil 4
## 5 Peru 5
## 6 Guyana Francesa 6
## 7 Venezuela 7
## 8 Ecuador 8
## 9 Bolivia 9
De esta manera, las provincias que serán tomadas en cuenta para la investigación hacen parte de Colombia, Surinam, Guyana, Brasil y Perú. Luego, se pueden seleccionar las diferentes especies ubicadas en cada provincia mediante un muestreo estratificado, donde cada especie es un estrato, o simplemente abarcar toda la población.
Multietapico:
Siguiendo el anterior ejemplo, los investigadores pueden perfeccionar los resultados del estudio agregando más etapas de selección al análisis de muestreo por conglomerados. En este caso, los países seleccionados previamente cuentan con ciertas provincias (más pobladas) que ocupan el territorio amazónico, a saber:
Colombia: Caquetá. Surinam: Paramaribo. Guyana: Demerara-Mahaica. Brasil: Amazonas. Pará. Maranhao. Rondonia. Amapá. Acre. Roraima. Tocantins. Perú: Loreto. Ucayali. San Martín. Madre de Dios.
Como se puede observar, los primeros tres países solo cuentan con una provincia que puede ser considerada como de mayor población respecto a las demás, y por lo tanto, serán seleccionados de igual manera. Sin embargo, Brasil y Perú cuentan con más elementos. Para escoger solo algunos de los estados se puede aplicar un muestreo estratificado:
Los investigadores optan por aplicar un muestreo estratificado de afijación proporcional, de manera que todos los conglomerados cuenten con la misma representación en la muestra final. Esta muestra debe contener 9 elementos de la población.
# Definir los datos
pais <- c("Colombia", "Surinam", "Guyana", "Brasil", "Peru")
provincias <- c(1, 1, 1, 8, 4)
porcentaje <- c("7%", "7%", "7%", "52%", "27%")
no_provincias <- c(1, 1, 1, 5, 2)
# Crear el data frame
mi_tabla <- data.frame(Pais = pais, Provincias = provincias, Porcentaje = porcentaje, No_Provincias = no_provincias)
# Mostrar la tabla
print(mi_tabla)
## Pais Provincias Porcentaje No_Provincias
## 1 Colombia 1 7% 1
## 2 Surinam 1 7% 1
## 3 Guyana 1 7% 1
## 4 Brasil 8 52% 5
## 5 Peru 4 27% 2
En resumen, para realizar este paso se debe aplicar la fórmula: (número de elementos del conglomerado / total de elementos de la población) x n. donde n es el tamaño de la muestra.
Ahora, los investigadores pueden aplicar nuevamente un muestreo aleatorio simple para seleccionar los elementos de cada conglomerado, como se hizo en la primera etapa. Se debe asegurar que cada conglomerado cuente con al menos un elemento dentro de la muestra.
Supongamos que una empresa que ofrece visitas guiadas por la ciudad desea realizar una encuesta entre sus clientes. De los diez tours que dan un día, seleccionan aleatoriamente cuatro tours y piden a cada cliente que valore su experiencia en una escala de 1 a 10.
El siguiente código muestra cómo crear un marco de datos de ejemplo en R para trabajar con él:
#Hacer este ejemplo reproducible
set.seed(1)
#Esta línea asegura la reproducibilidad de los números aleatorios. Al establecer la semilla en 1, cualquier proceso aleatorio en el código producirá los mismos resultados cada vez que se ejecute.
#crear marco de datos
df <- data.frame(tour = rep(1:10, each=20),
experience = rnorm(200, mean=7, sd=1))
#Esto crea un marco de datos llamado df con dos columnas: "tour" y " experience". La columna "tour" repite los números del 1 al 10, cada uno 20 veces, y la columna "experience" se rellena con 200 números aleatorios generados a partir de una distribución normal con media 7 y desviación típica 1
#visualizar las seis primeras filas del marco de datos
head(df)
## tour experience
## 1 1 6.373546
## 2 1 7.183643
## 3 1 6.164371
## 4 1 8.595281
## 5 1 7.329508
## 6 1 6.179532
Y el siguiente código muestra cómo obtener una muestra de clientes seleccionando aleatoriamente cuatro recorridos e incluyendo a todos los miembros de esos recorridos en la muestra:
#Elige al azar 4 grupos turísticos de los 10
clusters <- sample(unique(df$tour), size=4, replace=F)
#definir muestra como todos los miembros que pertenecen a uno de los 4 grupos de viaje
cluster_sample <- df[df$tour %in% clusters, ]
#ver cuántos clientes proceden de cada tour
table(cluster_sample$tour)
##
## 1 2 3 7
## 20 20 20 20
De la salida podemos ver que
Así pues, la muestra está compuesta por un total de 80 clientes procedentes de 4 grupos turísticos diferentes.