MUESTREO ALEATORIO DE CONGLOMERADOS

1.Definición:

El muestreo por conglomerados es una técnica de la estadística inferencial que divide la población en grupos heterogéneos, como regiones o países. Cada grupo comparte una clasificación común, asegurando homogeneidad interna. Conocido también como muestreo por racimos, cúmulos o áreas, se utiliza cuando la población está naturalmente dividida en conglomerados, siendo útil para estudiar datos en grandes extensiones geográficas y cuando la información está dispersa en diferentes grupos. Este método permite reducir costos en investigaciones con recursos limitados. La técnica implica analizar completamente algunos conglomerados, descartando los demás, y se aplica comúnmente a zonas geográficas.

Mayor información en los siguientes enlaces:

2. Pasos para realizar un muestreo por conglomerados:

Definir la población
Dividir la población en conglomerados
Seleccionar los conglomerados
Seleccionar los elementos dentro de los conglomerados
Establecer el tamaño de la muestra
Realizar la recolección de datos
Analizar los datos

3. ¿Cuándo utilizar muestreo por conglomerados?

La población se encuentra dividida, naturalmente, en conglomerados heterogéneos. Por esta razón, este método es implementado para estudiar los datos de grandes extensiones geográficas.
La información de la población se encuentra dispersa en diferentes grupos, por lo que se hace necesario abarcar varios de ellos para realizar una investigación con resultados precisos.
Investigaciones donde se requiere abarcar grandes poblaciones y representarlas en una muestra.
En cualquiera de los anteriores casos, el muestreo por conglomerados permite reducir los costos, por lo que es una excelente técnica para grupos de investigaciones que no disponen de un gran capital.

4. Caracteristicas:

El muestreo por conglomerados permite seleccionar, antes que unidades elementales, grupos de ellas.
En situaciones de la vida real, los conglomerados se construyen de unidades que están físicamente cercanas.
La selección de los conglomerados, representa una técnica fácil y redunda en un costo menor, sin embargo, la eficiencia puede tener limitaciones porque la varianza de los estimadores en el MCON es generalmente mucho mayor que en el MAS o MEA, debido a que la similitud entre unidades de un mismo conglomerado puede incrementar sustancialmente el error de estimación, ya que la mayoría de información recolectada sería”redundante”.
Para realizar MCON, se debe considerar que los conglomerados estén bien definidos, de manera que todo elemento de la población pertenezca a uno y solo un conglomerado.
Es necesario que exista una estimación razonable acerca del número de elementos de cada conglomerado.
Los conglomerados deben ser suficientemente pequeños para que sea posible algún ahorro en los costos.
Los conglomerados deben escogerse de manera que se minimice el incremento en el error de muestreo debido al agrupamiento.
Los conglomerados no tienen que definirse idénticamente para toda la población.

Ejemplo 1:

Se quiere analizar la población que conforma la fauna del Amazonas, territorio comprendido entre 9 países:

Brasil.
Colombia.
Perú.
Bolivia.
Surinam.
Venezuela.
Ecuador.
Guyana.
Guayana Francesa.

Estos países, por lo tanto, conforman los conglomerados del estudio.

Unietapico: Estudio de la fauna basado en las provincias nacionales que ocupan el territorio amazónico:

Se estima el tamaño de la muestra: este dato equivale a 5 conglomerados.

Seleccionar los conglomerados: los investigadores encargados del estudio deben seleccionar, aleatoriamente, 5 países para la muestra. Para ello, utilizan algunos de los métodos proporcionados por el muestreo aleatorio simple, como el sorteo y la asignación de números aleatorios para cada nación.

Posteriormente, se seleccionan los grupos mediante un ordenamiento. En este caso, se escogen aquellos primeros cinco países que fueron asignados con los números aleatorios más pequeños:

# Definir los datos
pais <- c("Colombia", "Surinam", "Guyana", "Brasil", "Peru", "Guyana Francesa", "Venezuela", "Ecuador", "Bolivia")
numero <- c(1, 2, 3, 4, 5, 6, 7, 8, 9)

# Crear el data frame
mi_tabla <- data.frame(Pais = pais, Numero = numero)

# Mostrar la tabla
print(mi_tabla)

##              Pais Numero
## 1        Colombia      1
## 2         Surinam      2
## 3          Guyana      3
## 4          Brasil      4
## 5            Peru      5
## 6 Guyana Francesa      6
## 7       Venezuela      7
## 8         Ecuador      8
## 9         Bolivia      9

De esta manera, las provincias que serán tomadas en cuenta para la investigación hacen parte de Colombia, Surinam, Guyana, Brasil y Perú. Luego, se pueden seleccionar las diferentes especies ubicadas en cada provincia mediante un muestreo estratificado, donde cada especie es un estrato, o simplemente abarcar toda la población.

Multietapico:

Siguiendo el anterior ejemplo, los investigadores pueden perfeccionar los resultados del estudio agregando más etapas de selección al análisis de muestreo por conglomerados. En este caso, los países seleccionados previamente cuentan con ciertas provincias (más pobladas) que ocupan el territorio amazónico, a saber:

Colombia: Caquetá. Surinam: Paramaribo. Guyana: Demerara-Mahaica. Brasil: Amazonas. Pará. Maranhao. Rondonia. Amapá. Acre. Roraima. Tocantins. Perú: Loreto. Ucayali. San Martín. Madre de Dios.

Como se puede observar, los primeros tres países solo cuentan con una provincia que puede ser considerada como de mayor población respecto a las demás, y por lo tanto, serán seleccionados de igual manera. Sin embargo, Brasil y Perú cuentan con más elementos. Para escoger solo algunos de los estados se puede aplicar un muestreo estratificado:

Los investigadores optan por aplicar un muestreo estratificado de afijación proporcional, de manera que todos los conglomerados cuenten con la misma representación en la muestra final. Esta muestra debe contener 9 elementos de la población.

# Definir los datos
pais <- c("Colombia", "Surinam", "Guyana", "Brasil", "Peru")
provincias <- c(1, 1, 1, 8, 4)
porcentaje <- c("7%", "7%", "7%", "52%", "27%")
no_provincias <- c(1, 1, 1, 5, 2)

# Crear el data frame
mi_tabla <- data.frame(Pais = pais, Provincias = provincias, Porcentaje = porcentaje, No_Provincias = no_provincias)

# Mostrar la tabla
print(mi_tabla)

##       Pais Provincias Porcentaje No_Provincias
## 1 Colombia          1         7%             1
## 2  Surinam          1         7%             1
## 3   Guyana          1         7%             1
## 4   Brasil          8        52%             5
## 5     Peru          4        27%             2

En resumen, para realizar este paso se debe aplicar la fórmula: (número de elementos del conglomerado / total de elementos de la población) x n. donde n es el tamaño de la muestra.

Ahora, los investigadores pueden aplicar nuevamente un muestreo aleatorio simple para seleccionar los elementos de cada conglomerado, como se hizo en la primera etapa. Se debe asegurar que cada conglomerado cuente con al menos un elemento dentro de la muestra.

Ejemplo 2: Muestreo por conglomerados en R

Supongamos que una empresa que ofrece visitas guiadas por la ciudad desea realizar una encuesta entre sus clientes. De los diez tours que dan un día, seleccionan aleatoriamente cuatro tours y piden a cada cliente que valore su experiencia en una escala de 1 a 10.

El siguiente código muestra cómo crear un marco de datos de ejemplo en R para trabajar con él:

#Hacer este ejemplo reproducible
set.seed(1)
#Esta línea asegura la reproducibilidad de los números aleatorios. Al establecer la semilla en 1, cualquier proceso aleatorio en el código producirá los mismos resultados cada vez que se ejecute.
#crear marco de datos

df <- data.frame(tour = rep(1:10, each=20),
                 experience = rnorm(200, mean=7, sd=1))

#Esto crea un marco de datos llamado df con dos columnas: "tour" y " experience". La columna "tour" repite los números del 1 al 10, cada uno 20 veces, y la columna "experience" se rellena con 200 números aleatorios generados a partir de una distribución normal con media 7 y desviación típica 1

#visualizar las seis primeras filas del marco de datos
head(df)

##   tour experience
## 1    1   6.373546
## 2    1   7.183643
## 3    1   6.164371
## 4    1   8.595281
## 5    1   7.329508
## 6    1   6.179532

Y el siguiente código muestra cómo obtener una muestra de clientes seleccionando aleatoriamente cuatro recorridos e incluyendo a todos los miembros de esos recorridos en la muestra:

#Elige al azar 4 grupos turísticos de los 10
clusters <- sample(unique(df$tour), size=4, replace=F)

#definir muestra como todos los miembros que pertenecen a uno de los 4 grupos de viaje
cluster_sample <- df[df$tour %in% clusters, ]

#ver cuántos clientes proceden de cada tour
table(cluster_sample$tour)

## 
##  1  2  3  7 
## 20 20 20 20

De la salida podemos ver que

Se incluyeron en la muestra 20 clientes del grupo de visitas nº 1.
Se incluyeron en la muestra 20 clientes del grupo de visitas nº 2.
Se han incluido en la muestra 20 clientes del grupo de visitas nº 3.
Se han incluido en la muestra 20 clientes del grupo de visitas nº 7.

Así pues, la muestra está compuesta por un total de 80 clientes procedentes de 4 grupos turísticos diferentes.

Enlace: https://www.statology.org/cluster-sampling-r/

Muestreo aleatorio de conglomerados

Daniela, Dicleny, Ricardo

2023-11-11