MUESTREO POR CONGLOMERADOS

DEFINICIÓN

Una muestra por conglomerados es una muestra aleatoria en la que cada unidad de muestreo es un conjunto, o conglomerado de elementos

Ejemplo de comparación gráfica de Muestreo por conglomerado y Muestreo aleatorio simple

escuelas<-read.csv("escuelas-guatemala-2020.csv")
escuelas %>% head() %>% kable()
No Codigo Departamen Municipio Latitud Longitud Nombre.Establecimiento Direccion
1 16-01-0249-43 ALTA VERAPAZ COBAN 15.76896 -90.80631 EORM COMUNIDAD CHUMILA IXILA II
2 16-01-0364-43 ALTA VERAPAZ COBAN 15.74527 -90.80307 EORM COMUNIDAD CHUMILA IXILA I
3 16-01-0592-43 ALTA VERAPAZ COBAN 15.73759 -90.78134 EOUV NO. 2 SALVADOR DE OLIVA 5A. CALLE 2-80 ZONA 3
4 16-01-0254-43 ALTA VERAPAZ COBAN 15.69186 -90.77888 EORM COMUNIDAD LA LIBERTAD XALA-ROCJA
5 16-01-0622-41 ALTA VERAPAZ COBAN 15.69186 -90.77888 COPB ANEXO A EORM COMUNIDAD CHUMILA IXILA II
6 16-01-0369-43 ALTA VERAPAZ COBAN 15.70181 -90.77606 EORM CASERIO SAPENS
muni<-sample(levels(escuelas$Municipio),30) # Muestreo de UPM

escuelas %>% 
  filter(Municipio %in% muni )->muestra_clus
escuelas %>% 
  slice_sample(n=nrow(muestra_clus))->muestra_mas

require(leaflet)     # librería  para mapas
mapa1<-muestra_mas %>% 
  leaflet() %>% 
  addTiles() %>% 
  addCircles(lng=~Longitud,lat = ~Latitud,
                   popup = ~Direccion) 

library(leaflet)
mapa2<-muestra_clus %>% 
  leaflet() %>% 
  addTiles() %>% 
  addCircles(lng=~Longitud,lat = ~Latitud,
                   popup = ~Direccion) 
mapa1
mapa2

Para explicarlo, suponga que deseamos estimar el ingreso medio por hogar en una gran ciudad. ¿Cómo debemos seleccionar la muestra? Si usamos muestreo irrestricto aleatorio, se requiere un marco que liste todos los hogares (elementos en la ciudad, y este marco puede ser muy costoso o imposible de obtener. No podemos evitar este problema al utilizar muestreo aleatorio estratificado porque incluso se requiere un marco para cada estrato de la población. En lugar de extraer una muestra aleatoria simple de elementos, podríamos dividir la ciudad en secciones tales como manzanas (o conglomerados de elementos) y seleccionar una muestra aleatoria simple de ellas. Esta tarea se realiza con facilidad mediante el uso de un marco que liste todas las manzanas de la unidad. Entonces se podría medir el ingreso de cada familia dentro de cada manzana muestreada.

Para ilustrar el segundo principio de la aplicación de muestreo por conglomerados, suponga que se cuenta con una lista de hogares de la ciudad. Podríamos seleccionar una muestra aleatoria simple de hogares, la cual probablemente estará dispersa en toda la ciudad. El coste para realizar entrevistas en los hogares dispersos va a ser grande debido al tiempo de transporte de los entrevistadores y otros gastos relacionados. El muestreo aleatorio estratificado podría reducir estos gastos, pero el uso de muestreo por conglomerados es un método más eficaz para reducir los gastos de transporte. Los elementos dentro de un conglomerado deben estar geográficamente cerca uno de otro, y entonces los gastos de transporte se reducen. Obviamente el transporte dentro de un bloque de la ciudad sería mínimo, si se comparara con el transporte asociado al muestreo aleatorio simple dentro de la ciudad. Para resumir, el muestreo por conglomerados es un diseño eficaz para obtener una cantidad especificada de información con coste mínimo, bajo las siguientes condiciones:

  1. No se encuentra disponible o es muy costoso obtener un buen marco que liste loselementos de la población, mientras que se puede lograr fácilmente un marco que liste los conglomerados.
  2. El costo para obtener observaciones se incrementa con la distancia que separa los elementos.

SELECCIÓN DE ELEMENTOS DE LA MUESTRA

La primera tarea en muestreo por conglomerados es especificar los conglomerados apropiados. Los elementos dentro de un conglomerado están con frecuencia juntos físicamente, por lo que tienden a presentar características similares. Dicho de otra manera, la medida de un elemento del conglomerado puede estar altamente correlacionada con la de otro elemento. Entonces la cantidad de información acerca de un parámetro poblacional puede no incrementarse sustancialmente al tomar nuevas medidas dentro de un conglomerado. Como las mediciones cuestan dinero, un investigador podría desperdiciar presupuesto si selecciona un conglomerado de gran tamaño. Sin embargo, pueden ocurrir situaciones en las que los elementos dentro de un conglomerado sean muy diferentes entre sí. En tales casos, una muestra que contenga pocos conglomerados grandes, puede producir una estimación muy buena de un parámetro-poblacional, tal como la media.

El problema de elegir un tamaño apropiado del conglomerado puede ser aún más complicado cuando se dispone de un número infinito de posibles tamaños de conglomerados, como en la selección de parcelas forestales para la estimación de la proporción de árboles enfermos. Si existe variabilidad en la densidad de árboles enfermos a lo largo y ancho del bosque, entonces muchas parcelas (conglomerados) pequeñas, localizadas aleatoria o sistemáticamente, pueden ser lo deseable. Aunque la localización aleatoria de una parcela en el bosque consume mucho tiempo, una vez localizada ésta, el muestreo de muchos árboles es económicamente idóneo. En este caso muchas parcelas pequeñas son adecuadas para controlar la variabilidad, pero pocas parcelas grandes son económicamente recomendables. Se debe encontrar un equilibrio entre el número y tamaño de las parcelas. No existen buenas reglas que funcionen siempre para tomar esta decisión. Cada problema debe ser estudiado de forma independiente: pero las encuestas piloto pueden ayudar al investigador a encontrar las directrices a seguir. Tenga en cuenta cuál es la principal diferencia entre la construcción óptima de estratos y la construcción de los conglomerados. Los estratos deben ser tan homogéneos (semejantes) entre ellos, como sea posible, pero un estrato debe diferir tanto como sea posible de otro con respecto a la característica que se está midiendo. Los conglomerados, por otro lado, deben ser tan heterogéneos (diferentes) entre ellos como sea posible, y un conglomerado debe ser muy similar a otro para poder aprovechar las ventajas económicas del muestreo por conglomerados.

ESTIMACIONES

El muestreo por conglomerados es muestreo aleatorio simple, con cada unidad de muestreo conteniendo un número de elementos. Por tanto, los estimadores de la media poblacional \(\mu\) y el total \(\tau\), son similares a los del muestreo aleatorio simple. En particular, la media muestral y es un buen estimador de la media poblacional \(\mu\).

Tome en cuenta lo siguiente:

  • N número de conglomerados de la población.
  • n número de conglomerados seleccionados.
  • \(m_i\) número de elementos del conglomerado i
  • \(\overline{m}=1/n\sum_{i=1}^{n}{m_i}\) tamaño medio del conglomerado en la muestra
  • \(M=\sum_{i=1}^{N}{mi}\) Número de elementos de la población.
  • \(\overline{M}=M/N\) Tamaño medio de los conglomerados
  • \(y_i\) Total de las observaciones en el i-ésimo conglomerado.
Media Proporción Total1 Total2
\({\overline y}=\frac{\sum_{i=1}^{n}y_i}{\sum_{i=1}^{n}{m_i}}\) \(\widehat{p}=\frac{\sum_{i=1}^{n}a_i}{\sum_{i=1}^{n}{m_i}}\) \(\widehat\tau=M\widehat{y}\) \(Ny_t=N/n\sum_{i=1}^{n}y_i\)

Varianzas de las estimaciones:

Media Proporción Total1 Total2
\(\widehat{V}(\overline y)=\frac{N-n}{Nn\overline{M}^2}{s_r^2}\) \(\widehat{V}(\overline p)\frac{N-n}{Nn\overline{M}^2}{s_p^2}\) \(\widehat{V}(\overline \tau)=M^2\widehat{V}(\overline y)=N ²\frac{N-n}{Nn}s_r^2\) \(\widehat{V}(\overline \tau)=N ²\frac{N-n}{Nn}s_t^2\)

con:

Media y total Proporción Total2 Total2
\(s_r^2=\frac{\sum_{i=1}^{n}(y_i-\overline{y}m_i)^2}{n-1}\) \(s_p^2=\frac{\sum_{i=1}^{n}(a_i-\overline{a}m_i)^2}{n-1}\) \(s_t^2=\frac{\sum_{i=1}^{n}(y_i-y_t)^2}{n-1}\) \(y_t=1/n\sum_{i=1}^{n}{y_i}\)

EJEMPLO

Seleccione una muestra aleatoria de 10 conglomerados para la variable Zone del conjunto de datos BigLucy, Posteriormente Realice una inferencia para la media Income, total de Employees y proporción de SPAM == si. utilizando su muestra.

library(TeachingSampling)
data("BigLucy")
set.seed(1234)
conglomerados<-sample(levels(BigLucy$Zone),10)
muestra<-BigLucy %>% 
  filter(Zone%in% conglomerados)
N<-length(levels(BigLucy$Zone))
M<-nrow(BigLucy)
n<-length(conglomerados)
muestra %>% 
  group_by(Zone) %>% 
  summarise(mi=n(),Ii=sum(Income),Ei=sum(Employees),
            ai=sum(SPAM=="yes"))->resumen
attach(resumen)
Mp=M/N            # tamaño promedio del conglomerado
Mp1=sum(mi)/10    # tamaño promedio estimado
mu_I=sum(Ii)/sum(mi)   # media del ingreso
error_m=sqrt((N-n)/(N*n*Mp1^2)*sum((Ii-mu_I*mi)^2)/(n-1)) #Error i
media<-c(v=mu_I,ee=error_m)

t_E<-N/n*sum(Ei)
mu_E=1/n*sum(Ei)    # media de número de empleados
error_t=N*sqrt((N-n)/(N*n)*sum((Ei-mu_E)^2)/(n-1)) #error t_e
total<-c(v=t_E,ee=error_t)

p_s=sum(ai)/sum(mi)    # proporción de Spam = yes
error_p=sqrt((N-n)/(N*n*Mp1^2)*sum((ai-p_s*mi)^2)/(n-1))
proporcion<-c(v=p_s,ee=error_p)

estimacion1<-cbind(media,total,proporcion)
estimacion1
##        media   total  proporcion
## v  434.72188 6869120 0.614344339
## ee  30.22362 1199281 0.003208072
g1<-ggplot(resumen,aes(mi,Ii))+
  geom_point()+
  geom_smooth(method="lm")

g2<-ggplot(resumen,aes(mi,Ei))+
  geom_point()+
  geom_smooth(method="lm")

g3<-ggplot(resumen,aes(mi,ai))+
  geom_point()+
  geom_smooth(method="lm")

g1

g2

g3

Como se puede observar existe una correlación positiva entre el tamaño del conglomerado y las tres variables a medir, condición necesaria para que la técnica de estimación de razón funcione bien (La estimación por conglomerados es prácticamente estimación de razones).

EJEMPLO CON LIBRERÍA SURVEY

Calcule las estimaciones anteriores utilizando el paquete Survey

require(survey)
muestra$fpc=100               # Tamaño de conglomerados
muestra$prob=0.1              # Probabilidad de inclusión

svydesign(data=muestra,
          ids=~Zone,
          fpc=~fpc,
          probs = ~prob)->d3        # Con corrección de pob

svymean(x=~Income,d3)->media2      # Media
svytotal(x=~Employees,d3)->total2  # Total
svymean(x=~SPAM,d3) ->proporcion2  # Proporción 
c(coef(media2),coef(total2),coef(proporcion2))->v
c(cv(media2),cv(total2),cv(proporcion2))*v->error
rbind(v,error)[,c(1,2,4)]
##          Income Employees     SPAMyes
## v     434.72188   6869120 0.614344339
## error  30.22362   1199281 0.003208072
estimacion1        # Comparación con cálculos  manuales
##        media   total  proporcion
## v  434.72188 6869120 0.614344339
## ee  30.22362 1199281 0.003208072

EJEMPLO CON MUESTREO CON LIBRERÍA SAMPLING

Tome una muestra de 3 conglomerados(Zona) de Biglucy y realice:

  • Una estimación para la para la proporción de empresas que tienen certificación ISO.
  • Una inferencia para la razón income/taxes.
library(survey)
library(sampling)
set.seed(1234)
cluster(BigLucy[order(BigLucy$Zone),],
        clustername = "Zone",
        size = 3,
        method = "srswor")->m
getdata(BigLucy,m)->muestra2

muestra2$fpc=100      #  Número de Conglomerados
svydesign(ids=~Zone,
          probs = ~Prob,
          fpc = ~fpc,
          data=muestra2)->d_clus1
svymean(~ISO,d_clus1) %>% 
  data.frame()->tabla
tabla$ISO=rownames(tabla)
  
  ggplot(tabla,aes(x=ISO,
                   y=mean,ymin=mean-SE,
                   ymax=mean+SE,
                   ymin=mean-SE,
                   fill=ISO))+
    geom_col()+
    geom_errorbar()+ggtitle("Empresas con certificación ISO")

svyratio(~Income,~Taxes,design=d_clus1)
## Ratio estimator: svyratio.survey.design2(~Income, ~Taxes, design = d_clus1)
## Ratios=
##           Taxes
## Income 39.91243
## SEs=
##          Taxes
## Income 6.98513
ggplot(muestra2,aes(x=Income,y=Taxes))+
  geom_point(shape="+",color="blue")+
  geom_smooth(method="lm",color="orange")

CÁLCULO DEL NÚMERO DE CONGLOMERADOS

La cantidad de información en una muestra por conglomerados está afectada por dos factores: el número y el tamaño relativo de los conglomerados. No se ha presentado el último factor en ninguno de los procedimientos de muestreo ya analizados. En el problema de estimación del número de casas en un estado con un seguro contra incendios insuficiente, el conglomerado puede ser un municipio, distritos electorales, distritos escolares, comunidades, o cualquier otro agrupamiento conveniente de casas. Como ya se ha visto, el tamaño del límite para el error de estimación depende fundamentalmente de la variación entre los totales de conglomerados. Entonces, al intentar obtener límites pequeños para el error de estimación, debemos seleccionar conglomerados con la menor variación posible entre estos totales. Ahora, supongamos que se ha elegido el tamaño del conglomerado (unidad de muestreo) y sólo consideraremos el problema de seleccionar el número de conglomerados.

Suponiendo que de una encuesta previa se conoce \(\sigma_r^2\) y \(\overline{M}\) y fijando el error absoluto y tomando un 95% de confianza se obtienen las siguientes formulas.

Media y Total1 Total2 Propoción
\(n=\frac{N\sigma_r^2}{ND+\sigma_r^2}\) \(n=\frac{N\sigma_t^2}{ND+\sigma_t^2}\) \(n=\frac{N\sigma_p^2}{ND+\sigma_p^2}\)

con:

Media y proporción Total1 total2
\(D=\frac{B^2\overline{M}^2}{4}\) \(D=\frac{B²}{4N^2}\)

En el caso de no conocer \(\sigma_p^2,\sigma_r^2,\sigma_t^2,\) se utiliza de forma aproximada \(S_p^2,S_r^2,S_t^2\).

EJEMPLO

Vea el ejercicio 8.9 del libro de Elementos de muestreo Se desea calcular el número de conglomerados para estimar la proporción P de residentes que viven en alquiler con un limite de error de 0.04.

conglomerados=1:25
mi=c(8,12,4,5,6,6,7,5,8,3,2,6,5,10,9,3,6,5,5,4,6,8,7,3,8)
Arendatarios=c(4,7,1,3,3,4,4,2,3,2,1,3,2,5,4,1,4,2,3,1,3,3,4,0,3)
Ingresos=c(96,121,42,65,52,40,76,65,45,50,85,43,54,49,53,50,32,22,45,37,51,30,39,47,41)
N=415
n=length(conglomerados)
P=sum(Arendatarios)/sum(mi)
Spc=sum((Arendatarios-P*mi)^2/(n-1))
error=0.04
mp=sum(mi)/n
D=error^2*(mp)^2/4
n=N*Spc/(N*D+Spc)
floor(n)
## [1] 33

Ejercicios:

8.4, 8.5, 8.11, 8.13 Experiencias con datos reales: 8.1, 8.2

BIBLIOGRARÍA

  • Cochran, W. G., & Bouclier, A. S. (1980). Técnicas de muestreo (No. 04; HA31. 2, C6 1980.). México: Compañía Editorial Continental.

  • Pérez López, C. (2005). Muestreo estadístico. Conceptos y problemas resueltos. Madrid España: Editorial Pearson Prentice Hall.

  • Mendenhall, W., Scheaffer, R. L., & Lyman Ott, R. (2006). Elementos de muestreo. Editorial Paraninfo.

  • LUMLEY, Thomas. Complex surveys: a guide to analysis using R. John Wiley & Sons, 2011.

  • Valdivieso Serrano, L. (2020). Notas de Técnicas de Muestreo.

