MUESTREO SISTEMÁTICO CON ARRANQUE ALEATORIO

drawing

Definición

Una muestra obtenida al seleccionar aleatoriamente un elemento de los primeros k elementos en el marco y después cada k-ésimo elemento se denomina muestra sistemática 1 de cada k elementos.

Ventajas del muestreo sistematico

  1. El muestreo sistemático es mas fácil de lleva a cabo en el campo, y por lo tanto a diferencia del muestreo aleatorio simple esta menos expuesto a los errores de selección que comenten los encuestadores. Especialmente si no disponen de un marco adecuado.
  2. El muestreo sistemático puede proporcionar mas información por unidad de costo que lo que proporciona el muestreo aleatorio simple para poblaciones con determinados patrones en la organización de elementos.

Ejemplos de encuestas que utilizan muestreo sistemático

  • La Encuesta Gallup inicia su proceso de muestreo enumerando los distritos electorales de los Estados Unidos y luego selecciona sistematicamente 300 para un estudio complementario de familias.

  • La mayoría de los planes de muestreo para el control de calidad industrial suelen ser sistemáticos en su estructura. Un plan de inspección para los artículos fabricados a lo largo de una cadena de montaje en movimiento puede requerir la inspección de cada quincuagésimo artículo. Una inspección de las cajas de los productos almacenados en un depósito puede sugerir muestrear la segunda caja de la izquierda en la tercera fila, de arriba hacia abajo, de cada cinco montones. En la inspección del trabajo realizado en los puestos de operarios, el plan de inspección puede requerir el ir y venir por las filas de los puestos e inspeccionar la maquinaria en cada décimo puesto. La hora del día a menudo es importante, para evaluar la calidad de la labor realizada por el trabajador, y así un plan de inspección puede requerir el muestreo de la producción de un puesto de operario en horas seleccionadas sistemáticamente durante el día.

  • Los investigadores de mercado y los encuestadores, que muestrean personas en movimiento, muy frecuentemente emplean un diseño sistemático. A cada vigésimo cliente en una caja de pago se le puede preguntar su opinión acerca del sabor, color o textura de un producto alimenticio. A cada décima persona que suba a un autobús se le puede pedir que llene un cuestionario acerca del servicio de autobús. Cada centésimo automóvil que entra a un parque de atracciones puede ser detenido y preguntarle al conductor acerca de los sistemas de publicidad del parque o sobre el precio de los boletos. Todas estas muestras son sistemáticas.

Pasos para realizar un muestreo sistemático

Los pasos para obtener una muestra sistemática de tamaño n de una población N son:

  1. Enumere cada elemento de la población.
  2. Determine el valor de k tal que nk=N (ancho del intervalo).
  3. Elija un punto de partida aleatorio(menor o igual a k).
  4. Seleccione cada K-ésimo elemento a partir del punto de partida.

Ejemplo de selección sistemática

Seleccione una muestra sistematica de tamaño 8 del conjunto de datos iris(N=150)

pob <-    iris
N <- nrow(iris)
n <- 8                             # tamaño de muestra
(intervalo <- ceiling(N/n))        # tamaño del intervalo k
## [1] 19
k <- intervalo
set.seed(1234)                   # reproducibilidad 
arranque <- sample(1:intervalo,1) # posición inicial
indices <- seq(arranque,arranque+k*(n-1),k)       # posiciones de la muestra
iris %>%                                        # selección de la muestra
  rowid_to_column() %>% 
  slice(indices)
##   rowid Sepal.Length Sepal.Width Petal.Length Petal.Width    Species
## 1    16          5.7         4.4          1.5         0.4     setosa
## 2    35          4.9         3.1          1.5         0.2     setosa
## 3    54          5.5         2.3          4.0         1.3 versicolor
## 4    73          6.3         2.5          4.9         1.5 versicolor
## 5    92          6.1         3.0          4.6         1.4 versicolor
## 6   111          6.5         3.2          5.1         2.0  virginica
## 7   130          7.2         3.0          5.8         1.6  virginica
## 8   149          6.2         3.4          5.4         2.3  virginica

Población ordenada

Decimos que una población es aleatoria si el orden en el que se encuentran los elementos es aleatoria.

Una población es ordenada si los elementos de la población tienden a aumentar o disminuir cuando se enumeran.

Una población ordenada aparece por ejemplo en listados cronológicos como el balance de hipotecas pendientes de pago, por lo general, las hipotecas mas antiguas tienden a tener menor valor que las nuevas.

Tambien deben considerarse de forma especial los casos en los que una poblacion tiene una tendencia periódica, como seria por ejemplo una curva seonosoidal simple. Para trabajarlas adecuadamente el valor de K debe ser un múltiplo impar del semiperiodo.

Las poblaciones periódicas senosiodales no se esperan en la práctica, pero las poblaciones con una tendencia periódica sí son bastante comunes, un ejemplo de ella son el flujo de trafico que pasa por un punto dado en una carretera en un periodo de 24 horas, o las ventas de un almacén en un periodo de 7 días.

Ejemplo:

En el siguiente ejemplo se realiza un muestreo sistemático sobre un conjunto de datos de diferentes granos de café seleccionados de diferentes lugares del mundo.

coffee <- readr::read_csv('https://raw.githubusercontent.com/rfordatascience/tidytuesday/master/data/2020/2020-07-07/coffee_ratings.csv')
coffee1 <- coffee %>% 
  rowid_to_column()
ggplot(coffee1,aes(x=rowid,y=aftertaste))+
  geom_point()+
  ylim(c(6,8))+
  geom_smooth(method = "loess")

Cuando se observa que la variable aftertaste tiende a disminuir conforme el número de elemento aumenta, podemos decir que es que tenemos una población ordenada.

coffee_desord<-coffee %>% 
  slice_sample(prop=1) %>% rowid_to_column()  # población desordenada

ggplot(coffee_desord,aes(x=rowid,y=aftertaste))+
  geom_point()+
  ylim(c(5,9))+
  geom_smooth(method = "loess")

Comparación de muestra sistemáticas población ordenada y desordenada

pob_ord <-coffee$aftertaste
pob_des <- coffee_desord$aftertaste
N <- length(pob_ord)
n <- 60
k <- floor(N/n)
arranque <- sample(1:k,1)
indices <- seq(arranque,arranque+k*(n-1),k) 
indices2 <- sample(1:N,length(indices))
muestras <- data.frame(
m_o = pob_ord[indices],  # m.sis pob ordenada
m_d = pob_des[indices],  # m.sis pob desdordenada 
m_a = pob_ord[indices2]  # m. aleatorio pob ordenada
)
muestras %>% 
  summarise_all(mean)
##        m_o      m_d    m_a
## 1 7.389333 7.484833 7.4265
mean(pob_des)
## [1] 7.401083

Al realizar una selección sistemática de los elementos de una población, dichos elementos tenderán a estar mas separados numéricamente que en una muestra aleatoria simple, si la población esta ordenada entonces las muestras tendrán observaciones de los valores mas grandes y mas pequeños por lo que la varianza de las medias muestrales serán menores que las varianzas de de las medias muestrales cuando se realiza muestreo aleatorio simple, de modo que utilizar la formula de muestreo aleatorio simple produce una sobrestimación del verdadero error de muestreo.

Inferencias con paquete survey

Para realizar inferencias con el paquete survey debemos suponer que el la población es aleatoria o esta desordenada. Para realizar inferencias primero se define el diseño para posteriormente aplicar los comandos para media total o proporción.

require(survey)
svydesign(data=muestras,
          ids=~1,
          fpc=rep(N,     
                  nrow(muestras)))->d_sis   # Diseño aleatorio simple
svymean(x=~m_o,
        design=d_sis,
        deff=T)                             # Estimación de la media    
##         mean       SE DEff
## m_o 7.389333 0.042579    1

Ejemplo

Utilizando el conjunto de datos BigLucy Realice lo siguiente:

  • tome una muestra de 600 empresas
  • Calcule una estimación una estimación del total de empleados
  • Encuentra una estimación de la proporción de las empresas con ISO=yes
  • Realice una estimación de el ingreso promedio de las empresas
library(TeachingSampling)
data("BigLucy")
N <- nrow(BigLucy)
n <- 600               # tamaño de muestra
(intervalo <- ceiling(N/n))        # tamaño del intervalo k
## [1] 143
k <- intervalo
set.seed(1234)      # reproducibilidad 
arranque <- sample(1:intervalo,1) #posición inicial
indices <- seq(arranque,arranque+k*(n-1),k)
muestra<-BigLucy %>% slice(indices)
d<-svydesign(data=muestra,
             id=~1,
             fpc=rep(N,nrow(muestra)))
svytotal(~Employees,d)
##             total     SE
## Employees 5314498 111014
svymean(~ISO,d)
##           mean     SE
## ISOno  0.66332 0.0193
## ISOyes 0.33668 0.0193
svymean(~Income,d)
##          mean     SE
## Income 431.75 10.694

Muestreo sistemático Repetido

Como en la mayoría de los casos el muestreo aleatorio sistemático no es equivalente al muestreo aleatorio simple, un método alternativo para realizar inferencias consiste en obtener varias replicas de muestreo sistemático para luego obtener estimaciones de parámetros poblacionales.

Diez muestras sistemáticas de 1 de cada 50 equivalen a una muestra sistemática de 1 cada 5.

Las siguientes formulas se pueden utilizar para estimar media y error para un muestreo sistemático repetido.

\[\widehat{\mu}=\sum_{i=1}^{n_s}\frac{\overline{y}_i}{n_s} \] \[\widehat{V}(\widehat{\mu})=\frac{(N-n)}{N}\frac{S_{\overline{y}}^2}{n_s}\] En donde

\[S_{\overline{y}}^2=\frac{\sum_{i=1}^{n_s}{(\overline{y}_i-\mu)}^2}{n_s-1}\]

\[\widehat\tau=N\widehat\mu\]

\[\widehat{V}(\widehat{\tau})=N^2\widehat{V}(\widehat{\tau})\]

Ejemplo muestreo sistemático repetido

Suponga que se tiene una población normal con media 50 y desviación estándar 5 de 400 elementos y tomara una muestra de 80 elementos para estimar la varianza de la distribución muestral de medias. Para esto implemente un muestreo sistemático repetido. de 10 muestras de tamaño 8 cada una. Realice una estimación de la media

N <- 400  # tamaño de la población
n <- 8    # tamaño de la muestra
ns <- 10  # número de muestras
pob <- round(rnorm(N,mean =50,sd = 5)) # población normal


sist<-function(pob,n){
  N <- length(pob)
  k <- floor(N/n)
  a <- sample(1:k,1)
  indices <- seq(a,a+k*(n-1),k)
  m <- pob[indices]
  m
}

replicate(n=ns,
          expr={
  sist(pob,8)
}
) -> muestras

# muestras
medias <- apply(muestras,2,mean)  # Medias de las muestras
mu=sum(medias)/ns              # Estimación de la media poblacional
s_c <- sum((medias-mu)^2)/(ns-1)
fpc <- (N-n)/N
V <- fpc*s_c/ns
c(mu=mu,error_estandar=sqrt(V))
##             mu error_estandar 
##      50.937500       0.718057

Tamaño de las muestras

Para el cálculo del tamaño de muestras se utilizan las fórmulas de muestreo aleatorio simple. Estas fórmulas podrian dar una muestra muy grande para poblaciones ordenadas y muy pequeña para poblaciones periódicas.

Media Proporción Total
\[n=\frac{N\sigma^2}{(N-1)e^2/4+\sigma^2}\] \[n=\frac{Npq}{(N-1)e^2/4+pq}\] \[n=\frac{N\sigma^2}{(N-1)\frac{e^2}{4N^2}+\sigma^2}\]

Ejemplo

Encuentre el tamaño de la muestra para estimar la proporción de empresas que tienen certificación ISO con un error del 5%

B <- 0.05
D <- B^2/4
p <- 0.5
q <- 0.5
N <- nrow(BigLucy)
n <- ceiling(N*p*q/((N-1)*D+p*q))
n
## [1] 399

La muestra sistemática una muestra por Conglomerados

Para aprender más acerca del comportamiento de V(sy), podemos examinar una muestra sistemática de n elementos como una muestra por conglomerados sencilla de k posibles muestras por conglomerados en la población que se estudia. De forma esquemática, considere que la población está organizada como una matriz rectangular, como muestra la Tabla.

drawing

Aquí. N = nk. El muestreo sistemático, como se ha descrito anteriormente, implica seleccionar aleatoriamente uno de los k conglomerados (filas) y así, una de las k posibles medias muestrales. Es decir tomar probabilidades iguales.

con lo que \[V(\overline{y}_s)=\frac{\sigma^2}{n}[1+(n-1)\rho]\] donde \(\rho\) que mide la interrelación entre las unidades dentro de las muestras. Lógicamente,esta interrelación debe ser lo más pequeña posible, ya que en el muestreo sistemático interesa la heterogeneidad intramuestral, con la finalidad de que una única muestra sistemática represente lo mejor posible a toda la población. Para que una muestra sistemática aspire a ser fiel espejo de toda la población ha de ser heterogénea, y la interrelación entre sus unidades ha de ser baja. Por lo tanto, inicialmente parece lógico que interesen valores muy pequeños del coeficiente de correlación intramuestral.

si se dispone de la población de mediciones, se pueden realizar cálculos del tipo ANOVA calculando la suma de cuadrados del error(adentro de conglomerados intravarianza), suma de cuadrados entre conglomerados(suma de cuadrados del tratamiento intervarianza) y suma de cuadrados totales (cuasivarianza).

Las ecuaciones son las siguientes.

\[\widehat {S}²_T=\frac{TSS}{nk-1}=\frac{1}{nk-1}\sum_{i=1}^{k}{\sum_{j=1}^{n}{(y_{ij}-\overline{\overline{y}})^2}}=cuasivarianza\] \[\widehat {S}²_t=\frac{SST}{k-1}=\frac{n}{k-1}\sum_{j=1}^{k}{(\overline{y}_i-\overline{\overline y})^2}=Intervarianza\] \[\widehat {S}²_E=\frac{SSE}{k(n-1)}=\frac{1}{k(n-1)}\sum_{i=1}^{k}{\sum_{j=1}^{n}{(y_{ij}-\overline{y}_i)^2}}=intravarianza\] con \[TSS=SSE+SST\] \[\rho=\frac{n\widehat {S}²_t-\widehat {S}²_T}{(n-1)\widehat {S}²_T}=1-\frac{n}{n-1}\frac{SSE}{TSS}\] TABLA ANOVA

fuente df suma de cuadrados
factor k-1 SST
error nk-k SSE
total nk-1 TSS

Ejemplo de cálculo de correlacion entre elementos del mismo conglomerdado

considere la siguiente población:

sujeto 1 2 3 4 5 6 7 8 9 10 11 12
Ingreso 2000 3000 1000 5000 2500 3600 7000 8000 2900 7700 3500 5000

calcule el valor de \(\rho\) cuando toman muestras sistemáticas de tamaño n=4.

Solución: como 12/4=3 entonces tenemos que k=3 osea que hay tres conglomerados de muestras sistemáticas empezando con k=1,2,3

require(knitr)
N <- 12
n <- 4
k <- N/n
pob <- c(2000, 3000, 1000, 5000, 2500 ,3600, 7000, 8000, 2900, 7700, 3500 ,5000)

conglomerados <- data.frame(indices=1:12,
                  muestra=pob,
                  conglomerado=factor(rep(c("c1","c2","c3"),n)))


conglomerados %>% 
  spread(key = indices,
         value = muestra,
         fill="--") %>% kable()             # Indices a columnas
conglomerado 1 2 3 4 5 6 7 8 9 10 11 12
c1 2000 5000 7000 7700
c2 3000 2500 8000 3500
c3 1000 3600 2900 5000
anova <- aov(muestra~conglomerado,
           data=conglomerados)   # ANOVA

summary(anova)[[1]]->tabla
tabla
##              Df   Sum Sq Mean Sq F value Pr(>F)
## conglomerado  2 10581667 5290833  1.0105 0.4019
## Residuals     9 47125000 5236111
SSE=tabla$`Sum Sq`[2]
TSS=tabla$`Sum Sq`[1]+SSE
(rho=1-n/(n-1)*SSE/TSS)
## [1] -0.08884011

Resumen

  • El muestreo sistemático se presenta como una alternativa para el muestreo aleatorio simple.
  • Es más fácil de llevar a cabo y, por tanto, está menos expuesto que el muestreo aleatorio simple a los errores del entrevistador. Además, el muestreo sistemático frecuentemente proporciona más información que el muestreo aleatorio simple por unidad de coste.
  • Para seleccionar entre el muestreo aleatorio simple y el sistemático, primero debemos considerar el tipo de población que se investiga. Por ejemplo, cuando N es grande y ρ < 0, la varianza de V(sy) es más pequeña que la varianza correspondiente de V(y) basada en una muestra aleatoria simple.
  • Una muestra sistemática es preferible cuando la población está ordenada y N es grande. Cuando la población es aleatoria, los dos procedimientos de muestreo son equivalentes y cualquiera de los dos diseños puede ser utilizado.
  • Debe tenerse cuidado en la aplicación del muestreo sistemático para poblaciones periódicas. Las necesidades de tamaño de muestra para estimar μ, τ y ρ, son determinadas usando las fórmulas presentadas para el muestreo aleatorio simple.
  • El muestreo sistemático repetido que s permite al investigador estimar la media o el total poblacionales y la varianza del estimador, sin establecer ningún supuesto acerca de la naturaleza de la población.

Ejercicios

problema1: 7.5,7.6,

Problema2: 7.7,7.11

Problema3:

considere la siguiente población:

sujeto 1 2 3 4 5 6 7 8 9 10 11 12
Ingreso 2000 3000 7000 5000 5500 3600 7000 9000 2900 5700 2500 5000

calcule el valor de \(\rho\) cuando toman muestras sistemáticas de tamaño n=3.

Problema4:

suponga que se tiene una población de 500 elementos y tomara una muestra de 100 elementos para estimar la varianza de la distribución muestral de medias. Para esto se implementará un muestreo sistemático repetido. de 20 muestras de tamaño 5 cada una.(población normal media=50,sd=5, semilla=edad)

Bibliografía

  • Cochran, W. G. Técnicas de Muestreo.
  • Lopez Cesar, Muestreo estadístico
  • LUMLEY, Thomas. Complex surveys: a guide to analysis using R. John Wiley & Sons, 2011.
  • Scheaffer,Richard L. Elementos de muestreo.
  • Valdivieso Serrano,Luis. Notas de Técnicas de Muestreo.
