MUESTREO SISTEMÁTICO CON ARRANQUE ALEATORIO

Definición
Una muestra obtenida al seleccionar aleatoriamente un elemento de los
primeros k elementos en el marco y después cada k-ésimo elemento se
denomina muestra sistemática 1 de cada k elementos.
Ventajas del muestreo sistematico
- El muestreo sistemático es mas fácil de lleva a cabo en el campo, y
por lo tanto a diferencia del muestreo aleatorio simple esta menos
expuesto a los errores de selección que comenten los encuestadores.
Especialmente si no disponen de un marco adecuado.
- El muestreo sistemático puede proporcionar mas información por
unidad de costo que lo que proporciona el muestreo aleatorio simple para
poblaciones con determinados patrones en la organización de
elementos.
Ejemplos de encuestas que utilizan muestreo
sistemático
La Encuesta Gallup inicia su proceso de muestreo enumerando los
distritos electorales de los Estados Unidos y luego selecciona
sistematicamente 300 para un estudio complementario de
familias.
La mayoría de los planes de muestreo para el control de calidad
industrial suelen ser sistemáticos en su estructura. Un plan de
inspección para los artículos fabricados a lo largo de una cadena de
montaje en movimiento puede requerir la inspección de cada quincuagésimo
artículo. Una inspección de las cajas de los productos almacenados en un
depósito puede sugerir muestrear la segunda caja de la izquierda en la
tercera fila, de arriba hacia abajo, de cada cinco montones. En la
inspección del trabajo realizado en los puestos de operarios, el plan de
inspección puede requerir el ir y venir por las filas de los puestos e
inspeccionar la maquinaria en cada décimo puesto. La hora del día a
menudo es importante, para evaluar la calidad de la labor realizada por
el trabajador, y así un plan de inspección puede requerir el muestreo de
la producción de un puesto de operario en horas seleccionadas
sistemáticamente durante el día.
Los investigadores de mercado y los encuestadores, que muestrean
personas en movimiento, muy frecuentemente emplean un diseño
sistemático. A cada vigésimo cliente en una caja de pago se le puede
preguntar su opinión acerca del sabor, color o textura de un producto
alimenticio. A cada décima persona que suba a un autobús se le puede
pedir que llene un cuestionario acerca del servicio de autobús. Cada
centésimo automóvil que entra a un parque de atracciones puede ser
detenido y preguntarle al conductor acerca de los sistemas de publicidad
del parque o sobre el precio de los boletos. Todas estas muestras son
sistemáticas.
Pasos para realizar un muestreo sistemático
Los pasos para obtener una muestra sistemática de tamaño n de una
población N son:
- Enumere cada elemento de la población.
- Determine el valor de k tal que nk=N (ancho del intervalo).
- Elija un punto de partida aleatorio(menor o igual a k).
- Seleccione cada K-ésimo elemento a partir del punto de partida.
Ejemplo de selección sistemática
Seleccione una muestra sistematica de tamaño 8 del conjunto de datos
iris(N=150)
pob <- iris
N <- nrow(iris)
n <- 8 # tamaño de muestra
(intervalo <- ceiling(N/n)) # tamaño del intervalo k
## [1] 19
k <- intervalo
set.seed(1234) # reproducibilidad
arranque <- sample(1:intervalo,1) # posición inicial
indices <- seq(arranque,arranque+k*(n-1),k) # posiciones de la muestra
iris %>% # selección de la muestra
rowid_to_column() %>%
slice(indices)
## rowid Sepal.Length Sepal.Width Petal.Length Petal.Width Species
## 1 16 5.7 4.4 1.5 0.4 setosa
## 2 35 4.9 3.1 1.5 0.2 setosa
## 3 54 5.5 2.3 4.0 1.3 versicolor
## 4 73 6.3 2.5 4.9 1.5 versicolor
## 5 92 6.1 3.0 4.6 1.4 versicolor
## 6 111 6.5 3.2 5.1 2.0 virginica
## 7 130 7.2 3.0 5.8 1.6 virginica
## 8 149 6.2 3.4 5.4 2.3 virginica
Población ordenada
Decimos que una población es aleatoria si el orden en el que se
encuentran los elementos es aleatoria.
Una población es ordenada si los elementos de la población tienden a
aumentar o disminuir cuando se enumeran.
Una población ordenada aparece por ejemplo en listados cronológicos
como el balance de hipotecas pendientes de pago, por lo general, las
hipotecas mas antiguas tienden a tener menor valor que las nuevas.
Tambien deben considerarse de forma especial los casos en los que una
poblacion tiene una tendencia periódica, como seria por ejemplo una
curva seonosoidal simple. Para trabajarlas adecuadamente el valor de K
debe ser un múltiplo impar del semiperiodo.
Las poblaciones periódicas senosiodales no se esperan en la práctica,
pero las poblaciones con una tendencia periódica sí son bastante
comunes, un ejemplo de ella son el flujo de trafico que pasa por un
punto dado en una carretera en un periodo de 24 horas, o las ventas de
un almacén en un periodo de 7 días.
Ejemplo:
En el siguiente ejemplo se realiza un muestreo sistemático sobre un
conjunto de datos de diferentes granos de café seleccionados de
diferentes lugares del mundo.
coffee <- readr::read_csv('https://raw.githubusercontent.com/rfordatascience/tidytuesday/master/data/2020/2020-07-07/coffee_ratings.csv')
coffee1 <- coffee %>%
rowid_to_column()
ggplot(coffee1,aes(x=rowid,y=aftertaste))+
geom_point()+
ylim(c(6,8))+
geom_smooth(method = "loess")

Cuando se observa que la variable aftertaste
tiende a
disminuir conforme el número de elemento aumenta, podemos decir que es
que tenemos una población ordenada.
coffee_desord<-coffee %>%
slice_sample(prop=1) %>% rowid_to_column() # población desordenada
ggplot(coffee_desord,aes(x=rowid,y=aftertaste))+
geom_point()+
ylim(c(5,9))+
geom_smooth(method = "loess")

Comparación de muestra sistemáticas población ordenada y
desordenada
pob_ord <-coffee$aftertaste
pob_des <- coffee_desord$aftertaste
N <- length(pob_ord)
n <- 60
k <- floor(N/n)
arranque <- sample(1:k,1)
indices <- seq(arranque,arranque+k*(n-1),k)
indices2 <- sample(1:N,length(indices))
muestras <- data.frame(
m_o = pob_ord[indices], # m.sis pob ordenada
m_d = pob_des[indices], # m.sis pob desdordenada
m_a = pob_ord[indices2] # m. aleatorio pob ordenada
)
muestras %>%
summarise_all(mean)
## m_o m_d m_a
## 1 7.389333 7.484833 7.4265
## [1] 7.401083
Al realizar una selección sistemática de los elementos de una
población, dichos elementos tenderán a estar mas separados numéricamente
que en una muestra aleatoria simple, si la población esta ordenada
entonces las muestras tendrán observaciones de los valores mas grandes y
mas pequeños por lo que la varianza de las medias muestrales serán
menores que las varianzas de de las medias muestrales cuando se realiza
muestreo aleatorio simple, de modo que utilizar la formula de muestreo
aleatorio simple produce una sobrestimación del verdadero error de
muestreo.
Inferencias con paquete survey
Para realizar inferencias con el paquete survey debemos suponer que
el la población es aleatoria o esta desordenada. Para realizar
inferencias primero se define el diseño para posteriormente aplicar los
comandos para media total o proporción.
require(survey)
svydesign(data=muestras,
ids=~1,
fpc=rep(N,
nrow(muestras)))->d_sis # Diseño aleatorio simple
svymean(x=~m_o,
design=d_sis,
deff=T) # Estimación de la media
## mean SE DEff
## m_o 7.389333 0.042579 1
Ejemplo
Utilizando el conjunto de datos BigLucy Realice lo siguiente:
- tome una muestra de 600 empresas
- Calcule una estimación una estimación del total de empleados
- Encuentra una estimación de la proporción de las empresas con
ISO=yes
- Realice una estimación de el ingreso promedio de las empresas
library(TeachingSampling)
data("BigLucy")
N <- nrow(BigLucy)
n <- 600 # tamaño de muestra
(intervalo <- ceiling(N/n)) # tamaño del intervalo k
## [1] 143
k <- intervalo
set.seed(1234) # reproducibilidad
arranque <- sample(1:intervalo,1) #posición inicial
indices <- seq(arranque,arranque+k*(n-1),k)
muestra<-BigLucy %>% slice(indices)
d<-svydesign(data=muestra,
id=~1,
fpc=rep(N,nrow(muestra)))
svytotal(~Employees,d)
## total SE
## Employees 5314498 111014
## mean SE
## ISOno 0.66332 0.0193
## ISOyes 0.33668 0.0193
## mean SE
## Income 431.75 10.694
Muestreo sistemático Repetido
Como en la mayoría de los casos el muestreo aleatorio sistemático no
es equivalente al muestreo aleatorio simple, un método alternativo para
realizar inferencias consiste en obtener varias replicas de muestreo
sistemático para luego obtener estimaciones de parámetros
poblacionales.
Diez muestras sistemáticas de 1 de cada 50 equivalen a una muestra
sistemática de 1 cada 5.
Las siguientes formulas se pueden utilizar para estimar media y error
para un muestreo sistemático repetido.
\[\widehat{\mu}=\sum_{i=1}^{n_s}\frac{\overline{y}_i}{n_s}
\] \[\widehat{V}(\widehat{\mu})=\frac{(N-n)}{N}\frac{S_{\overline{y}}^2}{n_s}\]
En donde
\[S_{\overline{y}}^2=\frac{\sum_{i=1}^{n_s}{(\overline{y}_i-\mu)}^2}{n_s-1}\]
\[\widehat\tau=N\widehat\mu\]
\[\widehat{V}(\widehat{\tau})=N^2\widehat{V}(\widehat{\tau})\]
Ejemplo muestreo sistemático repetido
Suponga que se tiene una población normal con media 50 y desviación
estándar 5 de 400 elementos y tomara una muestra de 80 elementos para
estimar la varianza de la distribución muestral de medias. Para esto
implemente un muestreo sistemático repetido. de 10 muestras de tamaño 8
cada una. Realice una estimación de la media
N <- 400 # tamaño de la población
n <- 8 # tamaño de la muestra
ns <- 10 # número de muestras
pob <- round(rnorm(N,mean =50,sd = 5)) # población normal
sist<-function(pob,n){
N <- length(pob)
k <- floor(N/n)
a <- sample(1:k,1)
indices <- seq(a,a+k*(n-1),k)
m <- pob[indices]
m
}
replicate(n=ns,
expr={
sist(pob,8)
}
) -> muestras
# muestras
medias <- apply(muestras,2,mean) # Medias de las muestras
mu=sum(medias)/ns # Estimación de la media poblacional
s_c <- sum((medias-mu)^2)/(ns-1)
fpc <- (N-n)/N
V <- fpc*s_c/ns
c(mu=mu,error_estandar=sqrt(V))
## mu error_estandar
## 50.937500 0.718057
Tamaño de las muestras
Para el cálculo del tamaño de muestras se utilizan las fórmulas de
muestreo aleatorio simple. Estas fórmulas podrian dar una muestra muy
grande para poblaciones ordenadas y muy pequeña para poblaciones
periódicas.
\[n=\frac{N\sigma^2}{(N-1)e^2/4+\sigma^2}\] |
\[n=\frac{Npq}{(N-1)e^2/4+pq}\] |
\[n=\frac{N\sigma^2}{(N-1)\frac{e^2}{4N^2}+\sigma^2}\] |
Ejemplo
Encuentre el tamaño de la muestra para estimar la proporción de
empresas que tienen certificación ISO con un error del 5%
B <- 0.05
D <- B^2/4
p <- 0.5
q <- 0.5
N <- nrow(BigLucy)
n <- ceiling(N*p*q/((N-1)*D+p*q))
n
## [1] 399
La muestra sistemática una muestra por
Conglomerados
Para aprender más acerca del comportamiento de V(sy), podemos
examinar una muestra sistemática de n elementos como una muestra por
conglomerados sencilla de k posibles muestras por conglomerados en la
población que se estudia. De forma esquemática, considere que la
población está organizada como una matriz rectangular, como muestra la
Tabla.

Aquí. N = nk. El muestreo sistemático, como se ha descrito
anteriormente, implica seleccionar aleatoriamente uno de los k
conglomerados (filas) y así, una de las k posibles medias muestrales. Es
decir tomar probabilidades iguales.
con lo que \[V(\overline{y}_s)=\frac{\sigma^2}{n}[1+(n-1)\rho]\]
donde \(\rho\) que mide la
interrelación entre las unidades dentro de las muestras.
Lógicamente,esta interrelación debe ser lo más pequeña posible, ya que
en el muestreo sistemático interesa la heterogeneidad intramuestral, con
la finalidad de que una única muestra sistemática represente lo mejor
posible a toda la población. Para que una muestra sistemática aspire a
ser fiel espejo de toda la población ha de ser heterogénea, y la
interrelación entre sus unidades ha de ser baja. Por lo tanto,
inicialmente parece lógico que interesen valores muy pequeños del
coeficiente de correlación intramuestral.
si se dispone de la población de mediciones, se pueden realizar
cálculos del tipo ANOVA calculando la suma de cuadrados del
error(adentro de conglomerados intravarianza), suma de cuadrados entre
conglomerados(suma de cuadrados del tratamiento intervarianza) y suma de
cuadrados totales (cuasivarianza).
Las ecuaciones son las siguientes.
\[\widehat
{S}²_T=\frac{TSS}{nk-1}=\frac{1}{nk-1}\sum_{i=1}^{k}{\sum_{j=1}^{n}{(y_{ij}-\overline{\overline{y}})^2}}=cuasivarianza\]
\[\widehat
{S}²_t=\frac{SST}{k-1}=\frac{n}{k-1}\sum_{j=1}^{k}{(\overline{y}_i-\overline{\overline
y})^2}=Intervarianza\] \[\widehat
{S}²_E=\frac{SSE}{k(n-1)}=\frac{1}{k(n-1)}\sum_{i=1}^{k}{\sum_{j=1}^{n}{(y_{ij}-\overline{y}_i)^2}}=intravarianza\]
con \[TSS=SSE+SST\] \[\rho=\frac{n\widehat {S}²_t-\widehat
{S}²_T}{(n-1)\widehat {S}²_T}=1-\frac{n}{n-1}\frac{SSE}{TSS}\]
TABLA ANOVA
factor |
k-1 |
SST |
error |
nk-k |
SSE |
total |
nk-1 |
TSS |
Ejemplo de cálculo de correlacion entre elementos del mismo
conglomerdado
considere la siguiente población:
Ingreso |
2000 |
3000 |
1000 |
5000 |
2500 |
3600 |
7000 |
8000 |
2900 |
7700 |
3500 |
5000 |
calcule el valor de \(\rho\) cuando
toman muestras sistemáticas de tamaño n=4.
Solución: como 12/4=3 entonces tenemos que k=3 osea que hay tres
conglomerados de muestras sistemáticas empezando con k=1,2,3
require(knitr)
N <- 12
n <- 4
k <- N/n
pob <- c(2000, 3000, 1000, 5000, 2500 ,3600, 7000, 8000, 2900, 7700, 3500 ,5000)
conglomerados <- data.frame(indices=1:12,
muestra=pob,
conglomerado=factor(rep(c("c1","c2","c3"),n)))
conglomerados %>%
spread(key = indices,
value = muestra,
fill="--") %>% kable() # Indices a columnas
c1 |
2000 |
– |
– |
5000 |
– |
– |
7000 |
– |
– |
7700 |
– |
– |
c2 |
– |
3000 |
– |
– |
2500 |
– |
– |
8000 |
– |
– |
3500 |
– |
c3 |
– |
– |
1000 |
– |
– |
3600 |
– |
– |
2900 |
– |
– |
5000 |
anova <- aov(muestra~conglomerado,
data=conglomerados) # ANOVA
summary(anova)[[1]]->tabla
tabla
## Df Sum Sq Mean Sq F value Pr(>F)
## conglomerado 2 10581667 5290833 1.0105 0.4019
## Residuals 9 47125000 5236111
SSE=tabla$`Sum Sq`[2]
TSS=tabla$`Sum Sq`[1]+SSE
(rho=1-n/(n-1)*SSE/TSS)
## [1] -0.08884011
Resumen
- El muestreo sistemático se presenta como una alternativa para el
muestreo aleatorio simple.
- Es más fácil de llevar a cabo y, por tanto, está menos expuesto que
el muestreo aleatorio simple a los errores del entrevistador. Además, el
muestreo sistemático frecuentemente proporciona más información que el
muestreo aleatorio simple por unidad de coste.
- Para seleccionar entre el muestreo aleatorio simple y el
sistemático, primero debemos considerar el tipo de población que se
investiga. Por ejemplo, cuando N es grande y ρ < 0, la varianza de
V(sy) es más pequeña que la varianza correspondiente de V(y) basada en
una muestra aleatoria simple.
- Una muestra sistemática es preferible cuando la población está
ordenada y N es grande. Cuando la población es aleatoria, los dos
procedimientos de muestreo son equivalentes y cualquiera de los dos
diseños puede ser utilizado.
- Debe tenerse cuidado en la aplicación del muestreo sistemático para
poblaciones periódicas. Las necesidades de tamaño de muestra para
estimar μ, τ y ρ, son determinadas usando las fórmulas presentadas para
el muestreo aleatorio simple.
- El muestreo sistemático repetido que s permite al investigador
estimar la media o el total poblacionales y la varianza del estimador,
sin establecer ningún supuesto acerca de la naturaleza de la
población.
Ejercicios
problema1: 7.5,7.6,
Problema2: 7.7,7.11
Problema3:
considere la siguiente población:
Ingreso |
2000 |
3000 |
7000 |
5000 |
5500 |
3600 |
7000 |
9000 |
2900 |
5700 |
2500 |
5000 |
calcule el valor de \(\rho\) cuando
toman muestras sistemáticas de tamaño n=3.
Problema4:
suponga que se tiene una población de 500 elementos y tomara una
muestra de 100 elementos para estimar la varianza de la distribución
muestral de medias. Para esto se implementará un muestreo sistemático
repetido. de 20 muestras de tamaño 5 cada una.(población normal
media=50,sd=5, semilla=edad)
Bibliografía
- Cochran, W. G. Técnicas de Muestreo.
- Lopez Cesar, Muestreo estadístico
- LUMLEY, Thomas. Complex surveys: a guide to analysis using R. John
Wiley & Sons, 2011.
- Scheaffer,Richard L. Elementos de muestreo.
- Valdivieso Serrano,Luis. Notas de Técnicas de Muestreo.
