DEFINICIÓN: El muestreo aleatorio simple es una técnica utilizada en estadística para seleccionar una muestra de individuos de una población de manera aleatoria y sin sesgos. Este tipo de muestreo es especialmente útil cuando se busca obtener una representación adecuada de la población de estudio.
En la imagen nos representa un muestreo aleatorio simple. A partir de la población, se selecciona al azar el número de sujetos necesario para completar la muestra necesaria a estudiar.
Podemos complementarlo https://scielo.conicyt.cl/pdf/ijmorphol/v35n1/art37.pdf.
CARACTERÍSTICAS
Selección de una muestra de tamaño \(''n''\), a partir de una población de \(''N''\) unidades.
Cada elemento tiene la misma probabilidad de inclusión \((n/N)\).
VENTAJAS
Sencillo y de fácil comprensión.
Cálculo rápido de medias y varianzas.
Existen paquetes informáticos para analizar los datos.
DESVENTAJAS
Requiere listado completo de toda la población.
Al trabajar con muestras pequeñas puede no representar de forma adecuada la población.
Para el cálculo del tamaño muestral necesario para estimar la media poblacional con un error inferior a \(\epsilon\) basta con igualar la anchura del intervalo anterior a \(\epsilon\) y despejar \(n\). Es fácil comprobar que:
La siguiente función en R permite implementar ambas ecuaciones. Por defecto asume que el tamaño de la población es N=Inf.
tam.muestra=function(alfa,epsilon,s,N=Inf)
{
za2=qnorm(1-alfa/2)
if (N==Inf) n=(s*za2/epsilon)^2
else n=N*((za2*s)^2)/((N-1)*epsilon^2+(za2*s)^2)
return(ceiling(n))
}
Podemos ver algunos ejemplos. El tamaño de muestra si sabemos que la población es finita de tamaño \(500\) sería:
n=tam.muestra(alfa=0.05,epsilon=2,s=15,N=500)
n
## [1] 152
Si la población es finita de tamaño \(10000\):
tam.muestra(alfa=0.05,epsilon=2,s=15,N=10000)
## [1] 212
Comprobamos:
poblacion=rnorm(500,170,15)
simulaMuestreo=function(n,poblacion){
N=length(poblacion) # tamaño de la población
muestra=sample(poblacion,n) # Generación de una muestra aleatoria
media=mean(muestra) # Media de la muestra
se=(sd(muestra)/sqrt(n))*sqrt(1-n/N) # Error típico de la media
inf=media-qt(0.975,n)*se # Extremo inferior del intervalo al 95%
sup=media+qt(0.975,n)*se # Extremo superior del intervalo al 95%
return(c(media=media,inf=inf,sup=sup))
}
simulaMuestreo(n,poblacion)
## media inf sup
## 170.8111 168.7495 172.8728
simulaciones=t(replicate(10000,simulaMuestreo(n,poblacion)))
mu=mean(poblacion); mu
## [1] 170.1531
contiene=apply(simulaciones,1,function(fila) if (mu>=fila[2]&mu<=fila[3]) return(1) else return(0))
sum(contiene)/10000
## [1] 0.9486
Anchura media de los intervalos:
anchuras=apply(simulaciones,1,function(fila) fila[3]-fila[2])
mean(anchuras)
## [1] 4.137878
Para más detalles de como aplicar para poblaciones infinitas. Enlace:https://estadistica-dma.ulpgc.es/MGC/muestreo_Aleatorio_Simple.html
EJERCICIO PRACTICO
# Población de alturas
poblacion_alturas <- rnorm(1000, mean = 170, sd = 5)
# Muestreo aleatorio simple
muestra_mas <- sample(poblacion_alturas, size = 50)
# Visualizar la muestra
hist(muestra_mas, main = "Muestra Aleatoria Simple de Alturas", col = "lightblue", border = "black")