Es un método estadístico para seleccionar una muestra representativa de una población más grande. Al garantizar que cada elemento de la población tiene la misma probabilidad de ser seleccionado en la muestra. Esto permite obtener muestras representativas y realizar inferencias válidas sobre la población en su conjunto.
En la actualidad, se utiliza en encuestas de opinión, estudios de medios, estudios de mercado, estudios de calidad y satisfacción con el servicio, análisis del diseño empresarial y organizacional, investigación social aplicada https://isdfundacion.org/2018/10/16/campos-aplicacion-muestreo-estadistico/.
Definir la población: Determina cuál es la población que deseas estudiar. Esta población debe ser claramente definida y accesible. Establecer el tamaño de la muestra: Decide cuántas observaciones o elementos deseas tener en tu muestra. El tamaño de la muestra puede variar dependiendo de los recursos disponibles y de los objetivos del estudio.
Ejemplo: Supongamos que estamos interesados en estudiar la edad promedio de los habitantes de una ciudad. La población completa sería la lista completa de edades de todos los habitantes. Debido a la gran cantidad de residentes, es inviable encuestar a cada individuo y poco práctico. En su lugar, aplicamos M.A.S. eligiendo al azar una muestra de habitantes para hacer inferencias sobre la población.
El M.A.S. se basa en el principio de que una muestra seleccionada de manera aleatoria y equitativa tiene el potencial de representar fielmente las características y las tendencias de la población de la que se extrajo.** Al garantizar que cada elemento de la población tiene la misma probabilidad de ser seleccionado en la muestra**, se minimiza el sesgo y se aumenta la validez externa de los resultados.
Ejemplo: Imagina que una empresa realizará el lanzamiento de un nuevo producto, por ello desea conocer la opinión de sus clientes. Utilizar el M.A.S. implica que todos los clientes tengan igual probabilidad de ser seleccionados para la encuesta. Esto asegura que tanto los compradores frecuentes como los ocasionales, así como aquellos de diferentes demografías, tengan la oportunidad de ser incluidos en la muestra, lo que resulta en una representación equitativa de la base de clientes.
En primer lugar, tenemos el muestro probabilístico, que es aquel que brinda a todos los individuos de la población la misma oportunidad de ser seleccionados para la investigación. Podemos encontrar 4 tipos distintos de muestreo probabilístico que son:
En la otra cara de la moneda, tenemos el muestreo no probabilístico que, como puedes imaginar, es aquel que no da las mismas opciones de ser seleccionados a toda la población. Veamos los 4 subtipos que se engloban dentro del mismo:
Mayor información en https://www.cimec.es/muestreo-probabilistico-y-no-probabilistico/.
En este caso, se está estimando la proporción de elementos que tienen una característica específica dentro de la población. Se elige una muestra al azar de elementos, se cuenta cuántos de ellos tienen la característica de interés y se calcula la proporción de estos elementos en la muestra. Luego, esta proporción de muestra se utiliza como una estimación de la proporción poblacional
Se realiza una encuesta de satisfacción de un curso, solo el 60% de los estudiantes de la universidad están satisfechos (proporción poblacional P = 0.6). Se realiza una toma aleatoria simple de muestras de 20 estudiantes. En la muestra se determinaran cuantos están satisfechos
mas_proporcion_conocido <- function(Data,muestra) {
Ndata <- length(Data)
Respuesta <- sum(Data != 0)
Ppoblacional <- Respuesta/Ndata
muestras_selec <- sample(Data,muestra) #muestras seleccionadas
Respuestamuestra <- sum(muestras_selec != 0)
pmuestral <- Respuestamuestra/muestra
cat('La proporción muestral es', pmuestral) # Retornar la proporcion muestral
Error_estandar = sqrt((Ppoblacional*(1-Ppoblacional))/muestra)
limite_inferior <- pmuestral-2*Error_estandar
limite_superior <- pmuestral+2*Error_estandar
cat('. Los IC al 95% son: Limite inferior: ', limite_inferior,'y limite superior: ',limite_superior) # Retornar los limites
}
Data <- c(1,0,1,0,0,0,1,1,0,1,0,1,0,0,1,0,1,0,1,1,1,1,1,0,1,0,1,1,0,1,0,1,1,1,1,1,1,0,0,1,1,0,1,1,1,0,0,0,1,1)
muestra <- 20
IC <- mas_proporcion_conocido(Data,muestra)
## La proporción muestral es 0.55. Los IC al 95% son: Limite inferior: 0.330911 y limite superior: 0.769089
Se quiere conocer la preferencia de un producto, supongamos que no conocemos la proporción de participantes en una población que prefieren el producto. Se desea estimar esta proporción. Se toma una muestra aleatoria simple de 100 personas de la población. Preguntamos por su preferencia y 50 dicen que prefieren al candidato A.
mas_proporcion_desconocido <- function(Muestra,Z) {
Nmuestra <- length(Muestra)
Respuesta <- sum(Data != 0)
pmuestral <- Respuesta/Nmuestra
cat('La proporción muestral es', pmuestral) # Retornar la proporcion muestral
Error_estandar = sqrt((pmuestral*(1-pmuestral))/Nmuestra)
limite_inferior <- pmuestral-Z*Error_estandar
limite_superior <- pmuestral+Z*Error_estandar
cat('. Los IC al 95% son: Limite inferior: ', limite_inferior,'y limite superior: ',limite_superior) # Retornar los limites
}
Muestra <- c(1,0,1,0,1,0,1,0,0,1,0,1,1,1,1,0,0,0,0,0,1,0,1,1,1,1,1,1,1,1,1,1,0,1,0,0,1,0,1,0,1,0,0,0,1,1,0,1,0,1,0,0,1,0,1,0,1,0,1,0,1,0,0,0,1,1,0,1,0,1,0,0,1,0,1,0,1,0,1,0,1,0,0,0,1,1,0,1,0,1,0,0,1,0,1,0,1,0,1,0)
Z <- 1.96
IC <- mas_proporcion_conocido(Muestra,Z)
## La proporción muestral es 0.5102041. Los IC al 95% son: Limite inferior: -0.2040816 y limite superior: 1.22449
En este caso, se está estimando el promedio de una variable numérica en la población. Se elige una muestra al azar de elementos, se obtienen los valores de la variable de interés para esos elementos y se calcula el promedio de esos valores. Luego, se utiliza este promedio de muestra como una estimación del promedio poblacional.
Para población de tamaño conocido N:
El error estándar se calcula como: SE = s / √N En la fórmula del IC se utiliza la distribución normal estandarizada (Z) El IC tiene la interpretación de abarcar el verdadero valor poblacional μ
zcritico <- function(niveldeconfianza){
alpha <- 1 - niveldeconfianza
z <- sqrt(2)*erfinv(1 - alpha)
return(z)
}
mas_promedio_conocido <- function(Data_rendimiento, muestra,niveldeconfianza) {
N <- length(Data_rendimiento) # Obtener el tamaño de la población (cantidad total de datos)
muestras_selec <- sample(Data_rendimiento,muestra) #muestras seleccionadas
prom_muestra <- mean(muestras_selec) # Calcular el promedio de la muestra
cat('Las muestras seleccionadas son:', muestras_selec) # Retornar las muestras seleccionadas
# Estimar el error estándar
error_st <- sd(muestras_selec) / sqrt(N)
cat('. El error estándar obtenido es:', error_st) # Retornar el error estandar de la muestra
# Calcular los límites del intervalo de confianza
limite_inferior <- prom_muestra - z * error_st
limite_superior <- prom_muestra + z * error_st
cat('. Los límites: Limite inferior: ', limite_inferior,'y limite superior: ',limite_superior) # Retornar los limites
}
z <- 1.96
Data_rendimiento <- c(33, 31.5, 31.5, 33, 33, 37.5, 39, 36,39, 33, 34.5, 31.5, 33, 33, 31.5, 31.5, 46.5, 36, 33, 34.5, 43.5, 31.5, 43.5, 31.5, 33, 34.5, 37.5, 34.5, 31.5, 34.5, 31.5, 31.5, 34.5, 37.5, 37.5, 45, 45, 31.5, 33, 31.5, 39, 31.5, 37.5, 51, 33, 33, 33, 34.5, 34.5,33, 33, 34.5, 34.5, 31.5, 39, 31.5, 31.5, 33, 31.5, 51, 31.5, 33, 31.5, 31.5, 31.5, 31.5, 39, 51,43.5, 39, 40, 51, 39, 31.5,31.5
)
muestra <- 5 #indicar el número de muestras a seleccionar (ejemplo: 5 muestras)
nivel_confianza <- 0.95
muestras_selecc <- mas_promedio_conocido(Data_rendimiento, muestra,niveldeconfianza)
## Las muestras seleccionadas son: 51 31.5 31.5 34.5 31.5. El error estándar obtenido es: 0.9797959. Los límites: Limite inferior: 34.0796 y limite superior: 37.9204
El error estándar se calcula como: SE = s / √n En la fórmula del IC se utiliza la distribución t de Student El IC se interpreta sobre el promedio de las muestras posibles
# Función para realizar M.A.S. para promedio con tamaño de población desconocido
tstudent <- function(n, niveldeconfianza){
alpha <- 1 - niveldeconfianza
t <- abs(qt(alpha/2, df=n-1))
return(t)
}
mas_promedio_desconocido <- function(muestra, niveldeconfianza) {
# Seleccionar índices al azar para la muestra
muestras_selec <- sample(Notas,muestra) #muestras seleccionadas
n <- length(muestras_selec) # Obtener el tamaño de la población (cantidad total de datos)
cat('Las muestras seleccionadas son:', muestras_selec) # Retornar las muestras seleccionadas
Promedio_muestras <- mean(muestras_selec) # Calcular el promedio de la muestra
desv_st <- sd(muestras_selec) #calcular desviacion estandar muestral
t <- tstudent(n, niveldeconfianza)
limite_inferior <- Promedio_muestras - (t * desv_st)/sqrt(n)
limite_superior <- Promedio_muestras + (t * desv_st)/sqrt(n)
cat('. Los límites: Limite inferior: ', limite_inferior,'y limite superior: ',limite_superior) # Retornar los limites
}
# Notas de alumnos en curso de Matemática del último examen
Notas <- c(11,15,17,18,9,10,12,14,17,18,19,19,19,20,14,15,19,20,20,20,20,20,20,20,20,19,19,18)
muestra <- 6 #indicar el número de muestras a seleccionar (ejemplo: 6 muestras)
IC <- mas_promedio_desconocido(muestra, 0.95)
## Las muestras seleccionadas son: 20 12 15 19 20 19. Los límites: Limite inferior: 14.06721 y limite superior: 20.93279