MUESTREO ALEATORIO

1.-INTRODUCCiÓN

1.1.-Definición

Es un método estadístico para seleccionar una muestra representativa de una población más grande. Al garantizar que cada elemento de la población tiene la misma probabilidad de ser seleccionado en la muestra. Esto permite obtener muestras representativas y realizar inferencias válidas sobre la población en su conjunto.

En la actualidad, se utiliza en encuestas de opinión, estudios de medios, estudios de mercado, estudios de calidad y satisfacción con el servicio, análisis del diseño empresarial y organizacional, investigación social aplicada https://isdfundacion.org/2018/10/16/campos-aplicacion-muestreo-estadistico/.

1.2.-Consideraciones importantes en el muestreo aleatorio simple

A. Teoría de la Muestra y Población:

Definir la población: Determina cuál es la población que deseas estudiar. Esta población debe ser claramente definida y accesible. Establecer el tamaño de la muestra: Decide cuántas observaciones o elementos deseas tener en tu muestra. El tamaño de la muestra puede variar dependiendo de los recursos disponibles y de los objetivos del estudio.

Ejemplo: Supongamos que estamos interesados en estudiar la edad promedio de los habitantes de una ciudad. La población completa sería la lista completa de edades de todos los habitantes. Debido a la gran cantidad de residentes, es inviable encuestar a cada individuo y poco práctico. En su lugar, aplicamos M.A.S. eligiendo al azar una muestra de habitantes para hacer inferencias sobre la población.

B. Principio de Representatividad:

El M.A.S. se basa en el principio de que una muestra seleccionada de manera aleatoria y equitativa tiene el potencial de representar fielmente las características y las tendencias de la población de la que se extrajo.** Al garantizar que cada elemento de la población tiene la misma probabilidad de ser seleccionado en la muestra**, se minimiza el sesgo y se aumenta la validez externa de los resultados.

Ejemplo: Imagina que una empresa realizará el lanzamiento de un nuevo producto, por ello desea conocer la opinión de sus clientes. Utilizar el M.A.S. implica que todos los clientes tengan igual probabilidad de ser seleccionados para la encuesta. Esto asegura que tanto los compradores frecuentes como los ocasionales, así como aquellos de diferentes demografías, tengan la oportunidad de ser incluidos en la muestra, lo que resulta en una representación equitativa de la base de clientes.

2.-TIPOS DE MUESTREO

2.1.-Muestreo probabilístico

En primer lugar, tenemos el muestro probabilístico, que es aquel que brinda a todos los individuos de la población la misma oportunidad de ser seleccionados para la investigación. Podemos encontrar 4 tipos distintos de muestreo probabilístico que son:

Muestreo aleatorio simple: En este primer tipo de muestreo, se le da a cada sujeto un número y, posteriormente, se obtienen los números que formarán la muestra de manera completamente aleatoria.
Muestreo sistemático: El muestreo sistemático también realiza la selección del primer sujeto de manera aleatoria, pero para los siguientes se seleccionan a partir de un listado utilizando intervalos fijos o sistemáticos.
Muestreo estratificado: En este caso, se divide a la población en segmentos y luego se realiza un muestreo aleatorio simple en cada uno de ellos.
Muestreo por conglomerados: Finalmente, en este último caso los elementos de la población son seleccionados al azar en forma natural, pero a partir de agrupaciones o clústeres o conglomerados previos. Muestreo no probabilístico

2.2.-Muestreo probabilístico

En la otra cara de la moneda, tenemos el muestreo no probabilístico que, como puedes imaginar, es aquel que no da las mismas opciones de ser seleccionados a toda la población. Veamos los 4 subtipos que se engloban dentro del mismo:

Muestreo por conveniencia: Es aquel en el cual elegimos a los miembros del estudio por proximidad, sin tener en cuenta si constituyen una muestra representativa o no.
Muestreo deliberado o por juicio: En este caso, lo que se tiene en cuenta a la hora de elegir la muestra es el propio juicio del investigador.
Muestreo bola de nieve: Es empleado para aquellas situaciones en las que es complicado conseguir una muestra y consiste, básicamente, en pedir a las personas inicialmente seleccionadas para el estudio que recluten a otras personas con unas características determinadas para participar en el mismo.
Muestreo por cuotas: En este último caso, se elige a los sujetos de la muestra en base a una serie de rasgos o cualidades, de manera que esos perfiles permitan tener la seguridad de que la muestra contiene todos los colectivos que pueden encontrarse en un universo determinado (supuesto que se conoce el perfil de dicha población según determinadas variables, que se utilizarán para establecer las cuotas). Esta es una de las formas de muestreo más habituales en investigación de mercados.

Mayor información en https://www.cimec.es/muestreo-probabilistico-y-no-probabilistico/.

3.-MUESTREO ALEATORIO SIMPLE (M.A.S.):

3.1.-Para proporción

En este caso, se está estimando la proporción de elementos que tienen una característica específica dentro de la población. Se elige una muestra al azar de elementos, se cuenta cuántos de ellos tienen la característica de interés y se calcula la proporción de estos elementos en la muestra. Luego, esta proporción de muestra se utiliza como una estimación de la proporción poblacional

3.1.1.- M.A.S. para la proporción con N conocido:

Se realiza una encuesta de satisfacción de un curso, solo el 60% de los estudiantes de la universidad están satisfechos (proporción poblacional P = 0.6). Se realiza una toma aleatoria simple de muestras de 20 estudiantes. En la muestra se determinaran cuantos están satisfechos

mas_proporcion_conocido <- function(Data,muestra) {
Ndata <- length(Data)
Respuesta <- sum(Data != 0)
Ppoblacional <- Respuesta/Ndata

muestras_selec <- sample(Data,muestra) #muestras seleccionadas
Respuestamuestra <- sum(muestras_selec != 0)
pmuestral <- Respuestamuestra/muestra
cat('La proporción muestral es', pmuestral) # Retornar la proporcion muestral
Error_estandar = sqrt((Ppoblacional*(1-Ppoblacional))/muestra)
limite_inferior <- pmuestral-2*Error_estandar
limite_superior <- pmuestral+2*Error_estandar
cat('. Los IC al 95% son: Limite inferior: ', limite_inferior,'y limite superior: ',limite_superior) # Retornar los limites
}

Data <- c(1,0,1,0,0,0,1,1,0,1,0,1,0,0,1,0,1,0,1,1,1,1,1,0,1,0,1,1,0,1,0,1,1,1,1,1,1,0,0,1,1,0,1,1,1,0,0,0,1,1)
muestra <- 20
IC <- mas_proporcion_conocido(Data,muestra)

## La proporción muestral es 0.55. Los IC al 95% son: Limite inferior:  0.330911 y limite superior:  0.769089

3.1.2.- M.A.S. para la proporción con N desconocido

Se quiere conocer la preferencia de un producto, supongamos que no conocemos la proporción de participantes en una población que prefieren el producto. Se desea estimar esta proporción. Se toma una muestra aleatoria simple de 100 personas de la población. Preguntamos por su preferencia y 50 dicen que prefieren al candidato A.

mas_proporcion_desconocido <- function(Muestra,Z) {
  Nmuestra <- length(Muestra)
  Respuesta <- sum(Data != 0)
  pmuestral <- Respuesta/Nmuestra
  cat('La proporción muestral es', pmuestral) # Retornar la proporcion muestral
  Error_estandar = sqrt((pmuestral*(1-pmuestral))/Nmuestra)
  limite_inferior <- pmuestral-Z*Error_estandar
  limite_superior <- pmuestral+Z*Error_estandar
  cat('. Los IC al 95% son: Limite inferior: ', limite_inferior,'y limite superior: ',limite_superior) # Retornar los limites
}

Muestra <- c(1,0,1,0,1,0,1,0,0,1,0,1,1,1,1,0,0,0,0,0,1,0,1,1,1,1,1,1,1,1,1,1,0,1,0,0,1,0,1,0,1,0,0,0,1,1,0,1,0,1,0,0,1,0,1,0,1,0,1,0,1,0,0,0,1,1,0,1,0,1,0,0,1,0,1,0,1,0,1,0,1,0,0,0,1,1,0,1,0,1,0,0,1,0,1,0,1,0,1,0)
Z <- 1.96
IC <- mas_proporcion_conocido(Muestra,Z)

## La proporción muestral es 0.5102041. Los IC al 95% son: Limite inferior:  -0.2040816 y limite superior:  1.22449

3.1.-Para promedio

En este caso, se está estimando el promedio de una variable numérica en la población. Se elige una muestra al azar de elementos, se obtienen los valores de la variable de interés para esos elementos y se calcula el promedio de esos valores. Luego, se utiliza este promedio de muestra como una estimación del promedio poblacional.

3.2.1.- M.A.S. para el promedio con N conocido

Para población de tamaño conocido N:

El error estándar se calcula como: SE = s / √N En la fórmula del IC se utiliza la distribución normal estandarizada (Z) El IC tiene la interpretación de abarcar el verdadero valor poblacional μ

zcritico <- function(niveldeconfianza){
  alpha <- 1 - niveldeconfianza
  z <- sqrt(2)*erfinv(1 - alpha)
  return(z)
}

mas_promedio_conocido <- function(Data_rendimiento, muestra,niveldeconfianza) {
  N <- length(Data_rendimiento)  # Obtener el tamaño de la población (cantidad total de datos)
  muestras_selec <- sample(Data_rendimiento,muestra) #muestras seleccionadas
  prom_muestra <- mean(muestras_selec)   # Calcular el promedio de la muestra
  cat('Las muestras seleccionadas son:', muestras_selec) # Retornar las muestras seleccionadas
  # Estimar el error estándar
  error_st <- sd(muestras_selec) / sqrt(N)
  cat('. El error estándar obtenido es:', error_st) # Retornar el error estandar de la muestra
  # Calcular los límites del intervalo de confianza
  limite_inferior <- prom_muestra - z * error_st
  limite_superior <- prom_muestra + z * error_st
  
  cat('. Los límites: Limite inferior: ', limite_inferior,'y limite superior: ',limite_superior) # Retornar los limites
}
z <- 1.96

Data_rendimiento <- c(33, 31.5, 31.5, 33, 33, 37.5, 39, 36,39, 33, 34.5, 31.5, 33, 33, 31.5, 31.5, 46.5, 36, 33, 34.5, 43.5, 31.5, 43.5, 31.5, 33, 34.5, 37.5, 34.5, 31.5, 34.5, 31.5, 31.5, 34.5, 37.5, 37.5, 45, 45, 31.5, 33, 31.5, 39, 31.5, 37.5, 51, 33, 33, 33, 34.5, 34.5,33, 33, 34.5, 34.5, 31.5, 39, 31.5, 31.5, 33, 31.5, 51, 31.5, 33, 31.5, 31.5, 31.5, 31.5, 39, 51,43.5, 39, 40, 51, 39, 31.5,31.5
)
muestra <- 5 #indicar el número de muestras a seleccionar (ejemplo: 5 muestras)
nivel_confianza <- 0.95
muestras_selecc <- mas_promedio_conocido(Data_rendimiento, muestra,niveldeconfianza)

## Las muestras seleccionadas son: 51 31.5 31.5 34.5 31.5. El error estándar obtenido es: 0.9797959. Los límites: Limite inferior:  34.0796 y limite superior:  37.9204

3.2.2.- M.A.S. para el promedio con N desconocido

El error estándar se calcula como: SE = s / √n En la fórmula del IC se utiliza la distribución t de Student El IC se interpreta sobre el promedio de las muestras posibles

# Función para realizar M.A.S. para promedio con tamaño de población desconocido

tstudent <- function(n, niveldeconfianza){
  alpha <- 1 - niveldeconfianza
  t <- abs(qt(alpha/2, df=n-1))
  return(t)
}

mas_promedio_desconocido <- function(muestra, niveldeconfianza) {
  # Seleccionar índices al azar para la muestra
  muestras_selec <- sample(Notas,muestra) #muestras seleccionadas
  n <- length(muestras_selec)  # Obtener el tamaño de la población (cantidad total de datos)

  cat('Las muestras seleccionadas son:', muestras_selec) # Retornar las muestras seleccionadas
  Promedio_muestras <- mean(muestras_selec)  # Calcular el promedio de la muestra
  desv_st <- sd(muestras_selec) #calcular desviacion estandar muestral
  
  t <- tstudent(n, niveldeconfianza) 
  
  limite_inferior <- Promedio_muestras - (t * desv_st)/sqrt(n)
  limite_superior <- Promedio_muestras + (t * desv_st)/sqrt(n)
  cat('. Los límites: Limite inferior: ', limite_inferior,'y limite superior: ',limite_superior) # Retornar los limites
}

# Notas de alumnos en curso de Matemática del último examen
Notas <- c(11,15,17,18,9,10,12,14,17,18,19,19,19,20,14,15,19,20,20,20,20,20,20,20,20,19,19,18)
muestra <- 6 #indicar el número de muestras a seleccionar (ejemplo: 6 muestras)
IC <- mas_promedio_desconocido(muestra, 0.95)

## Las muestras seleccionadas son: 20 12 15 19 20 19. Los límites: Limite inferior:  14.06721 y limite superior:  20.93279

Trabajo Final

Jimmy Junior Crisanto Mechato

2023-08-17