Objetivo

Determinar y simular muestreos

Descripción

Con un conjunto de datos utilizar mecanismos de programación para determinar muestreos mediante técnicas de aleatorio simple, aleatorio sistemático, aleatorio estratificado y por conglomerados.

Sustento teórico

El propósito de la estadística inferencial consiste en determinar y conocer el comportamiento sobre una población a partir de una muestra.

Una muestra es una porción, una proporción o parte de la población de interés. En muchos casos, el muestreo resulta más accesible y sencillo que el estudio de toda la población. [@lind_estadistica_2015].

Por otra parte la importancia del muestreo como lo menciona [@anderson_estadistica_2008] es cuestión de minimizar costo de trabajo, recopilar información de una muestra es sustancialmente menor, que hacerlo de una población completa; especialmente cuando se deben realizar entrevistas personales para recopilar la información.

Finamente, los métodos de muestreo aleatorio y sin sesgos son muy importantes para realizar inferencias estadísticas válidas [@lind_estadistica_2015].

Muestreo aleatorio simple

Una muestra aleatoria simple de tamaño \(n\) de una población finita de tamaño \(N\) es una muestra seleccionada de manera que cada posible muestra de tamaño \(n\) tenga la misma probabilidad de ser seleccionada [@anderson_estadistica_2008].

De un conjunto de \(N\) elementos de una población, un muestreo aleatorio simple sería una especie de rifa o tómbola para elegir de de entre los \(N\) total de población una cantidad de \(n\) número de la muestra.

Muestreo aleatorio sistemático

Se selecciona un punto aleatorio de inicio y posteriormente se elige cada k-ésimo miembro de la población [@lind_estadistica_2015].

Suele emplearse como alternativa al muestreo aleatorio simple, en especial cuando las poblaciones son grandes se lleva mucho tiempo tomar una muestra aleatoria simple en la que primero hay que hallar un número aleatorio y después contar o buscar en el marco el elemento correspondiente [@anderson_estadistica_2008].

El primer elemento se elige aleatoriamente, lo que permite suponer que una muestra sistemática tiene las propiedades de una muestra aleatoria simple. Esta suposición suele ser correcta cuando el marco es un ordenamiento aleatorio de los elementos de la población [@anderson_estadistica_2008]

Muestreo aleatorio estratificado

Cuando una población se divide en grupos a partir de ciertas características, el muestreo aleatorio estratificado garantiza que cada grupo o estrato se encuentre representado en la muestra [@lind_estadistica_2015].

[@anderson_estadistica_2008] describe el muestreo aleatorio estratificado en donde los elementos de la población primero se dividen en grupos, a los que se les llama estratos, de manera que cada elemento pertenezca a uno y sólo un estrato. La base para la formación de los estratos, que puede ser departamento, edad, tipo de industria, entre otros, está a discreción de la persona que diseña la muestra.

Por otra parte, para asegurar que la muestra sea una representación imparcial de las \(N\) observaciones, se debe determinar la frecuencia relativa y a partir de ahí generar las cantidad de muestra de cada estrato. [@lind_estadistica_2015].

Muestreo por conglomerados

La población se divide en conglomerados a partir de los límites naturales geográficos u otra clase. A continuación, estos se seleccionan al azar y se toma una muestra de forma aleatoria con elementos de cada grupo [@lind_estadistica_2015].

Desarrollo

Cargar librerías

{r message=FALSE, warning=FALSE} library(dplyr) library(mosaic) library(readr) library(ggplot2) # Para gráficos library(knitr) # Para formateo de datos library(fdth) # Para tablas de frecuencias library(leaflet) # Para hacer mapas

Cargar datos

Cargar datos de nombres de personas

  • Se carga un conjunto de 100 nombres de personas con sus atributo de género y la actividad deportiva o cultura que practican,
  • Cargando un datos llamando a una función que construye los datos.
  • El argumento encoding significa que acepte acentos en los datos.

```{r warning=FALSE, message=FALSE} source(“https://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/2023/funciones/f_construir_datos_y_funciones.r”, encoding = “UTF-8”)

kable(head(personas, 10), caption = “Los primeros diez registros de nombres en el conjunto de datos”) kable(tail(personas, 10), caption = “Las útimos diez registros de nombres en el conjunto de datos”)


### Cargar datos de alumnos

-   Se cargan os datos de alumnos inscritos en una Institución de educación superior en un semestre con los atributos o variables siguientes:

    -   No de control (modificado y no real),
    -   Número Consecutivo de alumno
    -   Semestre que cursa
    -   Créditos aprobados
    -   Carga académica que cursa
    -   Promedio aritmético
    -   Carrera

```{r warning=FALSE, message=FALSE}
alumnos <- read_csv("https://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/2023/datos/datos_alumnos_lat_long.csv")
kable(head(alumnos, 10), caption = "Los primeros diez registros de alumnos")
kable(tail(alumnos, 10), caption = "Las útimos diez registros de alumnos")

Sembrar una semilla

set.seed(2023)

Simular muestreos

Muestreo aleatorio simple

  • Hay que encuestar a diez personas de 100 para hacerles alguna entrevista, ¿a quienes?
  • Con el conjunto de datos seleccionar 10 personas aleatoriamente con la función sample(). Con el argumento replace=FALSE significa que no se repita el elemento seleccionado en la muestra.
N <- nrow(personas)
n <- 10
muestra <- sample(x = personas$nombres, size = n, replace = FALSE)
kable(muestra, caption = "La muestra de personas")
  
  • Con el conjunto de datos alumnos, hay que encontrar a 100 alumnos, ¿A cuáles?
N <- nrow(alumnos)
n <- 100
registros <- sample(x = 1:N, size = n, replace = FALSE) # Genera los números
muestra <- alumnos[registros, ]
kable(muestra, caption = "La muestra de alumnos")
  

3.2. Muestreo aleatorio sistemático

  • Con el conjunto de datos personas, iniciar en un valor aleatorio e identificar los siguientes de 10 en 10 hasta tener diez personas.
N <- nrow(personas)
n = 10
saltos <- round(N / n, 0)
inicio <- round(sample(N, 1) / n, 0)
#inicio
cuales <- seq(from = inicio, to =N, by= saltos)
kable(personas[cuales, ], caption = "La muestra sistematizada de personas")
  • Con el conjunto de datos alumnos, hay que encontrar a 100 alumnos, ¿A cuáles?, bajo el muestreo sistematizado
N <- nrow(alumnos)
n = 100
saltos <- round(N / n, 0)
inicio <- round(sample(N, 1) / n, 0)
cuales <- seq(from = inicio, to =N, by= saltos)
kable(alumnos[cuales, ], caption = "La muestra de alumnos")
  

Muestreo aleatorio estratificado

  • Con el conjunto de datos de personas se trata de encontrar 10 , pero que sea representativa de acuerdo y conforme al género femenino y masculino.
  • ¿Cuál es la frecuencia relativa del género femenino?
  • ¿Cuál es la frecuencia relativa del género masculino?
  • Ambas frecuencias multiplicar por el tamaño de la muestra para garantizar imparcialidad en la muestra.
N <- nrow(personas)
n <- 10
femeninos  <- filter(personas, generos=='F')
masculinos <- filter(personas, generos=='M')
frfem <- nrow(femeninos) / N
frmas <- nrow(masculinos) / N
frfem 
frmas 
muestraFem <- sample(femeninos, n * frfem)
kable(muestraFem, caption = "La muestra de personas Femenino")
muestraMas <- sample(masculinos, n * frmas)
kable(muestraMas, caption = "La muestra de personas Masculino")
  • Simular muestreo estratificado por carreras de alumnos determinando las frecuencias relativas por medio de la función fdt_cat()
N <- nrow(alumnos)
n <- 100
alumnos
tabla_frec <- data.frame(fdt_cat(alumnos$Carrera))
tabla_frec$muestra <-  round(tabla_frec$rf * n, 0)
kable(tabla_frec, caption = "Tabla de frecuencia de alumnos")
  • ¿Cuáles alumnos?
  • Sólo simular carreras de SISTEMAS Y CIVIL
N <- nrow(alumnos)
n <- 100
sistemas  <- filter(alumnos, Carrera =='SISTEMAS')
civil <- filter(alumnos, Carrera == 'CIVIL')
frsistemas <- nrow(sistemas) / N
frcivil <- nrow(civil) / N
frsistemas
frcivil 
muestrasistemas <- sample(sistemas, round(n * frsistemas, 0))
kable(muestrasistemas, caption = "La muestra de alumnos de Sistemas.")
muestracivil <- sample(civil, round(n * frcivil, 0))
kable(muestracivil, caption = "La muestra de alumnos de Civil")

Muestreo por conglomerados

Mostrar los primeros diez y últimos diez alumnos verificando las tres columnas de localidad, latitud y longitud.

kable(head(alumnos[, c('Alumno', 'localidad', 'latitud', 'longitud')], 10), caption = "Los primeros diez registros de alumnos")
kable(tail(alumnos[, c('Alumno', 'localidad', 'latitud', 'longitud')], 10), caption = "Las útimos diez registros de alumnos")

Determinar la frecuencias por localidad

N <- nrow(alumnos)
n <- 100
tabla_frec <- data.frame(fdt_cat(alumnos$localidad))
tabla_frec$muestra <-  round(tabla_frec$rf * n, 0)
kable(tabla_frec, caption = "Tabla de frecuencia de alumnos por localidad")

Determinar el porcentaje que le corresponde a cada conglomerado conforme a la frecuencia relativa.

¿Cuáles alumnos?, de acuerdo al conglomerado o la localidad

Simular por las seis localidades

localidades <- tabla_frec$Category
localidades
N <- nrow(alumnos)
n <- 100
# Determinar cada conglomerado
loc1 <- filter(alumnos, localidad == tabla_frec$Category[1])
loc2 <- filter(alumnos, localidad == tabla_frec$Category[2])
loc3 <- filter(alumnos, localidad == tabla_frec$Category[3])
loc4 <- filter(alumnos, localidad == tabla_frec$Category[4])
loc5 <- filter(alumnos, localidad == tabla_frec$Category[5])
loc6 <- filter(alumnos, localidad == tabla_frec$Category[6])
# Determinar frecuencias de cada conglomerado similiar a la tabla tabla_frec
frloc1 <- nrow(loc1) / N
frloc2 <- nrow(loc2) / N
frloc3 <- nrow(loc3) / N
frloc4 <- nrow(loc4) / N
frloc5 <- nrow(loc5) / N
frloc6 <- nrow(loc6) / N
# Crear muestras
muestraloc1 <- sample(x = loc1, size = round(n * frloc1, 0), replace = FALSE)
kable(muestraloc1, caption = paste("La muestra de alumnos de Localidad ",tabla_frec$Category[1] ))
muestraloc2 <- sample(loc2, round(n * frloc2, 0))
kable(muestraloc2, caption = paste("La muestra de alumnos de Localidad ",tabla_frec$Category[2] ))
muestraloc3 <- sample(loc3, round(n * frloc3, 0))
kable(muestraloc3, caption = paste("La muestra de alumnos de Localidad ",tabla_frec$Category[3] ))
muestraloc4 <- sample(loc4, round(n * frloc4, 0))
kable(muestraloc4, caption = paste("La muestra de alumnos de Localidad ",tabla_frec$Category[4] ))
muestraloc5 <- sample(loc5, round(n * frloc5, 0))
kable(muestraloc5, caption = paste("La muestra de alumnos de Localidad ",tabla_frec$Category[5] ))
muestraloc6 <- sample(loc6, round(n * frloc6, 0))
kable(muestraloc6, caption = paste("La muestra de alumnos de Localidad ",tabla_frec$Category[6] ))
Visualizar con mapas
  • Cargar la librerías para mapas previamente
  • Usando los valores de latitud y longitud
map<-leaflet() %>%
  addTiles() %>%
  addMarkers(lat = unique(muestraloc1$latitud ), lng = unique(muestraloc1$longitud), popup = paste(unique(muestraloc1$localidad), "Muestra de:", nrow(muestraloc1), "alumnos"))  %>%
  addMarkers(lat = unique(muestraloc2$latitud ), lng = unique(muestraloc2$longitud), popup = paste(unique(muestraloc2$localidad), "Muestra de:", nrow(muestraloc2), "alumnos")) %>%
addMarkers(lat = unique(muestraloc3$latitud ), lng = unique(muestraloc3$longitud), popup = paste(unique(muestraloc3$localidad), "Muestra de:", nrow(muestraloc3), "alumnos")) %>% 
    addMarkers(lat = unique(muestraloc4$latitud ), lng = unique(muestraloc4$longitud), popup = paste(unique(muestraloc4$localidad), "Muestra de:", nrow(muestraloc4), "alumnos")) %>%
addMarkers(lat = unique(muestraloc5$latitud ), lng = unique(muestraloc5$longitud), popup = paste(unique(muestraloc5$localidad), "Muestra de:", nrow(muestraloc5), "alumnos")) %>%
  addMarkers(lat = unique(muestraloc6$latitud ), lng = unique(muestraloc6$longitud), popup = paste(unique(muestraloc6$localidad), "Muestra de:", nrow(muestraloc6), "alumnos"))
  
  
  
  
  
# Mostrar el mapa 
map

Interpretación de tipos de muestreo

Muestreo aleatorio simple

Forman parte de este tipo de muestreo todos aquellos métodos para los que se puede calcular la probabilidad de extracción de cualquiera de las muestras posibles. Este conjunto de técnicas de muestreo es el más aconsejable, aunque en ocasiones no es posible optar por él.

Muestreo sistemático

Se utiliza cuando el universo o población es de gran tamaño, o ha de extenderse en el tiempo. Primero hay que identificar las unidades y relacionarlas con el calendario (cuando proceda). Luego hay que calcular una constante, denominada coeficiente de elevación:

                                                 K= N/n, 

donde N es el tamaño de la población y n el tamaño de la muestra.

Para determinar en qué fecha se producirá la primera extracción hay que elegir al azar un número entre 1 y K; de ahí en adelante tomar uno de cada K a intervalos regulares. Ocasionalmente, es conveniente tener en cuenta la periodicidad del fenómeno.

Esto quiere decir que si tenemos un determinado número de personas que es la población (N) y queremos escoger de esa población un número más pequeño el cual es la muestra (n), dividimos el número de la población por el número de la muestra que queremos tomar y el resultado de esta operación será el intervalo, entonces escogemos un número al azar desde uno hasta el número del intervalo, y a partir de este número escogemos los demás siguiendo el orden.

Muestreo estratificado

Consiste en la división previa de la población de estudio en grupos o clases que se suponen homogéneos con respecto a alguna característica de las que se van a estudiar. A cada uno de estos estratos se le asignaría una cuota que determinaría el número de miembros del mismo que compondrán la muestra. Dentro de cada estrato se suele usar la técnica de muestreo sistemático, una de las técnicas de selección más usadas en la práctica.

Según la cantidad de elementos de la muestra que se han de elegir de cada uno de los estratos, existen dos técnicas de muestreo estratificado:

  • Asignación proporcional: el tamaño de la muestra dentro de cada estrato es proporcional al tamaño del estrato dentro de la población.

  • Asignación óptima: la muestra recogerá más individuos de aquellos estratos que tengan más variabilidad. Para ello es necesario un conocimiento previo de la población.

Por ejemplo, para un estudio de opinión, puede resultar interesante estudiar por separado las opiniones de hombres y mujeres pues se estima que, dentro de cada uno de estos grupos, puede haber cierta homogeneidad. En la asignación proporcional, si la población está compuesta de un 55% de mujeres y un 45 % de hombres, se tomaría una muestra que contenga también esos mismos porcentajes de hombres y mujeres. En la asignación óptima, si todos los hombres piensan igual, pero las mujeres son impredecibles, se tomaría una muestra con más del 55% de mujeres.

Para una descripción general del muestreo estratificado y los métodos de inferencia asociados con este procedimiento, suponemos que la población está dividida en h subpoblaciones o estratos de tamaños conocidos N1, N2,..., Nh tal que las unidades en cada estrato sean homogéneas respecto a la característica en cuestión. La media y la varianza desconocidas para el i-ésimo estrato son denotadas por mi y si2, respectivamente.

Muestreo por etapas múltiples

Esta técnica es la única opción cuando no se dispone de lista completa de la población de referencia o bien cuando por medio de la técnica de muestreo simple o estratificado se obtiene una muestra con unidades distribuidas de tal forma que resultan de difícil acceso. En el muestreo a estudios múltiples, se subdivide la población en varios niveles ordenados que se extraen sucesivamente por medio de un procedimiento de embudo. El muestreo se desarrolla en varias fases o extracciones sucesivas para cada nivel.

Por ejemplo, si es necesario construir una muestra de profesores de primaria en un país determinado, estos pueden subdividirse en unidades primarias representadas por circunscripciones didácticas y unidades secundarias que serían los propios profesores. En primer lugar extraemos una muestra de las unidades primarias (para lo cual debemos tener la lista completa de estas unidades) y en segundo lugar extraemos aleatoriamente una muestra de unidades secundarias de cada una de las primarias seleccionadas en la primera extracción.

Muestreo por conglomerados

Artículo principal: Muestreo por conglomerados

Se utiliza cuando la población se encuentra dividida, de manera natural, en grupos que se supone que contienen toda la variabilidad de la población, es decir, la representan fielmente respecto a la característica a elegir, pueden seleccionarse sólo algunos de estos grupos o conglomerados para la realización del estudio.

Dentro de los grupos seleccionados se ubicarán las unidades elementales, por ejemplo, las personas a encuestar, y podría aplicársele el instrumento de medición a todas las unidades, es decir, los miembros del grupo, o sólo se le podría aplicar a algunos de ellos, seleccionados al azar. Este método tiene la ventaja de simplificar la recolección de información muestral.

Cuando, dentro de cada conglomerado seleccionado, se extraen algunos individuos para integrar la muestra, el diseño se llama muestreo bietápico.

Las ideas de estratos y conglomerados son, en cierto sentido, opuestas. El primer método funciona mejor cuanto más homogénea es la población respecto del estrato, aunque más diferentes son estos entre sí. En el segundo, ocurre lo contrario. Los conglomerados deben presentar toda la variabilidad, aunque deben ser muy parecidos entre sí.

Homogeneidad de las poblaciones o sus subgrupos

Homogéneo significa, en el contexto de la estratificación, que no hay mucha variabilidad. Los estratos funcionan mejor cuanto más homogéneos son cada uno de ellos respecto a la característica a medir. Por ejemplo, si se estudia la estatura de una población, es bueno distinguir entre los estratos mujeres y hombres porque se espera que, dentro de ellos, haya menos variabilidad, es decir, sean menos heterogéneos. Dicho de otro modo, no hay tantas diferencias entre unas estaturas y otras dentro del estrato que en la población total.

Por el contrario, la heterogeneidad hace inútil la división en estratos. Si se dan las mismas diferencias dentro del estrato que en toda la población, no hay por qué usar este método de muestreo. En los casos en los que existan grupos que contengan toda la variabilidad de la población, lo que se construyen son conglomerados, que ahorran algo del trabajo que supondría analizar toda la población. En resumen, los estratos y los conglomerados funcionan bajo principios opuestos: los primeros son mejores cuanto más homogéneo es el grupo respecto a la característica a estudiar y los conglomerados, si representan fielmente a la población, esto es, contienen toda su variabilidad, o sea, son heterogéneos.

El espacio muestral es: Conjunto formado por todos los resultados posibles de un experimento aleatorio. Ejemplo: Al lanzar un dado no cargado el espacio muestral del dado sería: 1-2-3-4-5-6.

Muestreo no probabilístico

Es aquel para el que no se puede calcular la probabilidad de extracción de una determinada muestra ya que no todos los sujetos tienen la misma probabilidad de ser elegidos. Por tal motivo, se busca seleccionar a individuos que tienen un conocimiento profundo del tema bajo estudio y se considera que la información aportada por esas personas es vital para la toma de decisiones.

Muestreo por cuotas

Es la técnica más difundida sobre todo en estudios de mercado y sondeos de opinión. En primer lugar es necesario dividir la población de referencia en varios estratos definidos por algunas variables de distribución conocida (como el género o la edad). Posteriormente se calcula el peso proporcional de cada estrato, es decir, la parte proporcional de población que representan. Finalmente se multiplica cada peso por el tamaño de n de la muestra para determinar la cuota precisa en cada estrato. Se diferencia del muestreo estratificado en que una vez determinada la cuota, el investigador es libre de elegir a los sujetos de la muestra dentro de cada estrato.

Muestreo de bola de nieve

Indicado para estudios de poblaciones clandestinas, minoritarias o muy dispersas pero en contacto entre sí. Consiste en identificar sujetos que se incluirán en la muestra a partir de los propios entrevistados. Partiendo de una pequeña cantidad de individuos que cumplen los requisitos necesarios, servirán como localizadores de otros con características análogas.

Muestreo subjetivo por decisión razonada

En este caso las unidades de la muestra se eligen en función de algunas de sus características de manera racional y no casual. Una variante de esta técnica es el muestreo compensado o muestreo equilibrado, en el que se seleccionan las unidades de tal forma que la media de la muestra para determinadas variables se acerque a la media de la población, la cual funciona sobre la base de referencias o por recomendación, después se reconoce por medio de la estadística.

Referencias Bibliográficas

[@lind_estadistica_2015].

[@anderson_estadistica_2008]

  1. Muestreo (publicado por la ((Universidad de Sonora))

  2. Salant, Priscilla, I. Dillman, and A. Don. How to conduct your own survey. No. 300.723 S3.. 1994.

  3. Robert M. Groves (2009). Metodología de encuestas. ISBN 978-0470465462.

  4. Lohr, Sharon L.. Muestreo: Diseño y análisis.

  5. Särndal, Carl-Erik; Swensson, Bengt; Wretman, Jan. Muestreo de encuestas asistido por modelos.

  6. Scheaffer, Richard L.; William Mendenhal; R. Lyman Ott. (2006). Muestreo elemental de encuestas.

  7. Martínez Bencardino, Ciro (2012). Estadística y muestreo. Bogotá: Ecoe.

  8. Cochran, William G. (1980). Técnicas de muestreo. México: CECSA.

  9. Lance, P.; Hattori, A. (2016). Sampling and Evaluation. Web: MEASURE Evaluation. pp. 6-8, 62-64.

  10. Salant, Priscilla, I. Dillman, and A. Don. How to conduct your own survey. No. 300.723 S3. 1994.