Determinar y simular muestreos
Con un conjunto de datos utilizar mecanismos de programación para determinar muestreos mediante técnicas de aleatorio simple, aleatorio sistemático, aleatorio estratificado y por conglomerados.
El propósito de la estadística inferencial consiste en determinar y conocer el comportamiento sobre una población a partir de una muestra.
Una muestra es una porción, una proporción o parte de la población de interés. En muchos casos, el muestreo resulta más accesible y sencillo que el estudio de toda la población. [@lind_estadistica_2015].
Por otra parte la importancia del muestreo como lo menciona [@anderson_estadistica_2008] es cuestión de minimizar costo de trabajo, recopilar información de una muestra es sustancialmente menor, que hacerlo de una población completa; especialmente cuando se deben realizar entrevistas personales para recopilar la información.
Finamente, los métodos de muestreo aleatorio y sin sesgos son muy importantes para realizar inferencias estadísticas válidas [@lind_estadistica_2015].
Una muestra aleatoria simple de tamaño \(n\) de una población finita de tamaño \(N\) es una muestra seleccionada de manera que cada posible muestra de tamaño \(n\) tenga la misma probabilidad de ser seleccionada [@anderson_estadistica_2008].
De un conjunto de \(N\) elementos de una población, un muestreo aleatorio simple sería una especie de rifa o tómbola para elegir de de entre los \(N\) total de población una cantidad de \(n\) número de la muestra.
Se selecciona un punto aleatorio de inicio y posteriormente se elige cada k-ésimo miembro de la población [@lind_estadistica_2015].
Suele emplearse como alternativa al muestreo aleatorio simple, en especial cuando las poblaciones son grandes se lleva mucho tiempo tomar una muestra aleatoria simple en la que primero hay que hallar un número aleatorio y después contar o buscar en el marco el elemento correspondiente [@anderson_estadistica_2008].
El primer elemento se elige aleatoriamente, lo que permite suponer que una muestra sistemática tiene las propiedades de una muestra aleatoria simple. Esta suposición suele ser correcta cuando el marco es un ordenamiento aleatorio de los elementos de la población [@anderson_estadistica_2008]
Cuando una población se divide en grupos a partir de ciertas características, el muestreo aleatorio estratificado garantiza que cada grupo o estrato se encuentre representado en la muestra [@lind_estadistica_2015].
[@anderson_estadistica_2008] describe el muestreo aleatorio estratificado en donde los elementos de la población primero se dividen en grupos, a los que se les llama estratos, de manera que cada elemento pertenezca a uno y sólo un estrato. La base para la formación de los estratos, que puede ser departamento, edad, tipo de industria, entre otros, está a discreción de la persona que diseña la muestra.
Por otra parte, para asegurar que la muestra sea una representación imparcial de las \(N\) observaciones, se debe determinar la frecuencia relativa y a partir de ahí generar las cantidad de muestra de cada estrato. [@lind_estadistica_2015].
La población se divide en conglomerados a partir de los límites naturales geográficos u otra clase. A continuación, estos se seleccionan al azar y se toma una muestra de forma aleatoria con elementos de cada grupo [@lind_estadistica_2015].
{r message=FALSE, warning=FALSE} library(dplyr) library(mosaic) library(readr) library(ggplot2) # Para gráficos library(knitr) # Para formateo de datos library(fdth) # Para tablas de frecuencias library(leaflet) # Para hacer mapas
```{r warning=FALSE, message=FALSE} source(“https://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/2023/funciones/f_construir_datos_y_funciones.r”, encoding = “UTF-8”)
kable(head(personas, 10), caption = “Los primeros diez registros de nombres en el conjunto de datos”) kable(tail(personas, 10), caption = “Las útimos diez registros de nombres en el conjunto de datos”)
### Cargar datos de alumnos
- Se cargan os datos de alumnos inscritos en una Institución de educación superior en un semestre con los atributos o variables siguientes:
- No de control (modificado y no real),
- Número Consecutivo de alumno
- Semestre que cursa
- Créditos aprobados
- Carga académica que cursa
- Promedio aritmético
- Carrera
```{r warning=FALSE, message=FALSE}
alumnos <- read_csv("https://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/2023/datos/datos_alumnos_lat_long.csv")
kable(head(alumnos, 10), caption = "Los primeros diez registros de alumnos")
kable(tail(alumnos, 10), caption = "Las útimos diez registros de alumnos")
set.seed(2023)
N <- nrow(personas)
n <- 10
muestra <- sample(x = personas$nombres, size = n, replace = FALSE)
kable(muestra, caption = "La muestra de personas")
N <- nrow(alumnos)
n <- 100
registros <- sample(x = 1:N, size = n, replace = FALSE) # Genera los números
muestra <- alumnos[registros, ]
kable(muestra, caption = "La muestra de alumnos")
N <- nrow(personas)
n = 10
saltos <- round(N / n, 0)
inicio <- round(sample(N, 1) / n, 0)
#inicio
cuales <- seq(from = inicio, to =N, by= saltos)
kable(personas[cuales, ], caption = "La muestra sistematizada de personas")
N <- nrow(alumnos)
n = 100
saltos <- round(N / n, 0)
inicio <- round(sample(N, 1) / n, 0)
cuales <- seq(from = inicio, to =N, by= saltos)
kable(alumnos[cuales, ], caption = "La muestra de alumnos")
N <- nrow(personas)
n <- 10
femeninos <- filter(personas, generos=='F')
masculinos <- filter(personas, generos=='M')
frfem <- nrow(femeninos) / N
frmas <- nrow(masculinos) / N
frfem
frmas
muestraFem <- sample(femeninos, n * frfem)
kable(muestraFem, caption = "La muestra de personas Femenino")
muestraMas <- sample(masculinos, n * frmas)
kable(muestraMas, caption = "La muestra de personas Masculino")
N <- nrow(alumnos)
n <- 100
alumnos
tabla_frec <- data.frame(fdt_cat(alumnos$Carrera))
tabla_frec$muestra <- round(tabla_frec$rf * n, 0)
kable(tabla_frec, caption = "Tabla de frecuencia de alumnos")
N <- nrow(alumnos)
n <- 100
sistemas <- filter(alumnos, Carrera =='SISTEMAS')
civil <- filter(alumnos, Carrera == 'CIVIL')
frsistemas <- nrow(sistemas) / N
frcivil <- nrow(civil) / N
frsistemas
frcivil
muestrasistemas <- sample(sistemas, round(n * frsistemas, 0))
kable(muestrasistemas, caption = "La muestra de alumnos de Sistemas.")
muestracivil <- sample(civil, round(n * frcivil, 0))
kable(muestracivil, caption = "La muestra de alumnos de Civil")
Mostrar los primeros diez y últimos diez alumnos verificando las tres columnas de localidad, latitud y longitud.
kable(head(alumnos[, c('Alumno', 'localidad', 'latitud', 'longitud')], 10), caption = "Los primeros diez registros de alumnos")
kable(tail(alumnos[, c('Alumno', 'localidad', 'latitud', 'longitud')], 10), caption = "Las útimos diez registros de alumnos")
Determinar la frecuencias por localidad
N <- nrow(alumnos)
n <- 100
tabla_frec <- data.frame(fdt_cat(alumnos$localidad))
tabla_frec$muestra <- round(tabla_frec$rf * n, 0)
kable(tabla_frec, caption = "Tabla de frecuencia de alumnos por localidad")
Determinar el porcentaje que le corresponde a cada conglomerado conforme a la frecuencia relativa.
¿Cuáles alumnos?, de acuerdo al conglomerado o la localidad
Simular por las seis localidades
localidades <- tabla_frec$Category
localidades
N <- nrow(alumnos)
n <- 100
# Determinar cada conglomerado
loc1 <- filter(alumnos, localidad == tabla_frec$Category[1])
loc2 <- filter(alumnos, localidad == tabla_frec$Category[2])
loc3 <- filter(alumnos, localidad == tabla_frec$Category[3])
loc4 <- filter(alumnos, localidad == tabla_frec$Category[4])
loc5 <- filter(alumnos, localidad == tabla_frec$Category[5])
loc6 <- filter(alumnos, localidad == tabla_frec$Category[6])
# Determinar frecuencias de cada conglomerado similiar a la tabla tabla_frec
frloc1 <- nrow(loc1) / N
frloc2 <- nrow(loc2) / N
frloc3 <- nrow(loc3) / N
frloc4 <- nrow(loc4) / N
frloc5 <- nrow(loc5) / N
frloc6 <- nrow(loc6) / N
# Crear muestras
muestraloc1 <- sample(x = loc1, size = round(n * frloc1, 0), replace = FALSE)
kable(muestraloc1, caption = paste("La muestra de alumnos de Localidad ",tabla_frec$Category[1] ))
muestraloc2 <- sample(loc2, round(n * frloc2, 0))
kable(muestraloc2, caption = paste("La muestra de alumnos de Localidad ",tabla_frec$Category[2] ))
muestraloc3 <- sample(loc3, round(n * frloc3, 0))
kable(muestraloc3, caption = paste("La muestra de alumnos de Localidad ",tabla_frec$Category[3] ))
muestraloc4 <- sample(loc4, round(n * frloc4, 0))
kable(muestraloc4, caption = paste("La muestra de alumnos de Localidad ",tabla_frec$Category[4] ))
muestraloc5 <- sample(loc5, round(n * frloc5, 0))
kable(muestraloc5, caption = paste("La muestra de alumnos de Localidad ",tabla_frec$Category[5] ))
muestraloc6 <- sample(loc6, round(n * frloc6, 0))
kable(muestraloc6, caption = paste("La muestra de alumnos de Localidad ",tabla_frec$Category[6] ))
map<-leaflet() %>%
addTiles() %>%
addMarkers(lat = unique(muestraloc1$latitud ), lng = unique(muestraloc1$longitud), popup = paste(unique(muestraloc1$localidad), "Muestra de:", nrow(muestraloc1), "alumnos")) %>%
addMarkers(lat = unique(muestraloc2$latitud ), lng = unique(muestraloc2$longitud), popup = paste(unique(muestraloc2$localidad), "Muestra de:", nrow(muestraloc2), "alumnos")) %>%
addMarkers(lat = unique(muestraloc3$latitud ), lng = unique(muestraloc3$longitud), popup = paste(unique(muestraloc3$localidad), "Muestra de:", nrow(muestraloc3), "alumnos")) %>%
addMarkers(lat = unique(muestraloc4$latitud ), lng = unique(muestraloc4$longitud), popup = paste(unique(muestraloc4$localidad), "Muestra de:", nrow(muestraloc4), "alumnos")) %>%
addMarkers(lat = unique(muestraloc5$latitud ), lng = unique(muestraloc5$longitud), popup = paste(unique(muestraloc5$localidad), "Muestra de:", nrow(muestraloc5), "alumnos")) %>%
addMarkers(lat = unique(muestraloc6$latitud ), lng = unique(muestraloc6$longitud), popup = paste(unique(muestraloc6$localidad), "Muestra de:", nrow(muestraloc6), "alumnos"))
# Mostrar el mapa
map
Forman parte de este tipo de muestreo todos aquellos métodos para los que se puede calcular la probabilidad de extracción de cualquiera de las muestras posibles. Este conjunto de técnicas de muestreo es el más aconsejable, aunque en ocasiones no es posible optar por él.
Se utiliza cuando el universo o población es de gran tamaño, o ha de extenderse en el tiempo. Primero hay que identificar las unidades y relacionarlas con el calendario (cuando proceda). Luego hay que calcular una constante, denominada coeficiente de elevación:
K= N/n,
donde N es el tamaño de la población y n el tamaño de la muestra.
Para determinar en qué fecha se producirá la primera extracción hay que elegir al azar un número entre 1 y K; de ahí en adelante tomar uno de cada K a intervalos regulares. Ocasionalmente, es conveniente tener en cuenta la periodicidad del fenómeno.
Esto quiere decir que si tenemos un determinado número de personas que es la población (N) y queremos escoger de esa población un número más pequeño el cual es la muestra (n), dividimos el número de la población por el número de la muestra que queremos tomar y el resultado de esta operación será el intervalo, entonces escogemos un número al azar desde uno hasta el número del intervalo, y a partir de este número escogemos los demás siguiendo el orden.
Consiste en la división previa de la población de estudio en grupos o clases que se suponen homogéneos con respecto a alguna característica de las que se van a estudiar. A cada uno de estos estratos se le asignaría una cuota que determinaría el número de miembros del mismo que compondrán la muestra. Dentro de cada estrato se suele usar la técnica de muestreo sistemático, una de las técnicas de selección más usadas en la práctica.
Según la cantidad de elementos de la muestra que se han de elegir de cada uno de los estratos, existen dos técnicas de muestreo estratificado:
Asignación proporcional: el tamaño de la muestra dentro de cada estrato es proporcional al tamaño del estrato dentro de la población.
Asignación óptima: la muestra recogerá más individuos de aquellos estratos que tengan más variabilidad. Para ello es necesario un conocimiento previo de la población.
Por ejemplo, para un estudio de opinión, puede resultar interesante estudiar por separado las opiniones de hombres y mujeres pues se estima que, dentro de cada uno de estos grupos, puede haber cierta homogeneidad. En la asignación proporcional, si la población está compuesta de un 55% de mujeres y un 45 % de hombres, se tomaría una muestra que contenga también esos mismos porcentajes de hombres y mujeres. En la asignación óptima, si todos los hombres piensan igual, pero las mujeres son impredecibles, se tomaría una muestra con más del 55% de mujeres.
Para una descripción general del muestreo estratificado y los métodos de inferencia asociados con este procedimiento, suponemos que la población está dividida en h subpoblaciones o estratos de tamaños conocidos N1, N2,..., Nh tal que las unidades en cada estrato sean homogéneas respecto a la característica en cuestión. La media y la varianza desconocidas para el i-ésimo estrato son denotadas por mi y si2, respectivamente.
Esta técnica es la única opción cuando no se dispone de lista completa de la población de referencia o bien cuando por medio de la técnica de muestreo simple o estratificado se obtiene una muestra con unidades distribuidas de tal forma que resultan de difícil acceso. En el muestreo a estudios múltiples, se subdivide la población en varios niveles ordenados que se extraen sucesivamente por medio de un procedimiento de embudo. El muestreo se desarrolla en varias fases o extracciones sucesivas para cada nivel.
Por ejemplo, si es necesario construir una muestra de profesores de primaria en un país determinado, estos pueden subdividirse en unidades primarias representadas por circunscripciones didácticas y unidades secundarias que serían los propios profesores. En primer lugar extraemos una muestra de las unidades primarias (para lo cual debemos tener la lista completa de estas unidades) y en segundo lugar extraemos aleatoriamente una muestra de unidades secundarias de cada una de las primarias seleccionadas en la primera extracción.
Artículo principal: Muestreo por conglomerados
Se utiliza cuando la población se encuentra dividida, de manera natural, en grupos que se supone que contienen toda la variabilidad de la población, es decir, la representan fielmente respecto a la característica a elegir, pueden seleccionarse sólo algunos de estos grupos o conglomerados para la realización del estudio.
Dentro de los grupos seleccionados se ubicarán las unidades elementales, por ejemplo, las personas a encuestar, y podría aplicársele el instrumento de medición a todas las unidades, es decir, los miembros del grupo, o sólo se le podría aplicar a algunos de ellos, seleccionados al azar. Este método tiene la ventaja de simplificar la recolección de información muestral.
Cuando, dentro de cada conglomerado seleccionado, se extraen algunos individuos para integrar la muestra, el diseño se llama muestreo bietápico.
Las ideas de estratos y conglomerados son, en cierto sentido, opuestas. El primer método funciona mejor cuanto más homogénea es la población respecto del estrato, aunque más diferentes son estos entre sí. En el segundo, ocurre lo contrario. Los conglomerados deben presentar toda la variabilidad, aunque deben ser muy parecidos entre sí.
Homogéneo significa, en el contexto de la estratificación, que no hay mucha variabilidad. Los estratos funcionan mejor cuanto más homogéneos son cada uno de ellos respecto a la característica a medir. Por ejemplo, si se estudia la estatura de una población, es bueno distinguir entre los estratos mujeres y hombres porque se espera que, dentro de ellos, haya menos variabilidad, es decir, sean menos heterogéneos. Dicho de otro modo, no hay tantas diferencias entre unas estaturas y otras dentro del estrato que en la población total.
Por el contrario, la heterogeneidad hace inútil la división en estratos. Si se dan las mismas diferencias dentro del estrato que en toda la población, no hay por qué usar este método de muestreo. En los casos en los que existan grupos que contengan toda la variabilidad de la población, lo que se construyen son conglomerados, que ahorran algo del trabajo que supondría analizar toda la población. En resumen, los estratos y los conglomerados funcionan bajo principios opuestos: los primeros son mejores cuanto más homogéneo es el grupo respecto a la característica a estudiar y los conglomerados, si representan fielmente a la población, esto es, contienen toda su variabilidad, o sea, son heterogéneos.
El espacio muestral es: Conjunto formado por todos los resultados posibles de un experimento aleatorio. Ejemplo: Al lanzar un dado no cargado el espacio muestral del dado sería: 1-2-3-4-5-6.
Es aquel para el que no se puede calcular la probabilidad de extracción de una determinada muestra ya que no todos los sujetos tienen la misma probabilidad de ser elegidos. Por tal motivo, se busca seleccionar a individuos que tienen un conocimiento profundo del tema bajo estudio y se considera que la información aportada por esas personas es vital para la toma de decisiones.
Es la técnica más difundida sobre todo en estudios de mercado y sondeos de opinión. En primer lugar es necesario dividir la población de referencia en varios estratos definidos por algunas variables de distribución conocida (como el género o la edad). Posteriormente se calcula el peso proporcional de cada estrato, es decir, la parte proporcional de población que representan. Finalmente se multiplica cada peso por el tamaño de n de la muestra para determinar la cuota precisa en cada estrato. Se diferencia del muestreo estratificado en que una vez determinada la cuota, el investigador es libre de elegir a los sujetos de la muestra dentro de cada estrato.
Indicado para estudios de poblaciones clandestinas, minoritarias o muy dispersas pero en contacto entre sí. Consiste en identificar sujetos que se incluirán en la muestra a partir de los propios entrevistados. Partiendo de una pequeña cantidad de individuos que cumplen los requisitos necesarios, servirán como localizadores de otros con características análogas.
En este caso las unidades de la muestra se eligen en función de algunas de sus características de manera racional y no casual. Una variante de esta técnica es el muestreo compensado o muestreo equilibrado, en el que se seleccionan las unidades de tal forma que la media de la muestra para determinadas variables se acerque a la media de la población, la cual funciona sobre la base de referencias o por recomendación, después se reconoce por medio de la estadística.
[@lind_estadistica_2015].
[@anderson_estadistica_2008]
↑ Salant, Priscilla, I. Dillman, and A. Don. How to conduct your own survey. No. 300.723 S3.. 1994.
↑ Robert M. Groves (2009). Metodología de encuestas. ISBN 978-0470465462.
↑ Lohr, Sharon L.. Muestreo: Diseño y análisis.
↑ Särndal, Carl-Erik; Swensson, Bengt; Wretman, Jan. Muestreo de encuestas asistido por modelos.
↑ Scheaffer, Richard L.; William Mendenhal; R. Lyman Ott. (2006). Muestreo elemental de encuestas.
↑ Martínez Bencardino, Ciro (2012). Estadística y muestreo. Bogotá: Ecoe.
↑ Cochran, William G. (1980). Técnicas de muestreo. México: CECSA.
↑ Lance, P.; Hattori, A. (2016). Sampling and Evaluation. Web: MEASURE Evaluation. pp. 6-8, 62-64.
↑ Salant, Priscilla, I. Dillman, and A. Don. How to conduct your own survey. No. 300.723 S3. 1994.
Singh, G N, Jaiswal, A. K., and Pandey A. K. (2021), Improved Imputation Methods for Missing Data in Two-Occasion Successive Sampling, Communications in Statistics: Theory and Methods. DOI:10.1080/03610926.2021.1944211
Chambers, R L, and Skinner, C J (editors) (2003), Analysis of Survey Data, Wiley, ISBN 0-471-89987-9
Deming, W. Edwards (1975) On probability as a basis for action, The American Statistician, 29(4), pp. 146–152.
Gy, P (2012) Sampling of Heterogeneous and Dynamic Material Systems: Theories of Heterogeneity, Sampling and Homogenizing, Elsevier Science, ISBN 978-0444556066
Korn, E.L., and Graubard, B.I. (1999) Analysis of Health Surveys, Wiley, ISBN 0-471-13773-1
Lucas, Samuel R. (2012). doi 10.1007%2Fs11135-012-9775-3 “Beyond the Existence Proof: Ontological Conditions, Epistemological Implications, and In-Depth Interview Research.”], Quality & Quantity, doi 10.1007/s11135-012-9775-3.
Stuart, Alan (1962) Basic Ideas of Scientific Sampling, Hafner Publishing Company, New York Plantilla:ISBN?
Smith, T. M. F. (1984). «Present Position and Potential Developments: Some Personal Views: Sample surveys». Journal of the Royal Statistical Society, Series A 147 (The 150th Anniversary of the Royal Statistical Society, number 2): 208-221. JSTOR 2981677. doi:10.2307/2981677.
Smith, T. M. F. (1993). «Populations and Selection: Limitations of Statistics (Presidential address)». Journal of the Royal Statistical Society, Series A 156 (2): 144-166. JSTOR 2982726. doi:10.2307/2982726. (Portrait of T. M. F. Smith on page 144)
Smith, T. M. F. (2001). «Centenary: Sample surveys». Biometrika 88 (1): 167-243. doi:10.1093/biomet/88.1.167.
Smith, T. M. F. (2001). «Biometrika centenary: Sample surveys». En D. M. Titterington and D. R. Cox, ed. Biometrika: One Hundred Years. Oxford University Press. pp. 165-194. ISBN 978-0-19-850993-6.
Whittle, P. (May 1954). «Optimum preventative sampling». Journal of the Operations Research Society of America 2 (2): 197-203. JSTOR 166605. doi:10.1287/opre.2.2.197.