Determinar y simular muestreos
Con un conjunto de datos utilizar mecanismos de programación para determinar muestreos mediante técnicas de aleatorio simple, aleatorio sistemático, aleatorio estratificado y por conglomerados.
El propósito de la estadística inferencial consiste en determinar y conocer el comportamiento sobre una población a partir de una muestra.
Una muestra es una porción, una proporción o parte de la población de interés. En muchos casos, el muestreo resulta más accesible y sencillo que el estudio de toda la población. (Lind, Marchal, and Wathen 2015).
Por otra parte la importancia del muestreo como lo menciona (Anderson, Sweeney, and Williams 2008) es cuestión de minimizar costo de trabajo, recopilar información de una muestra es sustancialmente menor, que hacerlo de una población completa; especialmente cuando se deben realizar entrevistas personales para recopilar la información.
Finamente, los métodos de muestreo aleatorio y sin sesgos son muy importantes para realizar inferencias estadísticas válidas (Lind, Marchal, and Wathen 2015).
Una muestra aleatoria simple de tamaño nn de una población finita de tamaño NN es una muestra seleccionada de manera que cada posible muestra de tamaño nn tenga la misma probabilidad de ser seleccionada (Anderson, Sweeney, and Williams 2008).
De un conjunto de NN elementos de una población, un muestreo aleatorio simple sería una especie de rifa o tómbola para elegir de de entre los NN total de población una cantidad de nn número de la muestra.
Se selecciona un punto aleatorio de inicio y posteriormente se elige cada k-ésimo miembro de la población (Lind, Marchal, and Wathen 2015).
Suele emplearse como alternativa al muestreo aleatorio simple, en especial cuando las poblaciones son grandes se lleva mucho tiempo tomar una muestra aleatoria simple en la que primero hay que hallar un número aleatorio y después contar o buscar en el marco el elemento correspondiente (Anderson, Sweeney, and Williams 2008).
El primer elemento se elige aleatoriamente, lo que permite suponer que una muestra sistemática tiene las propiedades de una muestra aleatoria simple. Esta suposición suele ser correcta cuando el marco es un ordenamiento aleatorio de los elementos de la población (Anderson, Sweeney, and Williams 2008)
Cuando una población se divide en grupos a partir de ciertas características, el muestreo aleatorio estratificado garantiza que cada grupo o estrato se encuentre representado en la muestra (Lind, Marchal, and Wathen 2015).
(Anderson, Sweeney, and Williams 2008) describe el muestreo aleatorio estratificado en donde los elementos de la población primero se dividen en grupos, a los que se les llama estratos, de manera que cada elemento pertenezca a uno y sólo un estrato. La base para la formación de los estratos, que puede ser departamento, edad, tipo de industria, entre otros, está a discreción de la persona que diseña la muestra.
Por otra parte, para asegurar que la muestra sea una representación imparcial de las NN observaciones, se debe determinar la frecuencia relativa y a partir de ahí generar las cantidad de muestra de cada estrato. (Lind, Marchal, and Wathen 2015).
La población se divide en conglomerados a partir de los límites naturales geográficos u otra clase. A continuación, estos se seleccionan al azar y se toma una muestra de forma aleatoria con elementos de cada grupo (Lind, Marchal, and Wathen 2015).
Ahora bien, la pregunta es ¿cómo se calcula el tamaño de una muestra?,
$$ n=
$$
(Artola 2020)
En la ecuación NN es la población o universo,
Zα/2Zα/2 es el valor tabulado del coeficiente de confianza, el coeficiente de confianza es la probabilidad que los resultados del estudio sean ciertos. El valor es una constante que depende del coeficiente de confianza elegido, la tabla siguiente muestra los valores de Zα/2Zα/2 asociados a los niveles de confianza que se pueden elegir
| Valores de Z por nivel de confianza | ||||||||
|---|---|---|---|---|---|---|---|---|
| Z | 1 .195 | 1 .645 | 1 .755 | 1 .885 | 1 .960 | 2 .179 | 2 .325 | 2 .575 |
| Con fianza | 89% | 90% | 92% | 94% | 95% | 97% | 98% | 99% |
El producto pqpq es la varianza de las proporciones, donde pp es la proporción que presenta el atributo y qq su complementario. En otras palabras, pp es la proporción de individuos que poseen en la población la característica de estudio y qq es la proporción de individuos que no poseen en la población las características de estudio, es decir, q=1−pq=1−p. Normalmente el valor de la varianza (producto pqpq) es desconocido asignado p=q=0.5p=q=0.5 que garantiza la varianza máxima y por ende maximiza el valor de nn.
Por último, e2e2 es el error máximo admisible, en tanto por ciento, cuando se desconoce su valor, entonces el investigador fija un criterio que puede variar entre el 1% (0.01) y 9% (0.09).
Ejemplo de cálculo de muestra: calcular el tamaño nn de una muestra aleatoria simple de una población N=10000N=10000 habitantes de una comunidad, fijando un error máximo admisible del 44, un nivel de confianza del 9090 y varianza máxima de pq=0.25pq=0.25.
Solución: La varianza es máxima, por tanto, p=q=0.5p=q=0.5, el nivel de confianza es del 9090, entonces α=10α=10 y Zα/2=Z0.10/2=Z0.05=1.645Zα/2=Z0.10/2=Z0.05=1.645, la muestra es:
$$ n===
$$
Puede calcular el tamaño de la muestra con el siguiente enlace: (SurveyMonkey, n.d.).
En R desarrollando la fórmula sería:
Z=1.645
p=0.5
q=1-p
N=10000
e=0.04
n=(Z^2*N*p*q)/(e^2*(N-1)+Z^2*p*q)
n = round(n,0)
n
## [1] 406
library(dplyr)
## Warning: package 'dplyr' was built under R version 4.0.4
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(mosaic)
## Warning: package 'mosaic' was built under R version 4.0.5
## Registered S3 method overwritten by 'mosaic':
## method from
## fortify.SpatialPolygonsDataFrame ggplot2
##
## The 'mosaic' package masks several functions from core packages in order to add
## additional features. The original behavior of these functions should not be affected by this.
##
## Attaching package: 'mosaic'
## The following object is masked from 'package:Matrix':
##
## mean
## The following object is masked from 'package:ggplot2':
##
## stat
## The following objects are masked from 'package:dplyr':
##
## count, do, tally
## The following objects are masked from 'package:stats':
##
## binom.test, cor, cor.test, cov, fivenum, IQR, median, prop.test,
## quantile, sd, t.test, var
## The following objects are masked from 'package:base':
##
## max, mean, min, prod, range, sample, sum
library(readr)
## Warning: package 'readr' was built under R version 4.0.4
library(ggplot2) # Para gráficos
library(knitr) # Para formateo de datos
library(fdth) # Para tablas de frecuencias
## Warning: package 'fdth' was built under R version 4.0.4
##
## Attaching package: 'fdth'
## The following objects are masked from 'package:mosaic':
##
## sd, var
## The following objects are masked from 'package:stats':
##
## sd, var
Se carga un conjunto de 100 nombres de personas con sus atributo de género y la actividad deportiva o cultura que practican,
Cargando un datos llamando a una función que construye los datos.
El argumento encoding significa que acepte acentos en los datos.
source("https://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/construir%20datos%20y%20funciones%20caso%209.r", encoding = "UTF-8")
kable(head(personas, 10), caption = "Los primeros diez registros de nombres en el conjunto dedatos")
| nombres | generos | ajedrez | beisbol | tiro.arco | pesas | futbol | softbol | atletismo | folklorico | tahitiano | teatro | rondalla | pantomima |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| JUAN | M | NO | NO | NO | SI | NO | SI | NO | NO | NO | NO | NO | SI |
| JOSÉ LUIS | M | NO | NO | NO | NO | NO | NO | NO | SI | NO | NO | NO | NO |
| JOSÉ | M | NO | SI | NO | SI | NO | NO | NO | NO | NO | NO | SI | SI |
| MARÍA GUADALUPE | F | NO | SI | NO | NO | NO | NO | NO | NO | NO | NO | SI | SI |
| FRANCISCO | M | NO | NO | NO | NO | NO | NO | SI | NO | NO | NO | NO | NO |
| GUADALUPE | F | NO | NO | NO | NO | NO | NO | NO | NO | NO | NO | NO | NO |
| MARÍA | F | NO | SI | NO | NO | SI | NO | NO | NO | NO | NO | NO | NO |
| JUANA | F | NO | NO | NO | NO | SI | NO | NO | SI | NO | NO | NO | NO |
| ANTONIO | M | NO | NO | NO | NO | NO | NO | NO | NO | NO | NO | NO | NO |
| JESÚS | M | NO | NO | SI | NO | NO | SI | NO | NO | SI | NO | NO | NO |