U2A8

Jhoselyn Chávez

30/11/2020

U2A8 MUESTREO

Al elegir una muestra aleatoria se espera conseguir que sus propiedades sean extrapolables a la población. Este proceso permite ahorrar recursos, y a la vez obtener resultados parecidos a los que se alcanzarían si se realizase un estudio de toda la población. En las investigaciones llevadas por empresarios y de la medicina se usa muestreo extensivamente en recoger información sobre poblaciones.

Cabe mencionar que para que el muestreo sea válido y se pueda realizar un estudio adecuado (que consienta no solo hacer estimaciones de la población sino estimar también los márgenes de error correspondientes a dichas estimaciones), debe cumplir ciertos requisitos. Nunca podremos estar enteramente seguros de que el resultado sea una muestra representativa, pero sí podemos actuar de manera que esta condición se alcance con una probabilidad alta.

En el muestreo, si el tamaño de la muestra es más pequeño que el tamaño de la población, se puede extraer dos o más muestras de la misma población. Al conjunto de muestras que se pueden obtener de la población se denomina espacio muestral. La variable que asocia a cada muestra su probabilidad de extracción, sigue la llamada distribución muestral.

Muestreo Aleatorio Simple (M.A.S.)

-> Para esto vamos a usar datos de crímenes de reino unido

Student’s 3000 Criminals Data Data of 3000 male criminals over 20 years old undergoing their sentences in the chief prisons of England and Wales.

  • Conocer las dimensiones de los datos a usar:
crime <- data.frame(crimtab)
dim(crime)
## [1] 924   3
  • Se seleccionaran 30 elementos al azar
set.seed(1)
n <- 100
muestramia <- sample(1:nrow(crime), size=n,replace = FALSE )
muestramia
##   [1] 836 679 129 509 471 299 270 187 307 597 277 874 494 330 775 841 591 725
##  [19]  37 105 729 878 485 677 802 913 382 601 801 852 326 911 554 422 111 404
##  [37] 532 506 556 343 582 121  40 684 537 375 248 198 378  39 435 810 390 280
##  [55] 672 526 642  45 402  22 718 742 193 371 499 104 894 767 492 838 616 615
##  [73] 843 465 525 808 904 176 345 791 110  84  29 141 252 733 620 304 545 557
##  [91] 661 287 614 145 329 487 630 498 816 619
  • Asignar los elementos de la muestra al marco de datos
crimemuestramia <- crime[muestramia,]
head(crimemuestramia)
##     Var1   Var2 Freq
## 836 13.1  190.5    0
## 679   10 182.88    0
## 129  9.6 149.86    0
## 509  9.8 172.72    0
## 471 10.2 170.18    0
## 299  9.8 160.02    0

Ahora usamos tidyverse dplyr

library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
set.seed(1)
crimemuestramia2 <- crime %>%
  sample_n(size=n, replace=FALSE)
head(crimemuestramia2)
##   Var1   Var2 Freq
## 1 13.1  190.5    0
## 2   10 182.88    0
## 3  9.6 149.86    0
## 4  9.8 172.72    0
## 5 10.2 170.18    0
## 6  9.8 160.02    0

Muestreo ponderado (pesos)

crimemuestramia3 <- crime %>% #pipe 
  sample_n(size=n, weight=Freq)
head(crimemuestramia3)
##   Var1   Var2 Freq
## 1 11.3 167.64   26
## 2 12.2 170.18   17
## 3 10.1 154.94    1
## 4 11.3 160.02   24
## 5 11.1  165.1   26
## 6 11.3  165.1   39