setwd("~/EstadisticaAplicada")

U2A8 MUESTREO

Al elegir una muestra aleatoria se espera conseguir que sus propiedades sean extrapolables a la población. Este proceso permite ahorrar recursos, y a la vez obtener resultados parecidos a los que se alcanzarían si se realizase un estudio de toda la población. En las investigaciones llevadas por empresarios y de la medicina se usa muestreo extensivamente en recoger información sobre poblaciones.

Cabe mencionar que para que el muestreo sea válido y se pueda realizar un estudio adecuado (que consienta no solo hacer estimaciones de la población sino estimar también los márgenes de error correspondientes a dichas estimaciones), debe cumplir ciertos requisitos. Nunca podremos estar enteramente seguros de que el resultado sea una muestra representativa, pero sí podemos actuar de manera que esta condición se alcance con una probabilidad alta.

En el muestreo, si el tamaño de la muestra es más pequeño que el tamaño de la población, se puede extraer dos o más muestras de la misma población. Al conjunto de muestras que se pueden obtener de la población se denomina espacio muestral. La variable que asocia a cada muestra su probabilidad de extracción, sigue la llamada distribución muestral.

Muestreo Aleatorio Simple (M.A.S.)

-> Para esto vamos a usar datos de crimenes de Reino Unido

student´s 300 criminals Data of 3000 male criminals over 20 years old undergoing their sentences in the chief prisons of England and Wales.

  • conocer las dimensiones de los tados a usar:
crime <- data.frame(crimtab)
dim(crime)
## [1] 924   3
  • Se seleccionaran 30 elementos al azar
n <- 30
muestramia <- sample(1:nrow(crime), size=n, replace = FALSE)
muestramia
##  [1] 143 122 465 521 537  30 116 258 231 278 307 647 704 319  62 395 105 652 501
## [20] 342 109 741 201 557 712 772 754 673 335 912
  • Asignar los elementos de la muestra al marco de datos
crimemuestramia <- crime[muestramia,]
head(crimemuestramia)
##     Var1   Var2 Freq
## 143   11 149.86    2
## 122 13.1 147.32    0
## 465  9.6 170.18    0
## 521   11 172.72    6
## 537 12.6 172.72    5
## 30  12.3 142.24    0

Ahora usamos tidyverse dplyr

library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
set.seed(1)
crimemuestramia2 <- crime %>%
  sample_n(size=n, replace=FALSE)
head(crimemuestramia2)
##   Var1   Var2 Freq
## 1 13.1  190.5    0
## 2   10 182.88    0
## 3  9.6 149.86    0
## 4  9.8 172.72    0
## 5 10.2 170.18    0
## 6  9.8 160.02    0

muestreo ponderado (pesos)

crimemuestramia3 <- crime %>% #pipe 
  sample_n(size=n, weight=Freq)
head(crimemuestramia3)
##   Var1   Var2 Freq
## 1   12 167.64   42
## 2 12.5 170.18   12
## 3 11.6 172.72   27
## 4 12.5 175.26    8
## 5   12 175.26   16
## 6 12.1  177.8   10

-> Terminar ejercicio y además realizar los mismos muestreos para los datos demográficos

Muestreo con datos demograficos

Población <- read.csv("poblacion.csv")
Población
##     ENTIDAD.FEDERATIVA  X      X2000       X2005       X2010
## 1                      NA                                   
## 2                TOTAL NA 97,483,412 103,263,388 112,322,757
## 3       Aguascalientes NA    944,285   1,065,416   1,184,924
## 4      Baja California NA  2,487,367   2,844,469   3,154,174
## 5  Baja California Sur NA    424,041     512,170     637,065
## 6             Campeche NA    690,689     754,730     822,001
## 7             Coahuila NA  2,298,070   4,293,459   2,748,366
## 8               Colima NA    542,627     567,996     650,129
## 9              Chiapas NA  3,920,892   2,495,200   4,793,406
## 10           Chihuahua NA  3,052,907   3,241,444   3,401,140
## 11    Distrito Federal NA  8,605,239   8,720,916   8,873,017
## 12             Durango NA  1,448,661   1,509,117   1,632,860
## 13          Guanajuato NA  4,663,032   4,893,812   5,485,971
## 14            Guerrero NA  3,079,649   3,115,202   3,386,706
## 15             Hidalgo NA  2,235,591   2,345,514   2,664,969
## 16             Jalisco NA  6,322,002   6,752,113   7,350,355
## 17         Edo. México NA 13,096,686  14,007,495  15,174,272
## 18           Michoacán NA  3,985,667   3,966,073   4,348,485
## 19             Morelos NA  1,555,296   1,612,899   1,776,727
## 20             Nayarit NA    920,185     949,684   1,084,957
## 21          Nuevo León NA  3,834,141   4,199,292   4,643,321
## 22              Oaxaca NA  3,438,765   3,506,821   3,801,871
## 23              Puebla NA  5,076,686   5,383,133   5,779,007
## 24           Querétaro NA  1,404,306   1,598,139   1,827,985
## 25        Quintana Roo NA    874,963   1,135,309   1,324,257
## 26     San Luis Potosí NA  2,299,360   2,410,414   2,585,942
## 27             Sinaloa NA  2,536,844   2,608,442   2,767,552
## 28              Sonora NA  2,216,969   2,394,861   2,662,432
## 29             Tabasco NA  1,891,829   1,989,969   2,238,818
## 30          Tamaulipas NA  2,753,222   3,024,238   3,270,268
## 31            Tlaxcala NA    962,646   1,068,207   1,169,825
## 32            Veracruz NA  6,908,975   7,110,214   7,638,378
## 33             Yucatán NA  1,658,210   1,818,948   1,953,027
## 34           Zacatecas NA  1,353,610   1,367,692   1,490,550
##    X..Participación.Nacional Lugar.a.nivel.nacional X.1 X.2 X.3 X.4 X.5 X.6
## 1                                                NA  NA  NA  NA  NA  NA  NA
## 2                       100%                     NA  NA  NA  NA  NA  NA  NA
## 3                     13.35%                     27  NA  NA  NA  NA  NA  NA
## 4                     35.55%                     14  NA  NA  NA  NA  NA  NA
## 5                      7.18%                     32  NA  NA  NA  NA  NA  NA
## 6                      9.26%                     30  NA  NA  NA  NA  NA  NA
## 7                     30.97%                     16  NA  NA  NA  NA  NA  NA
## 8                      7.33%                     31  NA  NA  NA  NA  NA  NA
## 9                     54.02%                      7  NA  NA  NA  NA  NA  NA
## 10                    38.33%                     11  NA  NA  NA  NA  NA  NA
## 11                   100.00%                      2  NA  NA  NA  NA  NA  NA
## 12                    18.40%                     24  NA  NA  NA  NA  NA  NA
## 13                    61.83%                      6  NA  NA  NA  NA  NA  NA
## 14                    38.17%                     12  NA  NA  NA  NA  NA  NA
## 15                    30.03%                     17  NA  NA  NA  NA  NA  NA
## 16                    82.84%                      4  NA  NA  NA  NA  NA  NA
## 17                   171.02%                      1  NA  NA  NA  NA  NA  NA
## 18                    49.01%                      9  NA  NA  NA  NA  NA  NA
## 19                    20.02%                     23  NA  NA  NA  NA  NA  NA
## 20                    12.23%                     29  NA  NA  NA  NA  NA  NA
## 21                    52.33%                      8  NA  NA  NA  NA  NA  NA
## 22                    42.85%                     10  NA  NA  NA  NA  NA  NA
## 23                    65.13%                      5  NA  NA  NA  NA  NA  NA
## 24                    20.60%                     22  NA  NA  NA  NA  NA  NA
## 25                    14.92%                     26  NA  NA  NA  NA  NA  NA
## 26                    29.14%                     19  NA  NA  NA  NA  NA  NA
## 27                    31.19%                     15  NA  NA  NA  NA  NA  NA
## 28                    30.01%                     18  NA  NA  NA  NA  NA  NA
## 29                    25.23%                     20  NA  NA  NA  NA  NA  NA
## 30                    36.86%                     13  NA  NA  NA  NA  NA  NA
## 31                    13.18%                     28  NA  NA  NA  NA  NA  NA
## 32                    86.09%                      3  NA  NA  NA  NA  NA  NA
## 33                    22.01%                     21  NA  NA  NA  NA  NA  NA
## 34                    16.80%                     25  NA  NA  NA  NA  NA  NA
head(Población)
##    ENTIDAD.FEDERATIVA  X      X2000       X2005       X2010
## 1                     NA                                   
## 2               TOTAL NA 97,483,412 103,263,388 112,322,757
## 3      Aguascalientes NA    944,285   1,065,416   1,184,924
## 4     Baja California NA  2,487,367   2,844,469   3,154,174
## 5 Baja California Sur NA    424,041     512,170     637,065
## 6            Campeche NA    690,689     754,730     822,001
##   X..Participación.Nacional Lugar.a.nivel.nacional X.1 X.2 X.3 X.4 X.5 X.6
## 1                                               NA  NA  NA  NA  NA  NA  NA
## 2                      100%                     NA  NA  NA  NA  NA  NA  NA
## 3                    13.35%                     27  NA  NA  NA  NA  NA  NA
## 4                    35.55%                     14  NA  NA  NA  NA  NA  NA
## 5                     7.18%                     32  NA  NA  NA  NA  NA  NA
## 6                     9.26%                     30  NA  NA  NA  NA  NA  NA

Muestreo Simple

población1 <- data.frame(Población)
dim(Población)
## [1] 34 13

Muestra de problacion de 25

n <- 25
muestrapob <- sample(1:nrow(población1), size=n, replace = FALSE)
muestrapob
##  [1] 18 22 14  6  1 19 29  8 31 23 12 26 27  7 11 17  4 13 33  9 15 21 34 28 25

Asignar un marco de datos para esta muestra

poblacionmuestrapob <- población1[muestrapob,]
head(poblacionmuestrapob)
##    ENTIDAD.FEDERATIVA  X     X2000     X2005     X2010
## 18          Michoacán NA 3,985,667 3,966,073 4,348,485
## 22             Oaxaca NA 3,438,765 3,506,821 3,801,871
## 14           Guerrero NA 3,079,649 3,115,202 3,386,706
## 6            Campeche NA   690,689   754,730   822,001
## 1                     NA                              
## 19            Morelos NA 1,555,296 1,612,899 1,776,727
##    X..Participación.Nacional Lugar.a.nivel.nacional X.1 X.2 X.3 X.4 X.5 X.6
## 18                    49.01%                      9  NA  NA  NA  NA  NA  NA
## 22                    42.85%                     10  NA  NA  NA  NA  NA  NA
## 14                    38.17%                     12  NA  NA  NA  NA  NA  NA
## 6                      9.26%                     30  NA  NA  NA  NA  NA  NA
## 1                                                NA  NA  NA  NA  NA  NA  NA
## 19                    20.02%                     23  NA  NA  NA  NA  NA  NA

Muestreo ponderado

poblaciones <- data.frame(Población)
n <- 25
pobla <- sample(1:nrow(poblaciones), size=n, replace=FALSE)
pobla
##  [1] 29 28 12 16  1 13 21  6 17  9  7 23 19 18 31 11 10 24 32  3 34  2 33 30 20