Pruebas de hipótesis

setwd("~/EALMV9/U2/U2A3")
library(pacman)
p_load("base64enc", "htmltools", "mime", "xfun", "prettydoc","readr", "knitr","DT","dplyr", "ggplot2")
## Disponible para descargar el código
xfun::embed_file("U2A3.Rmd")

Download U2A3.Rmd

xfun::embed_file("cierre.csv")

Download cierre.csv

xfun::embed_file("cierre_2019.csv")

Download cierre_2019.csv

Muestreo Aleatorio Simple (M.A.S.)

data<-read.csv("cierre.csv")
dim(data)
## [1] 73  2
datatable(data)
  • Se determina una muestra de 30 (n) para la población
n <- 30
muestra <- sample(1:nrow(data), size=n, replace=FALSE)
muestra
##  [1] 26 10 36 29 37 54 33 16 41 53 48 42 15 61 49  1 51 31 57 60 62 24 40 71 25
## [26] 30 72  5 39 64
  • Asignar los elementos de la muestra al marco de datos
vacasmuestra <- data[muestra, ]
head(vacasmuestra)
##     Peso   Precio
## 26 85.66 48241.37
## 10 80.51 41268.23
## 36 86.63 84397.08
## 29 89.42 90949.22
## 37 85.79 24927.74
## 54 80.34 27696.31
  • Ahora se hará lo mismo pero utilizando el paquete “dplyr” de “tidyverse”

  • Muestreo aleatorio simple sin remplazo con dplyr

vacasmuestra2 <- data %>%
  sample_n(size=n, replace=FALSE)
head(vacasmuestra2)
##    Peso     Precio
## 1 91.89  21690.877
## 2 58.91  10967.281
## 3 66.03  71573.932
## 4 89.42  90949.221
## 5 89.15 140590.901
## 6 83.41   7187.662
  • Muestreo aleatorio simple con remplazo con dplyr
vacasmuestra2 <- data %>%
  sample_n(size=n, replace=TRUE)
head(vacasmuestra2)
##    Peso    Precio
## 1 84.74  90033.95
## 2 80.08  78981.58
## 3 82.82  66854.12
## 4 93.44 155538.40
## 5 98.73  33390.96
## 6 94.20  50416.27

Muestreo ponderado (con pesos de vaca)

  • Ponderación usando la frecuencia (Freq)

Se están scogiendo los datos de pesos más comunes

vacasmuestra3 <- data %>%   
  sample_n(size=n, weight = Peso)
head(vacasmuestra3)
##    Peso     Precio
## 1 75.71  97578.214
## 2 80.34  27696.306
## 3 61.57    725.187
## 4 82.49  80238.016
## 5 66.90 204372.572
## 6 74.54   7134.638

Muestreo con ponderación usando la fracción

data<-read.csv("cierre.csv")
n <- 50
datos <- sample(1:nrow(data), size=n, replace=FALSE)
head(datos)
## [1] 72  6 50  4 62 58
  • De esta manera se va muestrear una fracción 0.04 de la población
data.peso <- data %>%
  sample_frac(0.04)
head(data.peso); dim(data.peso)
##    Peso   Precio
## 1 84.74 90033.95
## 2 80.34 27696.31
## 3 84.72 27535.36
## [1] 3 2

Muestreo estraficado

datosVaca<-read.csv("cierre_2019.csv")
dim(datosVaca)
## [1] 73 15
head(datosVaca)
##   Anio Nomestado  Cveddr Nomddr        Cvempio Nommunicipio Cveespecie
## 1 2019    Sonora Caborca      4          Altar            4     Bovino
## 2 2019    Sonora Caborca      7           Atil            4     Bovino
## 3 2019    Sonora Caborca     17        Caborca            4     Bovino
## 4 2019    Sonora Caborca     46        Oquitoa            4     Bovino
## 5 2019    Sonora Caborca     47      Pitiquito            4     Bovino
## 6 2019    Sonora Caborca     48 Puerto Peñasco            4     Bovino
##   Nomespecie Cveproducto Nomproducto Volumen  Peso     Precio Valor
## 1          1       Carne     807.222 231.827 82.82  66854.120  3482
## 2          1       Carne      77.517 218.975 70.02   5427.873   354
## 3          1       Carne    2532.635 244.133 90.55 229335.658 10374
## 4          1       Carne      95.711 225.733 74.54   7134.638   424
## 5          1       Carne    1088.800 240.353 85.35  92933.744  4530
## 6          1       Carne      11.779 218.130 61.57    725.187    54
##   Asacrificado
## 1           NA
## 2           NA
## 3           NA
## 4           NA
## 5           NA
## 6           NA

Se escogen los datos de una entidad federativa

levels(as.factor(datosVaca$Cveddr))
##  [1] "Agua Prieta"           "Caborca"               "Cajeme"               
##  [4] "Guaymas"               "Hermosillo"            "Magdalena"            
##  [7] "Mazatán"               "Moctezuma"             "Navojoa"              
## [10] "Sahuaripa"             "San Luis Río Colorado" "Ures"
Cajeme <- datosVaca
Cajeme$dato <- 1:73
Cajeme[62:69, 3:8]
##    Cveddr Nomddr                Cvempio Nommunicipio Cveespecie Nomespecie
## 62 Cajeme     12                  Bácum            4     Bovino          1
## 63 Cajeme     18                 Cajeme            4     Bovino          1
## 64 Cajeme     29                Guaymas            4     Bovino          1
## 65 Cajeme     42                Navojoa            4     Bovino          1
## 66 Cajeme     49               Quiriego            4     Bovino          1
## 67 Cajeme     51                Rosario            4     Bovino          1
## 68 Cajeme     71          Benito Juárez            4     Bovino          1
## 69 Cajeme     72 San Ignacio Río Muerto            4     Bovino          1
  • MAS sin remplazamiento
sample(Cajeme$dato, size=8, replace=FALSE)
## [1] 60 42 33 22 43 38 27 48
  • Muestreo estratificado
set.seed(1)
sample_cajeme <- datosVaca %>%
  group_by(Nomespecie) %>%
  sample_n(73)
sample_cajeme
## # A tibble: 73 x 15
## # Groups:   Nomespecie [1]
##     Anio Nomestado Cveddr    Nomddr Cvempio   Nommunicipio Cveespecie Nomespecie
##    <int> <chr>     <chr>      <int> <chr>            <int> <chr>           <int>
##  1  2019 Sonora    Cajeme        71 Benito J~            4 Bovino              1
##  2  2019 Sonora    Moctezuma     31 Huachine~            4 Bovino              1
##  3  2019 Sonora    Caborca        4 Altar                4 Bovino              1
##  4  2019 Sonora    Moctezuma     10 Bacerac              4 Bovino              1
##  5  2019 Sonora    Moctezuma     63 Tepache              4 Bovino              1
##  6  2019 Sonora    Magdalena     43 Nogales              4 Bovino              1
##  7  2019 Sonora    Sahuaripa     69 Yécora               4 Bovino              1
##  8  2019 Sonora    Mazatán       54 San Javi~            4 Bovino              1
##  9  2019 Sonora    Agua Pri~     27 Fronteras            4 Bovino              1
## 10  2019 Sonora    Moctezuma     40 Nácori C~            4 Bovino              1
## # ... with 63 more rows, and 7 more variables: Cveproducto <chr>,
## #   Nomproducto <dbl>, Volumen <dbl>, Peso <dbl>, Precio <dbl>, Valor <int>,
## #   Asacrificado <lgl>
tipo <- read_csv("cierre2.csv")
## 
## -- Column specification --------------------------------------------------------
## cols(
##   Peso = col_double(),
##   Precio = col_double(),
##   Peso2 = col_double(),
##   Precio2 = col_double(),
##   Tipo = col_character()
## )
boxplot(tipo$Peso2  ~ tipo$Tipo, col = "pink"  )