Pruebas de hipótesis
setwd("~/EALMV9/U2/U2A3")
library(pacman)
p_load("base64enc", "htmltools", "mime", "xfun", "prettydoc","readr", "knitr","DT","dplyr", "ggplot2")## Disponible para descargar el código
xfun::embed_file("U2A3.Rmd")xfun::embed_file("cierre.csv")xfun::embed_file("cierre_2019.csv")Muestreo Aleatorio Simple (M.A.S.)
data<-read.csv("cierre.csv")
dim(data)## [1] 73 2
datatable(data)- Se determina una muestra de 30 (n) para la población
n <- 30
muestra <- sample(1:nrow(data), size=n, replace=FALSE)
muestra## [1] 26 10 36 29 37 54 33 16 41 53 48 42 15 61 49 1 51 31 57 60 62 24 40 71 25
## [26] 30 72 5 39 64
- Asignar los elementos de la muestra al marco de datos
vacasmuestra <- data[muestra, ]
head(vacasmuestra)## Peso Precio
## 26 85.66 48241.37
## 10 80.51 41268.23
## 36 86.63 84397.08
## 29 89.42 90949.22
## 37 85.79 24927.74
## 54 80.34 27696.31
Ahora se hará lo mismo pero utilizando el paquete “dplyr” de “tidyverse”
Muestreo aleatorio simple sin remplazo con dplyr
vacasmuestra2 <- data %>%
sample_n(size=n, replace=FALSE)
head(vacasmuestra2)## Peso Precio
## 1 91.89 21690.877
## 2 58.91 10967.281
## 3 66.03 71573.932
## 4 89.42 90949.221
## 5 89.15 140590.901
## 6 83.41 7187.662
- Muestreo aleatorio simple con remplazo con dplyr
vacasmuestra2 <- data %>%
sample_n(size=n, replace=TRUE)
head(vacasmuestra2)## Peso Precio
## 1 84.74 90033.95
## 2 80.08 78981.58
## 3 82.82 66854.12
## 4 93.44 155538.40
## 5 98.73 33390.96
## 6 94.20 50416.27
Muestreo ponderado (con pesos de vaca)
- Ponderación usando la frecuencia (Freq)
Se están scogiendo los datos de pesos más comunes
vacasmuestra3 <- data %>%
sample_n(size=n, weight = Peso)
head(vacasmuestra3)## Peso Precio
## 1 75.71 97578.214
## 2 80.34 27696.306
## 3 61.57 725.187
## 4 82.49 80238.016
## 5 66.90 204372.572
## 6 74.54 7134.638
Muestreo con ponderación usando la fracción
data<-read.csv("cierre.csv")
n <- 50
datos <- sample(1:nrow(data), size=n, replace=FALSE)
head(datos)## [1] 72 6 50 4 62 58
- De esta manera se va muestrear una fracción 0.04 de la población
data.peso <- data %>%
sample_frac(0.04)
head(data.peso); dim(data.peso)## Peso Precio
## 1 84.74 90033.95
## 2 80.34 27696.31
## 3 84.72 27535.36
## [1] 3 2
Muestreo estraficado
datosVaca<-read.csv("cierre_2019.csv")
dim(datosVaca)## [1] 73 15
head(datosVaca)## Anio Nomestado Cveddr Nomddr Cvempio Nommunicipio Cveespecie
## 1 2019 Sonora Caborca 4 Altar 4 Bovino
## 2 2019 Sonora Caborca 7 Atil 4 Bovino
## 3 2019 Sonora Caborca 17 Caborca 4 Bovino
## 4 2019 Sonora Caborca 46 Oquitoa 4 Bovino
## 5 2019 Sonora Caborca 47 Pitiquito 4 Bovino
## 6 2019 Sonora Caborca 48 Puerto Peñasco 4 Bovino
## Nomespecie Cveproducto Nomproducto Volumen Peso Precio Valor
## 1 1 Carne 807.222 231.827 82.82 66854.120 3482
## 2 1 Carne 77.517 218.975 70.02 5427.873 354
## 3 1 Carne 2532.635 244.133 90.55 229335.658 10374
## 4 1 Carne 95.711 225.733 74.54 7134.638 424
## 5 1 Carne 1088.800 240.353 85.35 92933.744 4530
## 6 1 Carne 11.779 218.130 61.57 725.187 54
## Asacrificado
## 1 NA
## 2 NA
## 3 NA
## 4 NA
## 5 NA
## 6 NA
Se escogen los datos de una entidad federativa
levels(as.factor(datosVaca$Cveddr))## [1] "Agua Prieta" "Caborca" "Cajeme"
## [4] "Guaymas" "Hermosillo" "Magdalena"
## [7] "Mazatán" "Moctezuma" "Navojoa"
## [10] "Sahuaripa" "San Luis Río Colorado" "Ures"
Cajeme <- datosVaca
Cajeme$dato <- 1:73Cajeme[62:69, 3:8]## Cveddr Nomddr Cvempio Nommunicipio Cveespecie Nomespecie
## 62 Cajeme 12 Bácum 4 Bovino 1
## 63 Cajeme 18 Cajeme 4 Bovino 1
## 64 Cajeme 29 Guaymas 4 Bovino 1
## 65 Cajeme 42 Navojoa 4 Bovino 1
## 66 Cajeme 49 Quiriego 4 Bovino 1
## 67 Cajeme 51 Rosario 4 Bovino 1
## 68 Cajeme 71 Benito Juárez 4 Bovino 1
## 69 Cajeme 72 San Ignacio Río Muerto 4 Bovino 1
- MAS sin remplazamiento
sample(Cajeme$dato, size=8, replace=FALSE)## [1] 60 42 33 22 43 38 27 48
- Muestreo estratificado
set.seed(1)
sample_cajeme <- datosVaca %>%
group_by(Nomespecie) %>%
sample_n(73)
sample_cajeme## # A tibble: 73 x 15
## # Groups: Nomespecie [1]
## Anio Nomestado Cveddr Nomddr Cvempio Nommunicipio Cveespecie Nomespecie
## <int> <chr> <chr> <int> <chr> <int> <chr> <int>
## 1 2019 Sonora Cajeme 71 Benito J~ 4 Bovino 1
## 2 2019 Sonora Moctezuma 31 Huachine~ 4 Bovino 1
## 3 2019 Sonora Caborca 4 Altar 4 Bovino 1
## 4 2019 Sonora Moctezuma 10 Bacerac 4 Bovino 1
## 5 2019 Sonora Moctezuma 63 Tepache 4 Bovino 1
## 6 2019 Sonora Magdalena 43 Nogales 4 Bovino 1
## 7 2019 Sonora Sahuaripa 69 Yécora 4 Bovino 1
## 8 2019 Sonora Mazatán 54 San Javi~ 4 Bovino 1
## 9 2019 Sonora Agua Pri~ 27 Fronteras 4 Bovino 1
## 10 2019 Sonora Moctezuma 40 Nácori C~ 4 Bovino 1
## # ... with 63 more rows, and 7 more variables: Cveproducto <chr>,
## # Nomproducto <dbl>, Volumen <dbl>, Peso <dbl>, Precio <dbl>, Valor <int>,
## # Asacrificado <lgl>
tipo <- read_csv("cierre2.csv")##
## -- Column specification --------------------------------------------------------
## cols(
## Peso = col_double(),
## Precio = col_double(),
## Peso2 = col_double(),
## Precio2 = col_double(),
## Tipo = col_character()
## )
boxplot(tipo$Peso2 ~ tipo$Tipo, col = "pink" )