Son métodos que permiten extraer datos y conclusiones de una muestra, y así inducir a partir de ésta cual será el comportamiento de toda una población, con un error medible.
Es todo aquel conjunto de elementos sobre el cual se está interesado para realizar una experimentación y obtener conclusiones para una investigación, sin embargo, es muy grande que no se suele abarcar todo, por lo cual solo se utiliza una muestra de la población.
Es el proceso por el cual se obtiene el subconjunto de la población, es decir, la muestra. Aquí se determina que parte de la población se va a estudiar y hacer inferencias, con el fin de que se pueda caracterizar o generalizar los resultados a toda la población.
Una muestra es estadísticamente representativa cuando el muestreo se hace de forma aleatoria y toda la población tiene la misma probabilidad de ser seleccionada. De igual manera se puede obtener una muestra representativa de forma más limitada, es decir, establecer características y variables deseadas.
Son hipótesis mutuamente excluyentes. La hipótesis nula es la que se desea contrastar, es una afirmación inicial que se basa en conocimientos previos de la investigación, y se mantiene a menos que los datos indiquen lo contrario. Por otra parte, la hipótesis alternativa nos indica un valor diferente, ya sea mayor o menor que el de la hipótesis nula y es lo que se espera probar que sea cierto en un estudio.
Es parte fundamental para realizar un estudio, ya que es difícil llevar a cabo una investigación a toda una población, y gracias al muestreo se pueden obtener resultados y conclusiones de una pequeña parte de la población y poder representar a toda la población mediante esos datos, de esta manera se trabaja más fácil, rápido y con menor costo.
setwd("~/PyE verano 2020")
library(pacman)
library(readxl)
p_load("base64enc", "htmltools", "mime", "xfun", "prettydoc","readr", "knitr","DT","dplyr", "ggplot2")
h2osub <- read_excel("aguasubterranea.xlsx")
datatable(h2osub)
Bajo sus propios criterios
dim(h2osub)
## [1] 586 3
n <- 45
muestras <- sample(1:nrow(h2osub), size = n, replace = FALSE)
muestras
## [1] 83 115 195 368 365 564 509 330 352 507 583 360 351 3 460 315 12 25 33
## [20] 209 397 72 218 406 95 127 464 183 419 403 258 262 376 521 210 297 358 165
## [39] 163 415 332 370 519 461 42
*masignar los elementos de la muestra al marco de datos
h2omuestras <- h2osub[muestras, ]
head(h2omuestras)
## # A tibble: 6 x 3
## N MEDICION VALOR
## <dbl> <chr> <dbl>
## 1 83 PH 7.2
## 2 115 PH 6.9
## 3 195 PH 7.2
## 4 75 TEMP 26.3
## 5 72 TEMP 29.7
## 6 271 TEMP 28.8
este muestreo aleatorio simple, toma 40 datos de la calidad del aire con el fin de ahorrar recursos y al mismo tiempo poder obtener resultados parecidos al usar toda la muestra poblacional.
levels(as.factor(h2osub$MEDICION))
## [1] "PH" "TEMP"
set.seed(1)
sample.h2o <- h2osub %>%
group_by(MEDICION) %>%
sample_n(20)
sample.h2o
## # A tibble: 40 x 3
## # Groups: MEDICION [2]
## N MEDICION VALOR
## <dbl> <chr> <dbl>
## 1 167 PH 6.5
## 2 129 PH 6.7
## 3 270 PH 6.8
## 4 187 PH 6.8
## 5 85 PH 6.9
## 6 277 PH 7.1
## 7 263 PH 6.5
## 8 79 PH 6.8
## 9 213 PH 6.8
## 10 37 PH 7
## # ... with 30 more rows
aqui separamos la poblacion con segmentos exlusivos mas homogeneos, y optener mejores muestras.
n <- 50
muestrah20 <- h2osub %>%
sample_n(size=n, replace = FALSE)
head(muestrah20)
## # A tibble: 6 x 3
## N MEDICION VALOR
## <dbl> <chr> <dbl>
## 1 176 PH 6.9
## 2 52 TEMP 29.5
## 3 110 PH 7
## 4 84 PH 7.1
## 5 29 PH 7
## 6 141 PH 7.4
el muestreo aleatorio ponderado se hace para incluir grupos pequelos de datos escensiales, y poder tener muestras mas exactas.
utilizando una fraccion del 5% o 0.05
aguas <- data.frame(h2osub)
n <- 100
aguasubterranea <- sample(1:nrow(aguas), size=n, replace=FALSE)
head(aguasubterranea)
## [1] 219 135 111 532 377 408
aguas.sub <- aguas %>%
sample_frac(0.05)
head(aguas.sub); dim(aguas.sub)
## N MEDICION VALOR
## 1 7 TEMP 28.0
## 2 282 PH 7.1
## 3 241 PH 6.5
## 4 33 PH 7.0
## 5 144 TEMP 28.9
## 6 117 PH 7.3
## [1] 29 3
aqui se toman las proporciones entre el tamaño de la muestra con el tamaño de la población. ## Pruebas de hipótesis
Relice sus hipótesis y aplique lo siguiente
Ph <- subset(h2osub, MEDICION == "PH")
Temp <- subset(h2osub, MEDICION == "TEMP")
para la prueba de shapiro wilk
shapiro.test(Ph$VALOR)
##
## Shapiro-Wilk normality test
##
## data: Ph$VALOR
## W = 0.95932, p-value = 2.661e-07
shapiro.test(Temp$VALOR)
##
## Shapiro-Wilk normality test
##
## data: Temp$VALOR
## W = 0.98362, p-value = 0.001981
ks.test(Ph$VALOR, "pnorm", mean = mean(Ph$VALOR), sd = sd(Ph$VALOR))
## Warning in ks.test(Ph$VALOR, "pnorm", mean = mean(Ph$VALOR), sd = sd(Ph$VALOR)):
## ties should not be present for the Kolmogorov-Smirnov test
##
## One-sample Kolmogorov-Smirnov test
##
## data: Ph$VALOR
## D = 0.1436, p-value = 1.129e-05
## alternative hypothesis: two-sided
ks.test(Temp$VALOR, "pnorm", mean = mean(Temp$VALOR), sd = sd(Temp$VALOR))
## Warning in ks.test(Temp$VALOR, "pnorm", mean = mean(Temp$VALOR), sd =
## sd(Temp$VALOR)): ties should not be present for the Kolmogorov-Smirnov test
##
## One-sample Kolmogorov-Smirnov test
##
## data: Temp$VALOR
## D = 0.071961, p-value = 0.09618
## alternative hypothesis: two-sided
var.test(Ph$VALOR, Temp$VALOR)
##
## F test to compare two variances
##
## data: Ph$VALOR and Temp$VALOR
## F = 0.047408, num df = 292, denom df = 292, p-value < 2.2e-16
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 0.03767300 0.05965831
## sample estimates:
## ratio of variances
## 0.04740789
fivenum(Ph$VALOR)
## [1] 6.1 6.8 6.9 7.0 7.5
fivenum(Temp$VALOR)
## [1] 25.6 28.0 28.7 29.2 32.1
boxplot(Ph$VALOR ~ Temp$VALOR, col = "red")
op <- par(mfrow =c(1,2), cex.axis=.7, cex.lab=.9 )
boxplot(h2osub$VALOR ~ h2osub$MEDICION, col = "red", main= "A")
barplot(tapply(h2osub$VALOR, list(h2osub$MEDICION), mean), beside = T, main = "B")
esta prueba de hipotesis nos esta indicando que a mayor temperatura el ph disminuye.
este archivo se encuentra en: https://rpubs.com/bryancasbelt/637517