setwd("~/VERANOPYE")
library(pacman)
p_load("base64enc", "htmltools", "mime", "xfun", "prettydoc","readr", "knitr","DT","dplyr", "ggplot2", "readxl")
Inferencia estadística: Es la comprensión y deducción de un conjunto de datos estadísticos para así poder llegar una conclusión o comprobación de una hipótesis previamente planteada.
Población: Es un todo o conjunto de datos que comparten características comunes o similares, que se encuentran relaciones estadísticamente.
Muestreo: El muestreo es el estudio de una parte pequeña o representativa de una población o de un todo.
Estadísticamente representativo:: Puede ser un muestreo o datos que se encuentran estrechamente relacionados y cerca de la media total de los datos, es decir lo datos más fieles que cumplen con un patrón o coherencia.
Hipótesis nula y alternativa: Son aquellas suposiciones a las cuales se les trata de refutar o negar.
Importancia del muestreo: El muestreo es importante, ya que facilita y agiliza el estudio de un todo o población. Por ejemplo se pueden tomar pequeñas muestras de cultivos pero de diferentes zonas de la parcela para estudiar como se va desarrollando en lugar de ir surco por surco analizando cada planta. O también cuando se va sacar un producto al mercado, se puede encuestar una parte o sector de la población a la cual va destinada el producto, para sacar conclusiones y analizar críticas acerca de ello para mejorar.
Se tomará como ejemplo para los ejercicios datos acerca de la relación que existe entre el pH y la temperatura de agua subterránea.
pozos <- read_xlsx("aguasubterranea.xlsx")
datatable(pozos)
dim(pozos)
## [1] 293 2
set.seed(48)
n <- 30
muestraMAS <- sample(1:nrow(pozos), size=n, replace=FALSE)
muestraMAS
## [1] 69 170 179 153 73 111 266 172 25 213 64 107 256 125 79 66 163 271 60
## [20] 158 148 4 96 90 11 135 9 194 209 185
pozosmuestraMAS <- pozos[muestraMAS,]
head(pozosmuestraMAS)
## # A tibble: 6 x 2
## PH TEMP
## <dbl> <dbl>
## 1 7.1 30
## 2 6.8 29.3
## 3 6.9 28
## 4 6.6 30.2
## 5 7 29.2
## 6 6.9 28.5
set.seed(48)
head(pozos)
## # A tibble: 6 x 2
## PH TEMP
## <dbl> <dbl>
## 1 6.8 28.5
## 2 6.9 29.2
## 3 6.8 28.9
## 4 7.1 29.4
## 5 6.6 28.3
## 6 6.8 28.4
sample_pozos <- pozos %>%
group_by(PH=="7") %>%
sample_n(30)
sample_pozos
## # A tibble: 60 x 3
## # Groups: PH == "7" [2]
## PH TEMP `PH == "7"`
## <dbl> <dbl> <lgl>
## 1 6.8 29.5 FALSE
## 2 6.5 29.2 FALSE
## 3 6.8 27.5 FALSE
## 4 6.6 28.1 FALSE
## 5 6.9 29.1 FALSE
## 6 7.1 30.8 FALSE
## 7 7.1 29.8 FALSE
## 8 7.1 27.9 FALSE
## 9 7.2 29.4 FALSE
## 10 6.8 28.2 FALSE
## # ... with 50 more rows
En este tipo de datos, donde no vienen clases o tipos dentro de la misma base de datos, no tiene ningún sentido llevarla a cabo mediante estratificación.
set.seed(48)
pozosMuestraPON <- pozos %>%
sample_n(size=n, weight=TEMP)
head(pozosMuestraPON)
## # A tibble: 6 x 2
## PH TEMP
## <dbl> <dbl>
## 1 7 28.6
## 2 6.9 30.9
## 3 7 32.1
## 4 7 29
## 5 6.8 29.3
## 6 6.8 29.9
fracción
pozos2 <- data.frame(pozos)
n <- 50
pozosFrac <- sample(1:nrow(pozos2), size=n, replace=FALSE)
head(pozosFrac)
## [1] 148 4 96 90 277 11
pozosFrac2 <- pozos2 %>%
sample_frac(0.08)
head(pozosFrac2)
## PH TEMP
## 1 7.2 28.4
## 2 6.9 29.8
## 3 7.0 29.6
## 4 6.9 27.8
## 5 7.4 29.4
## 6 6.8 29.2
dim(pozosFrac2)
## [1] 23 2
Hipotesis: La temperatura y el pH son inversamente proporcionales, es decir que a mayor temperatura menor será el pH.
shapiro.test(pozos$PH)
##
## Shapiro-Wilk normality test
##
## data: pozos$PH
## W = 0.95932, p-value = 2.661e-07
ks.test(pozos$PH, pozos$TEMP)
## Warning in ks.test(pozos$PH, pozos$TEMP): p-value will be approximate in the
## presence of ties
##
## Two-sample Kolmogorov-Smirnov test
##
## data: pozos$PH and pozos$TEMP
## D = 1, p-value < 2.2e-16
## alternative hypothesis: two-sided
var.test(pozos$PH, pozos$TEMP)
##
## F test to compare two variances
##
## data: pozos$PH and pozos$TEMP
## F = 0.047408, num df = 292, denom df = 292, p-value < 2.2e-16
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 0.03767300 0.05965831
## sample estimates:
## ratio of variances
## 0.04740789
fivenum(pozos$PH)
## [1] 6.1 6.8 6.9 7.0 7.5
summary(fivenum(pozos$PH))
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 6.10 6.80 6.90 6.86 7.00 7.50
sd(fivenum(pozos$PH))
## [1] 0.5029911
op <- par(mfrow =c(1,2), cex.axis=.7, cex.lab=.9 )
boxplot(pozos$TEMP ~ pozos$PH, col="grey", main="A" )
barplot(tapply(pozos$TEMP, list(pozos$PH), mean), beside = T, main="B")