Examen de la tercera unidad de competencia de la materia de probabilidad y estadística

setwd("~/VERANOPYE")
library(pacman)
p_load("base64enc", "htmltools", "mime", "xfun", "prettydoc","readr", "knitr","DT","dplyr", "ggplot2", "readxl")

Inferencia estadística

  • Inferencia estadística: Es la comprensión y deducción de un conjunto de datos estadísticos para así poder llegar una conclusión o comprobación de una hipótesis previamente planteada.

  • Población: Es un todo o conjunto de datos que comparten características comunes o similares, que se encuentran relaciones estadísticamente.

  • Muestreo: El muestreo es el estudio de una parte pequeña o representativa de una población o de un todo.

  • Estadísticamente representativo:: Puede ser un muestreo o datos que se encuentran estrechamente relacionados y cerca de la media total de los datos, es decir lo datos más fieles que cumplen con un patrón o coherencia.

  • Hipótesis nula y alternativa: Son aquellas suposiciones a las cuales se les trata de refutar o negar.

  • Importancia del muestreo: El muestreo es importante, ya que facilita y agiliza el estudio de un todo o población. Por ejemplo se pueden tomar pequeñas muestras de cultivos pero de diferentes zonas de la parcela para estudiar como se va desarrollando en lugar de ir surco por surco analizando cada planta. O también cuando se va sacar un producto al mercado, se puede encuestar una parte o sector de la población a la cual va destinada el producto, para sacar conclusiones y analizar críticas acerca de ello para mejorar.

Se tomará como ejemplo para los ejercicios datos acerca de la relación que existe entre el pH y la temperatura de agua subterránea.

pozos <- read_xlsx("aguasubterranea.xlsx")
datatable(pozos)
dim(pozos)
## [1] 293   2

Muestreo

Muestro aleatorio simple

set.seed(48)

n <- 30

muestraMAS <- sample(1:nrow(pozos), size=n, replace=FALSE)
muestraMAS
##  [1]  69 170 179 153  73 111 266 172  25 213  64 107 256 125  79  66 163 271  60
## [20] 158 148   4  96  90  11 135   9 194 209 185
pozosmuestraMAS <- pozos[muestraMAS,]
head(pozosmuestraMAS)
## # A tibble: 6 x 2
##      PH  TEMP
##   <dbl> <dbl>
## 1   7.1  30  
## 2   6.8  29.3
## 3   6.9  28  
## 4   6.6  30.2
## 5   7    29.2
## 6   6.9  28.5

Muestreo estratificado

set.seed(48)
head(pozos)
## # A tibble: 6 x 2
##      PH  TEMP
##   <dbl> <dbl>
## 1   6.8  28.5
## 2   6.9  29.2
## 3   6.8  28.9
## 4   7.1  29.4
## 5   6.6  28.3
## 6   6.8  28.4
sample_pozos <- pozos %>%
  group_by(PH=="7") %>%
  sample_n(30)
sample_pozos
## # A tibble: 60 x 3
## # Groups:   PH == "7" [2]
##       PH  TEMP `PH == "7"`
##    <dbl> <dbl> <lgl>      
##  1   6.8  29.5 FALSE      
##  2   6.5  29.2 FALSE      
##  3   6.8  27.5 FALSE      
##  4   6.6  28.1 FALSE      
##  5   6.9  29.1 FALSE      
##  6   7.1  30.8 FALSE      
##  7   7.1  29.8 FALSE      
##  8   7.1  27.9 FALSE      
##  9   7.2  29.4 FALSE      
## 10   6.8  28.2 FALSE      
## # ... with 50 more rows

En este tipo de datos, donde no vienen clases o tipos dentro de la misma base de datos, no tiene ningún sentido llevarla a cabo mediante estratificación.

Muestreo ponderado

set.seed(48)
pozosMuestraPON <- pozos %>%
  sample_n(size=n, weight=TEMP)
head(pozosMuestraPON)
## # A tibble: 6 x 2
##      PH  TEMP
##   <dbl> <dbl>
## 1   7    28.6
## 2   6.9  30.9
## 3   7    32.1
## 4   7    29  
## 5   6.8  29.3
## 6   6.8  29.9

Muestreo con ponderación usando la

fracción

pozos2 <- data.frame(pozos)
n <- 50
pozosFrac <- sample(1:nrow(pozos2), size=n, replace=FALSE)
head(pozosFrac)
## [1] 148   4  96  90 277  11
pozosFrac2 <- pozos2 %>%
  sample_frac(0.08)
head(pozosFrac2)
##    PH TEMP
## 1 7.2 28.4
## 2 6.9 29.8
## 3 7.0 29.6
## 4 6.9 27.8
## 5 7.4 29.4
## 6 6.8 29.2
dim(pozosFrac2)
## [1] 23  2

Prueba de hipótesis

Hipotesis: La temperatura y el pH son inversamente proporcionales, es decir que a mayor temperatura menor será el pH.

Prueba de shapiro wilk

shapiro.test(pozos$PH)
## 
##  Shapiro-Wilk normality test
## 
## data:  pozos$PH
## W = 0.95932, p-value = 2.661e-07

Prueba de k.s.

ks.test(pozos$PH, pozos$TEMP)
## Warning in ks.test(pozos$PH, pozos$TEMP): p-value will be approximate in the
## presence of ties
## 
##  Two-sample Kolmogorov-Smirnov test
## 
## data:  pozos$PH and pozos$TEMP
## D = 1, p-value < 2.2e-16
## alternative hypothesis: two-sided

Normalidad de varianzas

var.test(pozos$PH, pozos$TEMP)
## 
##  F test to compare two variances
## 
## data:  pozos$PH and pozos$TEMP
## F = 0.047408, num df = 292, denom df = 292, p-value < 2.2e-16
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  0.03767300 0.05965831
## sample estimates:
## ratio of variances 
##         0.04740789

Numeros de tukey

fivenum(pozos$PH)
## [1] 6.1 6.8 6.9 7.0 7.5
summary(fivenum(pozos$PH))
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    6.10    6.80    6.90    6.86    7.00    7.50
sd(fivenum(pozos$PH))
## [1] 0.5029911

Comparativo de caja y bigote, comparativo de caja y bigote con desviación.

op <- par(mfrow =c(1,2), cex.axis=.7, cex.lab=.9 )

boxplot(pozos$TEMP ~ pozos$PH, col="grey", main="A"  )
barplot(tapply(pozos$TEMP, list(pozos$PH), mean), beside = T, main="B")