setwd("~/estadistica2020")
library(pacman)
p_load("base64enc", "htmltools", "mime", "xfun", "prettydoc","readr", "knitr","DT","dplyr", "ggplot2","readxl")
AguasPH <- read_excel("AguasPH.xlsx")
View(AguasPH)

Inferencia estadística

  1. Describa con sus propias palabras los siguientes conceptos:

En esta parte es muy importante la redacción

datatable(AguasPH)

Bajo sus propios criterios

  1. Realice un muestreo aleatorio simple
n <- 17
muestramia <- sample(1:nrow(AguasPH), size=n, replace=FALSE)
muestramia
##  [1]  60 140  81  36 263 144 219 176 212 114 187 194  91  78 262  79 284
AguasPHmuestramia2 <- AguasPH %>%
  sample_n(size=n, replace=FALSE)
head(AguasPHmuestramia2)

Para el primer paso tomamos 17 datos de todos los pozos. Este resultado es la raiz cuadradada de la poblacion. Para el segundo paso se selecciono aleatoriamente los pozos y se saco su PH y TEMP.

  1. Realice un muestreo estratificado
aguasmed <- read_excel("aguasubterranea.xlsx")
View(aguasmed)
levels(as.factor(aguasmed$MEDICION))
## [1] "PH"   "TEMP"
set.seed(1)
sample_agua <- aguasmed %>%
  group_by(MEDICION) %>%
  sample_n(10)
sample_agua

Con este tipo de muestreo podemos ver el comportamiento de diferentes grupos de pozos seleccionados aleatoriamente. 4. Realice un muestreo ponderado

AguasPHmuestramia3 <- AguasPH %>%   
  sample_n(size=n, weight = TEMP)
head(AguasPHmuestramia3)

En el muestreo ponderado lo hicimos con peso hacia ciertos pozos para obtener sus datos

  1. Realice un muestreo de fracción
pozos <- data.frame(AguasPH)
n <- 40
pozosP <- sample(1:nrow(pozos), size=n, replace=FALSE)
head(pozosP) 
## [1]  22 206 230 193 104 255
pozos.pesos <- pozos %>%
  sample_frac(0.05)
head(pozos.pesos); dim(pozos.pesos)
## [1] 15  3

En el muestreo con fraccion se seleccionan 6 datos pero con un porcentaje de 0.05 de la boblacion total

Prueba de hipótesis

Relice sus hipótesis y aplique lo siguiente

PozosPH <- read_excel("aguasubterranea.xlsx")
View(PozosPH)
PH <- subset(PozosPH, MEDICION == "PH"    )
TEMP <- subset(PozosPH, MEDICION == "TEMP"    )
  1. Prueba de shapiro wilk
shapiro.test(PH$VALOR)
## 
##  Shapiro-Wilk normality test
## 
## data:  PH$VALOR
## W = 0.95932, p-value = 2.661e-07
shapiro.test(TEMP$VALOR)
## 
##  Shapiro-Wilk normality test
## 
## data:  TEMP$VALOR
## W = 0.98362, p-value = 0.001981
  1. Prueba de k.s.
ks.test(PH$VALOR,"pnorm", mean=mean(PH$VALOR), sd=sd(PH$VALOR))
## Warning in ks.test(PH$VALOR, "pnorm", mean = mean(PH$VALOR), sd = sd(PH$VALOR)):
## ties should not be present for the Kolmogorov-Smirnov test
## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  PH$VALOR
## D = 0.1436, p-value = 1.129e-05
## alternative hypothesis: two-sided
ks.test(TEMP$VALOR,"pnorm", mean=mean(TEMP$VALOR), sd=sd(TEMP$VALOR))
## Warning in ks.test(TEMP$VALOR, "pnorm", mean = mean(TEMP$VALOR), sd =
## sd(TEMP$VALOR)): ties should not be present for the Kolmogorov-Smirnov test
## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  TEMP$VALOR
## D = 0.071961, p-value = 0.09618
## alternative hypothesis: two-sided
  1. Normalidad de varianzas
var.test(PH$VALOR, TEMP$VALOR)
## 
##  F test to compare two variances
## 
## data:  PH$VALOR and TEMP$VALOR
## F = 0.047408, num df = 292, denom df = 292, p-value < 2.2e-16
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  0.03767300 0.05965831
## sample estimates:
## ratio of variances 
##         0.04740789
  1. Numeros de tukey
fivenum(TEMP$VALOR)
## [1] 25.6 28.0 28.7 29.2 32.1
fivenum(PH$VALOR)
## [1] 6.1 6.8 6.9 7.0 7.5
  1. Comparativo de caja y bigote, comparativo de caja y bigote con desviación
op <- par(mfrow =c(1,2), cex.axis=.7, cex.lab=.9 )

boxplot(PozosPH$VALOR ~ PozosPH$MEDICION, col="grey", main="A"  )
barplot(tapply(PozosPH$VALOR, list(PozosPH$MEDICION), mean ), beside = T, main="B" )

Este documento esta disponible en el URL: https://rpubs.com/EdgardoSR/637418