setwd("~/estadistica2020")
library(pacman)
p_load("base64enc", "htmltools", "mime", "xfun", "prettydoc","readr", "knitr","DT","dplyr", "ggplot2","readxl")
AguasPH <- read_excel("AguasPH.xlsx")
View(AguasPH)
Inferencia estadística Es la manera en la que podemos observar que con la aplicacion de diferentes metodos sobre una muestra, podemos concluir con diferentes resultados o hipotesis.
Población Es la cantidad total que tenemos disponible en el area que queremos estudiar.
Muestreo Es el rango seleccionado de toda la poblacion que tenemos vista.
Estadísticamente representativo Son un conjunto de pasos con el fin de llegar a un resultado final, el cual lo podremos presentar con numeros, conclusiones escritas o graficas.
Hipótesis nula y alternativa Son dos tipos de posibles resultados, la deferencia de estas es que una estara dentros del rango que nos arroja la hipotesis y l aotra estara fuera de el.
Importancia del muestreo es muy importante ya que puedes acortar extensos proceso solo con utilizar el muestreo aleatorio, en el cual tomamos un cierto rango de datos de toda nuestra poblacion para asi ser estudiados.
En esta parte es muy importante la redacción
datatable(AguasPH)
Bajo sus propios criterios
n <- 17
muestramia <- sample(1:nrow(AguasPH), size=n, replace=FALSE)
muestramia
## [1] 60 140 81 36 263 144 219 176 212 114 187 194 91 78 262 79 284
AguasPHmuestramia2 <- AguasPH %>%
sample_n(size=n, replace=FALSE)
head(AguasPHmuestramia2)
Para el primer paso tomamos 17 datos de todos los pozos. Este resultado es la raiz cuadradada de la poblacion. Para el segundo paso se selecciono aleatoriamente los pozos y se saco su PH y TEMP.
aguasmed <- read_excel("aguasubterranea.xlsx")
View(aguasmed)
levels(as.factor(aguasmed$MEDICION))
## [1] "PH" "TEMP"
set.seed(1)
sample_agua <- aguasmed %>%
group_by(MEDICION) %>%
sample_n(10)
sample_agua
Con este tipo de muestreo podemos ver el comportamiento de diferentes grupos de pozos seleccionados aleatoriamente. 4. Realice un muestreo ponderado
AguasPHmuestramia3 <- AguasPH %>%
sample_n(size=n, weight = TEMP)
head(AguasPHmuestramia3)
En el muestreo ponderado lo hicimos con peso hacia ciertos pozos para obtener sus datos
pozos <- data.frame(AguasPH)
n <- 40
pozosP <- sample(1:nrow(pozos), size=n, replace=FALSE)
head(pozosP)
## [1] 22 206 230 193 104 255
pozos.pesos <- pozos %>%
sample_frac(0.05)
head(pozos.pesos); dim(pozos.pesos)
## [1] 15 3
En el muestreo con fraccion se seleccionan 6 datos pero con un porcentaje de 0.05 de la boblacion total
Relice sus hipótesis y aplique lo siguiente
PozosPH <- read_excel("aguasubterranea.xlsx")
View(PozosPH)
PH <- subset(PozosPH, MEDICION == "PH" )
TEMP <- subset(PozosPH, MEDICION == "TEMP" )
shapiro.test(PH$VALOR)
##
## Shapiro-Wilk normality test
##
## data: PH$VALOR
## W = 0.95932, p-value = 2.661e-07
shapiro.test(TEMP$VALOR)
##
## Shapiro-Wilk normality test
##
## data: TEMP$VALOR
## W = 0.98362, p-value = 0.001981
ks.test(PH$VALOR,"pnorm", mean=mean(PH$VALOR), sd=sd(PH$VALOR))
## Warning in ks.test(PH$VALOR, "pnorm", mean = mean(PH$VALOR), sd = sd(PH$VALOR)):
## ties should not be present for the Kolmogorov-Smirnov test
##
## One-sample Kolmogorov-Smirnov test
##
## data: PH$VALOR
## D = 0.1436, p-value = 1.129e-05
## alternative hypothesis: two-sided
ks.test(TEMP$VALOR,"pnorm", mean=mean(TEMP$VALOR), sd=sd(TEMP$VALOR))
## Warning in ks.test(TEMP$VALOR, "pnorm", mean = mean(TEMP$VALOR), sd =
## sd(TEMP$VALOR)): ties should not be present for the Kolmogorov-Smirnov test
##
## One-sample Kolmogorov-Smirnov test
##
## data: TEMP$VALOR
## D = 0.071961, p-value = 0.09618
## alternative hypothesis: two-sided
var.test(PH$VALOR, TEMP$VALOR)
##
## F test to compare two variances
##
## data: PH$VALOR and TEMP$VALOR
## F = 0.047408, num df = 292, denom df = 292, p-value < 2.2e-16
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 0.03767300 0.05965831
## sample estimates:
## ratio of variances
## 0.04740789
fivenum(TEMP$VALOR)
## [1] 25.6 28.0 28.7 29.2 32.1
fivenum(PH$VALOR)
## [1] 6.1 6.8 6.9 7.0 7.5
op <- par(mfrow =c(1,2), cex.axis=.7, cex.lab=.9 )
boxplot(PozosPH$VALOR ~ PozosPH$MEDICION, col="grey", main="A" )
barplot(tapply(PozosPH$VALOR, list(PozosPH$MEDICION), mean ), beside = T, main="B" )
Este documento esta disponible en el URL: https://rpubs.com/EdgardoSR/637418