Epye3

setwd("~/estadistica2020")
library(pacman)
p_load("base64enc", "htmltools", "mime", "xfun", "prettydoc","readr", "knitr","DT","dplyr", "ggplot2","readxl")

AguasPH <- read_excel("AguasPH.xlsx")
View(AguasPH)

El examen se divide en 3 partes

Inferencia estadística

Describa con sus propias palabras los siguientes conceptos:

Inferencia estadística Es la manera en la que podemos observar que con la aplicacion de diferentes metodos sobre una muestra, podemos concluir con diferentes resultados o hipotesis.
Población Es la cantidad total que tenemos disponible en el area que queremos estudiar.
Muestreo Es el rango seleccionado de toda la poblacion que tenemos vista.
Estadísticamente representativo Son un conjunto de pasos con el fin de llegar a un resultado final, el cual lo podremos presentar con numeros, conclusiones escritas o graficas.
Hipótesis nula y alternativa Son dos tipos de posibles resultados, la deferencia de estas es que una estara dentros del rango que nos arroja la hipotesis y l aotra estara fuera de el.
Importancia del muestreo es muy importante ya que puedes acortar extensos proceso solo con utilizar el muestreo aleatorio, en el cual tomamos un cierto rango de datos de toda nuestra poblacion para asi ser estudiados.

En esta parte es muy importante la redacción

datatable(AguasPH)

Bajo sus propios criterios

Realice un muestreo aleatorio simple

n <- 17
muestramia <- sample(1:nrow(AguasPH), size=n, replace=FALSE)
muestramia

##  [1]  60 140  81  36 263 144 219 176 212 114 187 194  91  78 262  79 284

AguasPHmuestramia2 <- AguasPH %>%
  sample_n(size=n, replace=FALSE)
head(AguasPHmuestramia2)

Para el primer paso tomamos 17 datos de todos los pozos. Este resultado es la raiz cuadradada de la poblacion. Para el segundo paso se selecciono aleatoriamente los pozos y se saco su PH y TEMP.

Realice un muestreo estratificado

aguasmed <- read_excel("aguasubterranea.xlsx")
View(aguasmed)

levels(as.factor(aguasmed$MEDICION))

## [1] "PH"   "TEMP"

set.seed(1)
sample_agua <- aguasmed %>%
  group_by(MEDICION) %>%
  sample_n(10)
sample_agua

Con este tipo de muestreo podemos ver el comportamiento de diferentes grupos de pozos seleccionados aleatoriamente. 4. Realice un muestreo ponderado

AguasPHmuestramia3 <- AguasPH %>%   
  sample_n(size=n, weight = TEMP)
head(AguasPHmuestramia3)

En el muestreo ponderado lo hicimos con peso hacia ciertos pozos para obtener sus datos

Realice un muestreo de fracción

pozos <- data.frame(AguasPH)
n <- 40
pozosP <- sample(1:nrow(pozos), size=n, replace=FALSE)
head(pozosP)

## [1]  22 206 230 193 104 255

pozos.pesos <- pozos %>%
  sample_frac(0.05)
head(pozos.pesos); dim(pozos.pesos)

## [1] 15  3

En el muestreo con fraccion se seleccionan 6 datos pero con un porcentaje de 0.05 de la boblacion total

Prueba de hipótesis

Relice sus hipótesis y aplique lo siguiente

PozosPH <- read_excel("aguasubterranea.xlsx")
View(PozosPH)

PH <- subset(PozosPH, MEDICION == "PH"    )
TEMP <- subset(PozosPH, MEDICION == "TEMP"    )

Prueba de shapiro wilk

shapiro.test(PH$VALOR)

## 
##  Shapiro-Wilk normality test
## 
## data:  PH$VALOR
## W = 0.95932, p-value = 2.661e-07

shapiro.test(TEMP$VALOR)

## 
##  Shapiro-Wilk normality test
## 
## data:  TEMP$VALOR
## W = 0.98362, p-value = 0.001981

Prueba de k.s.

ks.test(PH$VALOR,"pnorm", mean=mean(PH$VALOR), sd=sd(PH$VALOR))

## Warning in ks.test(PH$VALOR, "pnorm", mean = mean(PH$VALOR), sd = sd(PH$VALOR)):
## ties should not be present for the Kolmogorov-Smirnov test

## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  PH$VALOR
## D = 0.1436, p-value = 1.129e-05
## alternative hypothesis: two-sided

ks.test(TEMP$VALOR,"pnorm", mean=mean(TEMP$VALOR), sd=sd(TEMP$VALOR))

## Warning in ks.test(TEMP$VALOR, "pnorm", mean = mean(TEMP$VALOR), sd =
## sd(TEMP$VALOR)): ties should not be present for the Kolmogorov-Smirnov test

## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  TEMP$VALOR
## D = 0.071961, p-value = 0.09618
## alternative hypothesis: two-sided

Normalidad de varianzas

var.test(PH$VALOR, TEMP$VALOR)

## 
##  F test to compare two variances
## 
## data:  PH$VALOR and TEMP$VALOR
## F = 0.047408, num df = 292, denom df = 292, p-value < 2.2e-16
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  0.03767300 0.05965831
## sample estimates:
## ratio of variances 
##         0.04740789

Numeros de tukey

fivenum(TEMP$VALOR)

## [1] 25.6 28.0 28.7 29.2 32.1

fivenum(PH$VALOR)

## [1] 6.1 6.8 6.9 7.0 7.5

Comparativo de caja y bigote, comparativo de caja y bigote con desviación

op <- par(mfrow =c(1,2), cex.axis=.7, cex.lab=.9 )

boxplot(PozosPH$VALOR ~ PozosPH$MEDICION, col="grey", main="A"  )
barplot(tapply(PozosPH$VALOR, list(PozosPH$MEDICION), mean ), beside = T, main="B" )

Este documento esta disponible en el URL: https://rpubs.com/EdgardoSR/637418

Epye3

Edgardo

8/7/2020

Inferencia estadística

Prueba de hipótesis