Tercer examen.

Inferencia estadística

  1. Describa con sus palabraas los siguientes conceptos:

Son métodos que permiten extraer datos y conclusiones de una muestra, y así inducir a partir de ésta cual será el comportamiento de toda una población, con un error medible.

Es todo aquel conjunto de elementos sobre el cual se está interesado para realizar una experimentación y obtener conclusiones para una investigación, sin embargo, es muy grande que no se suele abarcar todo, por lo cual solo se utiliza una muestra de la población.

Es el proceso por el cual se obtiene el subconjunto de la población, es decir, la muestra. Aquí se determina que parte de la población se va a estudiar y hacer inferencias, con el fin de que se pueda caracterizar o generalizar los resultados a toda la población.

Una muestra es estadísticamente representativa cuando el muestreo se hace de forma aleatoria y toda la población tiene la misma probabilidad de ser seleccionada. De igual manera se puede obtener una muestra representativa de forma más limitada, es decir, establecer características y variables deseadas.

Son hipótesis mutuamente excluyentes. La hipótesis nula es la que se desea contrastar, es una afirmación inicial que se basa en conocimientos previos de la investigación, y se mantiene a menos que los datos indiquen lo contrario. Por otra parte, la hipótesis alternativa nos indica un valor diferente, ya sea mayor o menor que el de la hipótesis nula y es lo que se espera probar que sea cierto en un estudio.

Es parte fundamental para realizar un estudio, ya que es difícil llevar a cabo una investigación a toda una población, y gracias al muestreo se pueden obtener resultados y conclusiones de una pequeña parte de la población y poder representar a toda la población mediante esos datos, de esta manera se trabaja más fácil, rápido y con menor costo.

Con los datos de agua subterranea.

setwd("~/PyE verano 2020")
library(pacman)
library(readxl)
p_load("base64enc", "htmltools", "mime", "xfun", "prettydoc","readr", "knitr","DT","dplyr", "ggplot2")
h2osub <- read_excel("aguasubterranea.xlsx")
datatable(h2osub)

Muestreo

Bajo sus propios criterios

  1. Realice un muestreo aleatorio simple
dim(h2osub)
## [1] 586   3
n <- 45
muestras <- sample(1:nrow(h2osub), size = n, replace = FALSE)
muestras
##  [1]  83 115 195 368 365 564 509 330 352 507 583 360 351   3 460 315  12  25  33
## [20] 209 397  72 218 406  95 127 464 183 419 403 258 262 376 521 210 297 358 165
## [39] 163 415 332 370 519 461  42

*masignar los elementos de la muestra al marco de datos

h2omuestras <- h2osub[muestras, ]
head(h2omuestras)
## # A tibble: 6 x 3
##       N MEDICION VALOR
##   <dbl> <chr>    <dbl>
## 1    83 PH         7.2
## 2   115 PH         6.9
## 3   195 PH         7.2
## 4    75 TEMP      26.3
## 5    72 TEMP      29.7
## 6   271 TEMP      28.8

este muestreo aleatorio simple, toma 40 datos de la calidad del aire con el fin de ahorrar recursos y al mismo tiempo poder obtener resultados parecidos al usar toda la muestra poblacional.

  1. Realice un muestreo estratificado
levels(as.factor(h2osub$MEDICION))
## [1] "PH"   "TEMP"
set.seed(1)
sample.h2o <- h2osub %>%
  group_by(MEDICION) %>%
  sample_n(20)

sample.h2o
## # A tibble: 40 x 3
## # Groups:   MEDICION [2]
##        N MEDICION VALOR
##    <dbl> <chr>    <dbl>
##  1   167 PH         6.5
##  2   129 PH         6.7
##  3   270 PH         6.8
##  4   187 PH         6.8
##  5    85 PH         6.9
##  6   277 PH         7.1
##  7   263 PH         6.5
##  8    79 PH         6.8
##  9   213 PH         6.8
## 10    37 PH         7  
## # ... with 30 more rows

aqui separamos la poblacion con segmentos exlusivos mas homogeneos, y optener mejores muestras.

  1. Realice un muestreo ponderado
n <- 50
muestrah20 <- h2osub %>%
  sample_n(size=n, replace = FALSE)
head(muestrah20)
## # A tibble: 6 x 3
##       N MEDICION VALOR
##   <dbl> <chr>    <dbl>
## 1   176 PH         6.9
## 2    52 TEMP      29.5
## 3   110 PH         7  
## 4    84 PH         7.1
## 5    29 PH         7  
## 6   141 PH         7.4

el muestreo aleatorio ponderado se hace para incluir grupos pequelos de datos escensiales, y poder tener muestras mas exactas.

  1. Realice un muestreo de fracción

utilizando una fraccion del 5% o 0.05

aguas <- data.frame(h2osub)
n <- 100
aguasubterranea <- sample(1:nrow(aguas), size=n, replace=FALSE)
head(aguasubterranea)
## [1] 219 135 111 532 377 408
aguas.sub <- aguas %>%
  sample_frac(0.05)
head(aguas.sub); dim(aguas.sub)
##     N MEDICION VALOR
## 1   7     TEMP  28.0
## 2 282       PH   7.1
## 3 241       PH   6.5
## 4  33       PH   7.0
## 5 144     TEMP  28.9
## 6 117       PH   7.3
## [1] 29  3

aqui se toman las proporciones entre el tamaño de la muestra con el tamaño de la población. ## Pruebas de hipótesis

Relice sus hipótesis y aplique lo siguiente

Ph <- subset(h2osub, MEDICION == "PH")
Temp <- subset(h2osub, MEDICION == "TEMP")
  1. Prueba de shapiro wilk

para la prueba de shapiro wilk

shapiro.test(Ph$VALOR)
## 
##  Shapiro-Wilk normality test
## 
## data:  Ph$VALOR
## W = 0.95932, p-value = 2.661e-07
shapiro.test(Temp$VALOR)
## 
##  Shapiro-Wilk normality test
## 
## data:  Temp$VALOR
## W = 0.98362, p-value = 0.001981
  1. Prueba de k.s.
ks.test(Ph$VALOR, "pnorm", mean = mean(Ph$VALOR), sd = sd(Ph$VALOR))
## Warning in ks.test(Ph$VALOR, "pnorm", mean = mean(Ph$VALOR), sd = sd(Ph$VALOR)):
## ties should not be present for the Kolmogorov-Smirnov test
## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  Ph$VALOR
## D = 0.1436, p-value = 1.129e-05
## alternative hypothesis: two-sided
ks.test(Temp$VALOR, "pnorm", mean = mean(Temp$VALOR), sd = sd(Temp$VALOR))
## Warning in ks.test(Temp$VALOR, "pnorm", mean = mean(Temp$VALOR), sd =
## sd(Temp$VALOR)): ties should not be present for the Kolmogorov-Smirnov test
## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  Temp$VALOR
## D = 0.071961, p-value = 0.09618
## alternative hypothesis: two-sided
  1. Normalidad de varianzas
var.test(Ph$VALOR, Temp$VALOR)
## 
##  F test to compare two variances
## 
## data:  Ph$VALOR and Temp$VALOR
## F = 0.047408, num df = 292, denom df = 292, p-value < 2.2e-16
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  0.03767300 0.05965831
## sample estimates:
## ratio of variances 
##         0.04740789
  1. Numeros de tukey
fivenum(Ph$VALOR)
## [1] 6.1 6.8 6.9 7.0 7.5
fivenum(Temp$VALOR)
## [1] 25.6 28.0 28.7 29.2 32.1
  1. Comparativo de caja y bigote, comparativo de caja y bigote con desviación
boxplot(Ph$VALOR ~ Temp$VALOR, col = "red")

op <- par(mfrow =c(1,2), cex.axis=.7, cex.lab=.9 )

boxplot(h2osub$VALOR ~ h2osub$MEDICION, col = "red", main= "A")
barplot(tapply(h2osub$VALOR, list(h2osub$MEDICION), mean), beside = T, main = "B")