segundo examen

Tercer examen.

El examen se divide en 3 partes

Inferencia estadística

Describa con sus palabraas los siguientes conceptos:

Inferencia estadística

Son métodos que permiten extraer datos y conclusiones de una muestra, y así inducir a partir de ésta cual será el comportamiento de toda una población, con un error medible.

Población

Es todo aquel conjunto de elementos sobre el cual se está interesado para realizar una experimentación y obtener conclusiones para una investigación, sin embargo, es muy grande que no se suele abarcar todo, por lo cual solo se utiliza una muestra de la población.

Muestreo

Es el proceso por el cual se obtiene el subconjunto de la población, es decir, la muestra. Aquí se determina que parte de la población se va a estudiar y hacer inferencias, con el fin de que se pueda caracterizar o generalizar los resultados a toda la población.

Estadísticamente representativo

Una muestra es estadísticamente representativa cuando el muestreo se hace de forma aleatoria y toda la población tiene la misma probabilidad de ser seleccionada. De igual manera se puede obtener una muestra representativa de forma más limitada, es decir, establecer características y variables deseadas.

Hipótesis nula y alternativa

Son hipótesis mutuamente excluyentes. La hipótesis nula es la que se desea contrastar, es una afirmación inicial que se basa en conocimientos previos de la investigación, y se mantiene a menos que los datos indiquen lo contrario. Por otra parte, la hipótesis alternativa nos indica un valor diferente, ya sea mayor o menor que el de la hipótesis nula y es lo que se espera probar que sea cierto en un estudio.

Importancia del muestreo

Es parte fundamental para realizar un estudio, ya que es difícil llevar a cabo una investigación a toda una población, y gracias al muestreo se pueden obtener resultados y conclusiones de una pequeña parte de la población y poder representar a toda la población mediante esos datos, de esta manera se trabaja más fácil, rápido y con menor costo.

Con los datos de agua subterranea.

importar bibliotecas

setwd("~/PyE verano 2020")
library(pacman)
library(readxl)
p_load("base64enc", "htmltools", "mime", "xfun", "prettydoc","readr", "knitr","DT","dplyr", "ggplot2")

Importar datos

h2osub <- read_excel("aguasubterranea.xlsx")
datatable(h2osub)

Muestreo

Bajo sus propios criterios

Realice un muestreo aleatorio simple

dim(h2osub)

## [1] 586   3

seleccion de la muestra

n <- 45
muestras <- sample(1:nrow(h2osub), size = n, replace = FALSE)
muestras

##  [1]  83 115 195 368 365 564 509 330 352 507 583 360 351   3 460 315  12  25  33
## [20] 209 397  72 218 406  95 127 464 183 419 403 258 262 376 521 210 297 358 165
## [39] 163 415 332 370 519 461  42

*masignar los elementos de la muestra al marco de datos

h2omuestras <- h2osub[muestras, ]
head(h2omuestras)

## # A tibble: 6 x 3
##       N MEDICION VALOR
##   <dbl> <chr>    <dbl>
## 1    83 PH         7.2
## 2   115 PH         6.9
## 3   195 PH         7.2
## 4    75 TEMP      26.3
## 5    72 TEMP      29.7
## 6   271 TEMP      28.8

este muestreo aleatorio simple, toma 40 datos de la calidad del aire con el fin de ahorrar recursos y al mismo tiempo poder obtener resultados parecidos al usar toda la muestra poblacional.

Realice un muestreo estratificado

variables categoricas

levels(as.factor(h2osub$MEDICION))

## [1] "PH"   "TEMP"

muestreo estratificado

set.seed(1)
sample.h2o <- h2osub %>%
  group_by(MEDICION) %>%
  sample_n(20)

sample.h2o

## # A tibble: 40 x 3
## # Groups:   MEDICION [2]
##        N MEDICION VALOR
##    <dbl> <chr>    <dbl>
##  1   167 PH         6.5
##  2   129 PH         6.7
##  3   270 PH         6.8
##  4   187 PH         6.8
##  5    85 PH         6.9
##  6   277 PH         7.1
##  7   263 PH         6.5
##  8    79 PH         6.8
##  9   213 PH         6.8
## 10    37 PH         7  
## # ... with 30 more rows

aqui separamos la poblacion con segmentos exlusivos mas homogeneos, y optener mejores muestras.

Realice un muestreo ponderado

n <- 50
muestrah20 <- h2osub %>%
  sample_n(size=n, replace = FALSE)
head(muestrah20)

## # A tibble: 6 x 3
##       N MEDICION VALOR
##   <dbl> <chr>    <dbl>
## 1   176 PH         6.9
## 2    52 TEMP      29.5
## 3   110 PH         7  
## 4    84 PH         7.1
## 5    29 PH         7  
## 6   141 PH         7.4

el muestreo aleatorio ponderado se hace para incluir grupos pequelos de datos escensiales, y poder tener muestras mas exactas.

Realice un muestreo de fracción

utilizando una fraccion del 5% o 0.05

aguas <- data.frame(h2osub)
n <- 100
aguasubterranea <- sample(1:nrow(aguas), size=n, replace=FALSE)
head(aguasubterranea)

## [1] 219 135 111 532 377 408

utilizando una fraccion del 5% o 0.05

aguas.sub <- aguas %>%
  sample_frac(0.05)
head(aguas.sub); dim(aguas.sub)

##     N MEDICION VALOR
## 1   7     TEMP  28.0
## 2 282       PH   7.1
## 3 241       PH   6.5
## 4  33       PH   7.0
## 5 144     TEMP  28.9
## 6 117       PH   7.3

## [1] 29  3

aqui se toman las proporciones entre el tamaño de la muestra con el tamaño de la población. ## Pruebas de hipótesis

Relice sus hipótesis y aplique lo siguiente

Ph <- subset(h2osub, MEDICION == "PH")
Temp <- subset(h2osub, MEDICION == "TEMP")

Prueba de shapiro wilk

para la prueba de shapiro wilk

para pH

shapiro.test(Ph$VALOR)

## 
##  Shapiro-Wilk normality test
## 
## data:  Ph$VALOR
## W = 0.95932, p-value = 2.661e-07

para temperatura

shapiro.test(Temp$VALOR)

## 
##  Shapiro-Wilk normality test
## 
## data:  Temp$VALOR
## W = 0.98362, p-value = 0.001981

Prueba de k.s.

para pH

ks.test(Ph$VALOR, "pnorm", mean = mean(Ph$VALOR), sd = sd(Ph$VALOR))

## Warning in ks.test(Ph$VALOR, "pnorm", mean = mean(Ph$VALOR), sd = sd(Ph$VALOR)):
## ties should not be present for the Kolmogorov-Smirnov test

## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  Ph$VALOR
## D = 0.1436, p-value = 1.129e-05
## alternative hypothesis: two-sided

para temperatura

ks.test(Temp$VALOR, "pnorm", mean = mean(Temp$VALOR), sd = sd(Temp$VALOR))

## Warning in ks.test(Temp$VALOR, "pnorm", mean = mean(Temp$VALOR), sd =
## sd(Temp$VALOR)): ties should not be present for the Kolmogorov-Smirnov test

## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  Temp$VALOR
## D = 0.071961, p-value = 0.09618
## alternative hypothesis: two-sided

Normalidad de varianzas

var.test(Ph$VALOR, Temp$VALOR)

## 
##  F test to compare two variances
## 
## data:  Ph$VALOR and Temp$VALOR
## F = 0.047408, num df = 292, denom df = 292, p-value < 2.2e-16
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  0.03767300 0.05965831
## sample estimates:
## ratio of variances 
##         0.04740789

Numeros de tukey

numero para pH

fivenum(Ph$VALOR)

## [1] 6.1 6.8 6.9 7.0 7.5

para temperatura

fivenum(Temp$VALOR)

## [1] 25.6 28.0 28.7 29.2 32.1

Comparativo de caja y bigote, comparativo de caja y bigote con desviación

comparativo de caja y bigote

boxplot(Ph$VALOR ~ Temp$VALOR, col = "red")

comparativo de caja y bigote con desviación.

op <- par(mfrow =c(1,2), cex.axis=.7, cex.lab=.9 )

boxplot(h2osub$VALOR ~ h2osub$MEDICION, col = "red", main= "A")
barplot(tapply(h2osub$VALOR, list(h2osub$MEDICION), mean), beside = T, main = "B")

esta prueba de hipotesis nos esta indicando que a mayor temperatura el ph disminuye.
este archivo se encuentra en: https://rpubs.com/bryancasbelt/637517

segundo examen

BRYAN

8/7/2020

Tercer examen.

Inferencia estadística

Con los datos de agua subterranea.

Muestreo