Examen de la tercera unidad de competencia de la materia de probabilidad y estadística

Fecha de entrega: antes de Jueves 9 de Julio 11:00 p.m.

setwd("~/VeranoPyE")
library(pacman)
library(readxl)
p_load("base64enc", "htmltools", "mime", "xfun", "prettydoc","readr", "knitr","DT","dplyr", "ggplot2")

El examen se divide en 3 partes

Inferencia estadística

Describa con sus propias palabras los siguientes conceptos:

Inferencia estadística:

Es un conjunto de métodos obtenidos de datos proporcionados por una muestra.

Población

Es un conjunto finito o infinito de personas u objetos que pueden ser comunes.

Muestreo

Es una operación que consiste en elegir unidades significativas dentro de un conjunto de datos.

Estadísticamente representativo

Es necesario tener una cantidad suficiente en relacion a lo que queremos mostrar para tener mutras veridicas de ello.

Hipótesis nula y alternativa

La hipótesis nula consiste en una afirmación acerca de la población de origen de la muestra. La hipótesis alternativa es igualmente una afirmación acerca de la población de origen.

Importancia del muestreo

Con el podemos determinar una cierta cantidad de datos necesarios para su elaboracion

En esta parte es muy importante la redacción

Muestreo y prueba de hipótesis Escoja alguno de los 3 archivos con datos para realizar su examen:

#Datos de agua subterranea
xfun::embed_file("aguasubterranea.xlsx")

Download aguasubterranea.xlsx

Muestreo

Bajo sus propios criterios

Realice un muestreo aleatorio simple

sub <- read_excel("aguasubterranea.xlsx")
dim(sub)

## [1] 586   3

PH <- subset(sub, MEDICION =="PH")
TEMP <- subset(sub, MEDICION =="TEMP")

datatable(sub)

n <- 30
muestramia <- sample(1:nrow(PH), size=n, replace=FALSE)
muestramia

##  [1] 234 238 126 202 281  66 278 272 218 138 213 167 154  51  92   9 209 128 136
## [20]  55 204 148 252  96 254 219 279 271 103  25

n2 <- 30
muestramia2 <- sample(1:nrow(PH), size=n, replace=FALSE)
muestramia2

##  [1]  20 224  27 111 289  36 115 145  63  66  29 166 226 230 264  91 269 163 121
## [20] 184 218 216 273 252  32 195 282  76  77  47

datatable(sub)

submuestramiaPH <- PH[muestramia, ]
head(submuestramiaPH)

## # A tibble: 6 x 3
##       N MEDICION VALOR
##   <dbl> <chr>    <dbl>
## 1   234 PH         7  
## 2   238 PH         7  
## 3   126 PH         6.9
## 4   202 PH         7  
## 5   281 PH         6.8
## 6    66 PH         7

submuestramiaTEMP <- TEMP[muestramia, ]
head(submuestramiaTEMP)

## # A tibble: 6 x 3
##       N MEDICION VALOR
##   <dbl> <chr>    <dbl>
## 1   234 TEMP      28  
## 2   238 TEMP      28.9
## 3   126 TEMP      28.9
## 4   202 TEMP      28  
## 5   281 TEMP      29.1
## 6    66 TEMP      28.9

Realice un muestreo estratificado

dim(PH)

## [1] 293   3

head(PH)

## # A tibble: 6 x 3
##       N MEDICION VALOR
##   <dbl> <chr>    <dbl>
## 1     1 PH         6.8
## 2     2 PH         6.9
## 3     3 PH         6.8
## 4     4 PH         7.1
## 5     5 PH         6.6
## 6     6 PH         6.8

dim(TEMP)

## [1] 293   3

head(TEMP)

## # A tibble: 6 x 3
##       N MEDICION VALOR
##   <dbl> <chr>    <dbl>
## 1     1 TEMP      28.5
## 2     2 TEMP      29.2
## 3     3 TEMP      28.9
## 4     4 TEMP      29.4
## 5     5 TEMP      28.3
## 6     6 TEMP      28.4

sub2 <- sub %>%
  group_by (MEDICION) %>%
  sample_n(30)

levels(as.factor(sub$MEDICION))

## [1] "PH"   "TEMP"

Realice un muestreo ponderado

  submuestramia2 <- sub %>%
  sample_n(size=n, replace=FALSE)

  head(submuestramia2)

## # A tibble: 6 x 3
##       N MEDICION VALOR
##   <dbl> <chr>    <dbl>
## 1   156 TEMP      30.8
## 2   200 TEMP      26.3
## 3    58 PH         6.9
## 4   288 PH         6.5
## 5    68 TEMP      29  
## 6   293 TEMP      27.7

Realice un muestreo de fracción

  submuestramia3 <- data.frame(sub)
  n <- 30
  submuestramia4 <- sample(1:nrow(sub), size=n, replace=FALSE)
  head(submuestramia4)

## [1] 573 404 447 469 384 574

  submuestramia5 <- sub %>%
    sample_frac(0.05)
  head(submuestramia5); dim(submuestramia5)

## # A tibble: 6 x 3
##       N MEDICION VALOR
##   <dbl> <chr>    <dbl>
## 1   265 TEMP      29.1
## 2   199 PH         7  
## 3    31 TEMP      29.4
## 4   104 PH         6.9
## 5   134 TEMP      27.5
## 6    24 TEMP      28.5

## [1] 29  3

Explique cada respuesta

Prueba de hipótesis

Relice sus hipótesis y aplique lo siguiente

Prueba de shapiro wilk

 shapiro.test(TEMP$VALOR)

## 
##  Shapiro-Wilk normality test
## 
## data:  TEMP$VALOR
## W = 0.98362, p-value = 0.001981

 shapiro.test(PH$VALOR)

## 
##  Shapiro-Wilk normality test
## 
## data:  PH$VALOR
## W = 0.95932, p-value = 2.661e-07

Prueba de k.s.

 ks.test(TEMP$VALOR,"pnorm", mean=mean(TEMP$VALOR), sd=sd(TEMP$VALOR))

## Warning in ks.test(TEMP$VALOR, "pnorm", mean = mean(TEMP$VALOR), sd =
## sd(TEMP$VALOR)): ties should not be present for the Kolmogorov-Smirnov test

## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  TEMP$VALOR
## D = 0.071961, p-value = 0.09618
## alternative hypothesis: two-sided

ks.test(PH$VALOR,"pnorm", mean=mean(PH$VALOR), sd=sd(PH$VALOR))

## Warning in ks.test(PH$VALOR, "pnorm", mean = mean(PH$VALOR), sd = sd(PH$VALOR)):
## ties should not be present for the Kolmogorov-Smirnov test

## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  PH$VALOR
## D = 0.1436, p-value = 1.129e-05
## alternative hypothesis: two-sided

Normalidad de varianzas

var.test(TEMP$VALOR, PH$VALOR)

## 
##  F test to compare two variances
## 
## data:  TEMP$VALOR and PH$VALOR
## F = 21.094, num df = 292, denom df = 292, p-value < 2.2e-16
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  16.76212 26.54421
## sample estimates:
## ratio of variances 
##           21.09354

t.test( TEMP$VALOR, PH$VALOR, var.equal = T, )

## 
##  Two Sample t-test
## 
## data:  TEMP$VALOR and PH$VALOR
## t = 358.45, df = 584, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  21.68802 21.92700
## sample estimates:
## mean of x mean of y 
## 28.697952  6.890444

Numeros de tukey

fivenum(TEMP$VALOR)

## [1] 25.6 28.0 28.7 29.2 32.1

fivenum(PH$VALOR)

## [1] 6.1 6.8 6.9 7.0 7.5

Comparativo de caja y bigote, comparativo de caja y bigote con desviación

op <- par(mfrow =c(1,2), cex.axis=.7, cex.lab=.9 )

boxplot(sub$VALOR ~ sub$MEDICION , col="grey", main="A"  )
barplot(tapply(sub$VALOR, list(sub$MEDICION), mean ), beside = T, main="B" )

Se puede ver claramente que las mediciones de PH son menores que las de TEMP ## Pregunta de rescate Solo suma pero no resta*

¿La gente realmente quiere ser feliz o es una idea que nos vendieron?

Yo opino que la gente si quiere ser feliz, siempre buscaran la manera de mejorar como personas y mejorar su calidad de vida, la felicidad es parte de cumplir metas.

Para descargar el codigo de este examen:

xfun::embed_file("epye3.rmd")

Download epye3.rmd

EPyE3

Daniela Mendes

8/7/2020

Examen de la tercera unidad de competencia de la materia de probabilidad y estadística

Inferencia estadística

Muestreo

Prueba de hipótesis