EPyE3

Daniela Mendes

8/7/2020

Examen de la tercera unidad de competencia de la materia de probabilidad y estadística

  • Fecha de entrega: antes de Jueves 9 de Julio 11:00 p.m.
setwd("~/VeranoPyE")
library(pacman)
library(readxl)
p_load("base64enc", "htmltools", "mime", "xfun", "prettydoc","readr", "knitr","DT","dplyr", "ggplot2")
  • El examen se divide en 3 partes

Inferencia estadística

  1. Describa con sus propias palabras los siguientes conceptos:
  • Inferencia estadística:

Es un conjunto de métodos obtenidos de datos proporcionados por una muestra.

  • Población

Es un conjunto finito o infinito de personas u objetos que pueden ser comunes.

  • Muestreo

Es una operación que consiste en elegir unidades significativas dentro de un conjunto de datos.

  • Estadísticamente representativo

Es necesario tener una cantidad suficiente en relacion a lo que queremos mostrar para tener mutras veridicas de ello.

  • Hipótesis nula y alternativa

La hipótesis nula consiste en una afirmación acerca de la población de origen de la muestra. La hipótesis alternativa es igualmente una afirmación acerca de la población de origen.

  • Importancia del muestreo

Con el podemos determinar una cierta cantidad de datos necesarios para su elaboracion

En esta parte es muy importante la redacción

  • Muestreo y prueba de hipótesis Escoja alguno de los 3 archivos con datos para realizar su examen:
#Datos de agua subterranea
xfun::embed_file("aguasubterranea.xlsx")
Download aguasubterranea.xlsx

Muestreo

Bajo sus propios criterios

  1. Realice un muestreo aleatorio simple
sub <- read_excel("aguasubterranea.xlsx")
dim(sub)
## [1] 586   3
PH <- subset(sub, MEDICION =="PH")
TEMP <- subset(sub, MEDICION =="TEMP")
datatable(sub)
n <- 30
muestramia <- sample(1:nrow(PH), size=n, replace=FALSE)
muestramia
##  [1] 234 238 126 202 281  66 278 272 218 138 213 167 154  51  92   9 209 128 136
## [20]  55 204 148 252  96 254 219 279 271 103  25
n2 <- 30
muestramia2 <- sample(1:nrow(PH), size=n, replace=FALSE)
muestramia2
##  [1]  20 224  27 111 289  36 115 145  63  66  29 166 226 230 264  91 269 163 121
## [20] 184 218 216 273 252  32 195 282  76  77  47
datatable(sub)
submuestramiaPH <- PH[muestramia, ]
head(submuestramiaPH)
## # A tibble: 6 x 3
##       N MEDICION VALOR
##   <dbl> <chr>    <dbl>
## 1   234 PH         7  
## 2   238 PH         7  
## 3   126 PH         6.9
## 4   202 PH         7  
## 5   281 PH         6.8
## 6    66 PH         7
submuestramiaTEMP <- TEMP[muestramia, ]
head(submuestramiaTEMP)
## # A tibble: 6 x 3
##       N MEDICION VALOR
##   <dbl> <chr>    <dbl>
## 1   234 TEMP      28  
## 2   238 TEMP      28.9
## 3   126 TEMP      28.9
## 4   202 TEMP      28  
## 5   281 TEMP      29.1
## 6    66 TEMP      28.9
  1. Realice un muestreo estratificado
dim(PH)
## [1] 293   3
head(PH)
## # A tibble: 6 x 3
##       N MEDICION VALOR
##   <dbl> <chr>    <dbl>
## 1     1 PH         6.8
## 2     2 PH         6.9
## 3     3 PH         6.8
## 4     4 PH         7.1
## 5     5 PH         6.6
## 6     6 PH         6.8
dim(TEMP)
## [1] 293   3
head(TEMP)
## # A tibble: 6 x 3
##       N MEDICION VALOR
##   <dbl> <chr>    <dbl>
## 1     1 TEMP      28.5
## 2     2 TEMP      29.2
## 3     3 TEMP      28.9
## 4     4 TEMP      29.4
## 5     5 TEMP      28.3
## 6     6 TEMP      28.4
sub2 <- sub %>%
  group_by (MEDICION) %>%
  sample_n(30)
levels(as.factor(sub$MEDICION))
## [1] "PH"   "TEMP"
  1. Realice un muestreo ponderado
  submuestramia2 <- sub %>%
  sample_n(size=n, replace=FALSE)

  head(submuestramia2)
## # A tibble: 6 x 3
##       N MEDICION VALOR
##   <dbl> <chr>    <dbl>
## 1   156 TEMP      30.8
## 2   200 TEMP      26.3
## 3    58 PH         6.9
## 4   288 PH         6.5
## 5    68 TEMP      29  
## 6   293 TEMP      27.7
  1. Realice un muestreo de fracción
  submuestramia3 <- data.frame(sub)
  n <- 30
  submuestramia4 <- sample(1:nrow(sub), size=n, replace=FALSE)
  head(submuestramia4)  
## [1] 573 404 447 469 384 574
  submuestramia5 <- sub %>%
    sample_frac(0.05)
  head(submuestramia5); dim(submuestramia5)
## # A tibble: 6 x 3
##       N MEDICION VALOR
##   <dbl> <chr>    <dbl>
## 1   265 TEMP      29.1
## 2   199 PH         7  
## 3    31 TEMP      29.4
## 4   104 PH         6.9
## 5   134 TEMP      27.5
## 6    24 TEMP      28.5
## [1] 29  3

Explique cada respuesta

Prueba de hipótesis

Relice sus hipótesis y aplique lo siguiente

  1. Prueba de shapiro wilk
 shapiro.test(TEMP$VALOR)
## 
##  Shapiro-Wilk normality test
## 
## data:  TEMP$VALOR
## W = 0.98362, p-value = 0.001981
 shapiro.test(PH$VALOR)
## 
##  Shapiro-Wilk normality test
## 
## data:  PH$VALOR
## W = 0.95932, p-value = 2.661e-07
  1. Prueba de k.s.
 ks.test(TEMP$VALOR,"pnorm", mean=mean(TEMP$VALOR), sd=sd(TEMP$VALOR))
## Warning in ks.test(TEMP$VALOR, "pnorm", mean = mean(TEMP$VALOR), sd =
## sd(TEMP$VALOR)): ties should not be present for the Kolmogorov-Smirnov test
## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  TEMP$VALOR
## D = 0.071961, p-value = 0.09618
## alternative hypothesis: two-sided
ks.test(PH$VALOR,"pnorm", mean=mean(PH$VALOR), sd=sd(PH$VALOR))
## Warning in ks.test(PH$VALOR, "pnorm", mean = mean(PH$VALOR), sd = sd(PH$VALOR)):
## ties should not be present for the Kolmogorov-Smirnov test
## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  PH$VALOR
## D = 0.1436, p-value = 1.129e-05
## alternative hypothesis: two-sided
  1. Normalidad de varianzas
var.test(TEMP$VALOR, PH$VALOR)
## 
##  F test to compare two variances
## 
## data:  TEMP$VALOR and PH$VALOR
## F = 21.094, num df = 292, denom df = 292, p-value < 2.2e-16
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  16.76212 26.54421
## sample estimates:
## ratio of variances 
##           21.09354
t.test( TEMP$VALOR, PH$VALOR, var.equal = T, )
## 
##  Two Sample t-test
## 
## data:  TEMP$VALOR and PH$VALOR
## t = 358.45, df = 584, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  21.68802 21.92700
## sample estimates:
## mean of x mean of y 
## 28.697952  6.890444
  1. Numeros de tukey
fivenum(TEMP$VALOR)
## [1] 25.6 28.0 28.7 29.2 32.1
fivenum(PH$VALOR)
## [1] 6.1 6.8 6.9 7.0 7.5
  1. Comparativo de caja y bigote, comparativo de caja y bigote con desviación
op <- par(mfrow =c(1,2), cex.axis=.7, cex.lab=.9 )

boxplot(sub$VALOR ~ sub$MEDICION , col="grey", main="A"  )
barplot(tapply(sub$VALOR, list(sub$MEDICION), mean ), beside = T, main="B" )

Se puede ver claramente que las mediciones de PH son menores que las de TEMP ## Pregunta de rescate Solo suma pero no resta*

  • ¿La gente realmente quiere ser feliz o es una idea que nos vendieron?

Yo opino que la gente si quiere ser feliz, siempre buscaran la manera de mejorar como personas y mejorar su calidad de vida, la felicidad es parte de cumplir metas.

  • Para descargar el codigo de este examen:
xfun::embed_file("epye3.rmd")
Download epye3.rmd