Examen de la tercera unidad de competencia de la materia de probabilidad y estadística

setwd("~/VERANOPYE")
library(pacman)
p_load("base64enc", "htmltools", "mime", "xfun", "prettydoc","readr", "knitr","DT","dplyr", "ggplot2","readxl")

Inferencia estadística

  1. Describa con sus propias palabras los siguientes conceptos:
  • Inferencia estadística Es la estadistica que busca buscar la representacion de datos o comportamiento de la parte de una poblacion a su totalidad. Es decir encontrar un resultado en una parte de la poblacion que represente a lo demas.

  • Población Son todos los datos que representan a una variable.

  • Muestreo Es una parte del conjunto de datos que se llama poblacion

  • Estadísticamente representativo Se refiere que en los calculos estadisticos a la muestra respresente de una manera muy cercana a todos los datos de la poblacion de la variable buscada, de tal manera que si tu resultado es muy parecido al de toda la poblacion esto quiere decir que es estadísticamente representativo

  • Hipótesis nula y alternativa Hipótesis nula: Se refiere a un valor hipotetico, normalmente se refiere a una afirmacion que anteriormente se tenia por lo que se basa en analisis previos o experiencias previas. Hipotesis alternativa: Es la hipotesis que se espera que sea probada que es la verdadera, esta indica un parametro de poblacion mas pequeño, mas grande o diferente de la hipotesis nula.

  • Importancia del muestreo El muestreo puede ser la clave de que tus calculos sean estadísticamente representativos ya que si no aplicas tus calculos a una parte de la poblacion que sea lo mas representativas posibles puede que tus calculos sean erroneos. En el muestreo se debe de tomar en cuenta que esos datos deben de ser los suficientes para poder representar toda tu poblacion ya que en caso de que no tus calculos serian en vano ya que no tendrian un significado real.

En esta parte es muy importante la redacción

  • Muestreo y prueba de hipótesis Escoja alguno de los 3 archivos con datos para realizar su examen:
#Datos de agua subterranea
xfun::embed_file("aguasubterranea.xlsx")
Download aguasubterranea.xlsx
#Datos de salud 

Muestreo

Bajo sus propios criterios

aguasub <- read_excel("aguasubterranea.xlsx")
aguasub
## # A tibble: 586 x 3
##        N MEDICION VALOR
##    <dbl> <chr>    <dbl>
##  1     1 PH         6.8
##  2     2 PH         6.9
##  3     3 PH         6.8
##  4     4 PH         7.1
##  5     5 PH         6.6
##  6     6 PH         6.8
##  7     7 PH         6.5
##  8     8 PH         6.9
##  9     9 PH         7  
## 10    10 PH         7  
## # ... with 576 more rows
  1. Realice un muestreo aleatorio simple
n <- 115
muestramia <- sample(1:nrow(aguasub), size=n, replace=FALSE)
muestramia
##   [1] 219 250 151 227 297  84  36 380 129 474 174 237 130 529 362 171 469  53
##  [19] 366  90 288 441 391  49 478  55 206 257 524 161  27 301 245 156 548 183
##  [37] 214 583 364 222 544 557 294  47 204 236 327 443 259 445 461 567 202 484
##  [55] 220 127  92 139 549 581 296 409 572 426 414 339 354 453 329 501 289 103
##  [73] 276 256 306 473 481 298 157 226 118 412 386  10 367 565 190 393  16 462
##  [91] 359  34   4 330 382 150 194  93 458  70  28 254 547 541 154 440 450 321
## [109] 201 479 266 577  68 520  58
aguamuestramia <- aguasub[muestramia, ]
head(aguamuestramia)
## # A tibble: 6 x 3
##       N MEDICION VALOR
##   <dbl> <chr>    <dbl>
## 1   219 PH         6.7
## 2   250 PH         7.1
## 3   151 PH         7  
## 4   227 PH         7  
## 5     4 TEMP      29.4
## 6    84 PH         7.1

Los datos obtenidos salen de mi “n” ya que yo decido cuanto se muestrean para los que se van a sacar de la poblacion. Estos son datos aleatorios del total. Son 115 datos los que se decidieronq que se trabajarian en este muestreo.

  1. Realice un muestreo estratificado
head(aguasub)
## # A tibble: 6 x 3
##       N MEDICION VALOR
##   <dbl> <chr>    <dbl>
## 1     1 PH         6.8
## 2     2 PH         6.9
## 3     3 PH         6.8
## 4     4 PH         7.1
## 5     5 PH         6.6
## 6     6 PH         6.8
levels(as.factor(aguasub$MEDICION))
## [1] "PH"   "TEMP"
set.seed(1)
sample_aguasub <- aguasub %>%
  group_by(MEDICION="TEMP") %>%
  sample_n(10)
sample_aguasub
## # A tibble: 10 x 3
## # Groups:   MEDICION [1]
##        N MEDICION VALOR
##    <dbl> <chr>    <dbl>
##  1   129 TEMP       6.7
##  2   216 TEMP      27.8
##  3   178 TEMP      28.8
##  4     6 TEMP      28.4
##  5   270 TEMP       6.8
##  6   187 TEMP       6.8
##  7    14 TEMP      28.5
##  8   277 TEMP       7.1
##  9   201 TEMP      28.3
## 10    37 TEMP      31.5
head(aguasub)
## # A tibble: 6 x 3
##       N MEDICION VALOR
##   <dbl> <chr>    <dbl>
## 1     1 PH         6.8
## 2     2 PH         6.9
## 3     3 PH         6.8
## 4     4 PH         7.1
## 5     5 PH         6.6
## 6     6 PH         6.8
levels(as.factor(aguasub$MEDICION))
## [1] "PH"   "TEMP"
set.seed(1)
sample_aguasub <- aguasub %>%
  group_by(MEDICION="PH") %>%
  sample_n(10)
sample_aguasub
## # A tibble: 10 x 3
## # Groups:   MEDICION [1]
##        N MEDICION VALOR
##    <dbl> <chr>    <dbl>
##  1   129 PH         6.7
##  2   216 PH        27.8
##  3   178 PH        28.8
##  4     6 PH        28.4
##  5   270 PH         6.8
##  6   187 PH         6.8
##  7    14 PH        28.5
##  8   277 PH         7.1
##  9   201 PH        28.3
## 10    37 PH        31.5

Los datos que se obtienen en un muestreo estratificado se basan en el cual dato se espera encontrar por categoria por ejemplo en estas tablas se pidio primero buscar una muestra de 10 de temperatura aleatoria mente y en la segunda la muestra es del mismo tamaño pero en este caso se ve que se solicito de ph asi se ve un muestreo estratificado.

  1. Realice un muestreo ponderado
crimemuestramia3 <- aguasub %>%
  sample_n(size=n, replace=FALSE)
head(crimemuestramia3)
## # A tibble: 6 x 3
##       N MEDICION VALOR
##   <dbl> <chr>    <dbl>
## 1    37 PH         7  
## 2   105 PH         6.9
## 3   192 TEMP      29  
## 4    89 TEMP      30  
## 5    33 TEMP      28.2
## 6    37 TEMP      31.5

Aqui se observa una muestra de 6 datos que igual son aleatorios y en este caso si se observa como aparecen datos de temperatura y de ph por lo que se muestrearian dos categorias en en muestreo. 5. Realice un muestreo de fracción

agsub <- aguasub %>%
  sample_frac(0.7)
head(agsub); dim(agsub)
## # A tibble: 6 x 3
##       N MEDICION VALOR
##   <dbl> <chr>    <dbl>
## 1   125 TEMP      27.3
## 2   250 TEMP      27.5
## 3   126 TEMP      28.9
## 4   110 TEMP      28.8
## 5    16 PH         7.1
## 6    40 PH         7.1
## [1] 410   3

En este tipo de muestreo se observa como se representa una parte de los datos que aparecen en toda nuestra base de datos por lo que asi vemos cuanto es cierta fraccion de nuestra poblacion. Explique cada respuesta

Prueba de hipótesis

Realice sus hipótesis y aplique lo siguiente

La hipotesis que se quiere comprobar es que el ph cambia conforme a la temperatura la cual este el pozo. El agua en un lugar donde pueda ser afectada por factores externos como la temperatura, pueda ser que lleve a un cambio de ph, en esta caso se espera comprobar conforme a una base de datos con temperatura y nivel de ph si este factor de temperatura afecta a nuestro ph en los pozos. 6. Prueba de shapiro wilk

PH <- subset(aguasub, MEDICION == "PH"    )
TEMP <- subset(aguasub, MEDICION == "TEMP"    )
shapiro.test(PH$VALOR  )
## 
##  Shapiro-Wilk normality test
## 
## data:  PH$VALOR
## W = 0.95932, p-value = 2.661e-07
shapiro.test(TEMP$VALOR  )
## 
##  Shapiro-Wilk normality test
## 
## data:  TEMP$VALOR
## W = 0.98362, p-value = 0.001981
  1. Prueba de k.s.
ks.test(PH$VALOR,"pnorm", mean=mean(PH$VALOR), sd=sd(PH$VALOR))
## Warning in ks.test(PH$VALOR, "pnorm", mean = mean(PH$VALOR), sd = sd(PH$VALOR)):
## ties should not be present for the Kolmogorov-Smirnov test
## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  PH$VALOR
## D = 0.1436, p-value = 1.129e-05
## alternative hypothesis: two-sided
ks.test(TEMP$VALOR,"pnorm", mean=mean(TEMP$VALOR), sd=sd(TEMP$VALOR))
## Warning in ks.test(TEMP$VALOR, "pnorm", mean = mean(TEMP$VALOR), sd =
## sd(TEMP$VALOR)): ties should not be present for the Kolmogorov-Smirnov test
## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  TEMP$VALOR
## D = 0.071961, p-value = 0.09618
## alternative hypothesis: two-sided
  1. Normalidad de varianzas
var.test(TEMP$VALOR, PH$VALOR)
## 
##  F test to compare two variances
## 
## data:  TEMP$VALOR and PH$VALOR
## F = 21.094, num df = 292, denom df = 292, p-value < 2.2e-16
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  16.76212 26.54421
## sample estimates:
## ratio of variances 
##           21.09354
  1. Numeros de tukey
fivenum(PH$VALOR)
## [1] 6.1 6.8 6.9 7.0 7.5
fivenum(TEMP$VALOR)
## [1] 25.6 28.0 28.7 29.2 32.1
  1. Comparativo de caja y bigote, comparativo de caja y bigote con desviación
boxplot(TEMP$VALOR  ~ PH$VALOR, col = "green"  )

op <- par(mfrow =c(1,2), cex.axis=.7, cex.lab=.9 )

boxplot(TEMP$VALOR ~ PH$VALOR, col="grey", main="A"  )
barplot(tapply(TEMP$VALOR, list(PH$VALOR), mean ), beside = T, main="B")

Pregunta de rescate

Solo suma pero no resta

  • ¿La gente realmente quiere ser feliz o es una idea que nos vendieron?

La felicidad es algo el porque la gente hace las cosas, puede varias mucho ya que todos tenemos diferentes gustos, pasiones, intereses, etc. La idea que nos venden de lo que significa felicidad esta corrompida por las grandes empresas que nos venden todo tipo de cosas para llenar un vacio de felicidad interna que llega con felicidad momentanea. El ser humano es feliz materializando sus ideas, por esto me refiero a creaciones de todo tipo ya que en gustos se rompen generos por lo que cada idea que se lleve a cabo va a generar satisfaccion en la persona. Mi opinion es que la idea de la felicidad esta muy perdida en muchas personas, por lo que ven en la sociedad consumista.