Examen de la tercera unidad de competencia de la materia de probabilidad y estadística:

library(pacman)
p_load("base64enc", "htmltools", "mime", "xfun", "prettydoc", "readr", "ggplot2", "tidyr", "plotly", "DT", "readxl", "tidyverse", "dplyr")

Inferencia estadística

1. Describa con sus propias palabras los siguientes conceptos

* Inferencia estadística

Nos podemos referir a la inferencia estadística como los procesos que tenemos que seguir para realizar un buen análisis. Utilizando los recursos de la estadísticas como promedios o desviaciones, para conocer bien a los datos que estamos analizando.

* Población

Una población es una totalidad de datos que pueden representar cualquier cosa. Estos pueden variar mucho entre sí o también puede ser que se parezcan bastante uno con el otro.

* Muestreo

Son valores que pueden ser elegidos aleatoriamente o estratificadamente de una determinada población de datos, estos deben de ser lo más representativo posible para poder hacer una hipótesis más acertada.

* Estadísticamente representativo

Se refiere que los resultados que obtuviste representen o se parezcan a la mayoría de los datos de la población

* Hipótesis nula y alternativa

La hipótesis nula es la primera hipótesis formulada o planteada, que se llegó a ella gracias al método científico. Si la hipótesis nula la falseamos y resulta ser rechazada, apelamos a una hipótesis alternativa que le de explicación a lo antes analizado.

* Importancia del muestreo

El muestreo es muy importante para hacer tu inferencia estadística, a causa de que si tu muestreo no es bueno, esto se puede ver reflejado en tu hipótesis, que tienda a ser incorrecto todo el análisis hecho previamente.

Muestreo

pozos <- read_excel("aguasubterranea.xlsx")
te <- subset(pozos, MEDICION == "TEMP" )
ph <- subset(pozos, MEDICION == "PH")

Bajo sus propios criterios

2. Realice un muestreo aleatorio simple

Muestreo para Temperatura

n <- 88 #La cantidad de numeros que quiero muestrar
muestratemp <- sample(1:nrow(te), size = n, replace = FALSE)
muestratemp #Mi muestra simple
##  [1]   2 144  19 214  34 275 245 155  30  23 225  75 168 267 222   6 166  82 199
## [20] 145  84 227   1  56 197  17  43 264 108 136 234  98 202  96 254  28  36 281
## [39] 270 133 244 235 102  58   8 162 169  46  70 178 287 292 135 100 228 127 113
## [58] 195  66 173 114   4 268  12  21  78  77 247 209  40 184 224 104 183 150  25
## [77] 263  71 212  22 181 280 126 251 158 172 149 238
muestrate <- te[muestratemp,]
head(muestrate)
## # A tibble: 6 x 3
##       N MEDICION VALOR
##   <dbl> <chr>    <dbl>
## 1     2 TEMP      29.2
## 2   144 TEMP      28.9
## 3    19 TEMP      30.3
## 4   214 TEMP      28.9
## 5    34 TEMP      30.2
## 6   275 TEMP      30.1

En esta ocasión para realizar el muestreo para la temperaturas, decidí tomar una muestra grande de 88 pozos, porque viendo los datos me dí cuenta que la población de las temperaturas de los pozos variaba mucho, así que decidí muestrar el 30% de ellos.

Muestreo para el Nivel de PH

n <- 30 #La cantidad de numeros que quiero muestrar
muestraph <- sample(1:nrow(ph), size = n, replace = FALSE)
muestraph #Mi muestra simple
##  [1] 102 107 168 282 255  33  61 247  71 215 236  44 290 177 197 251 208   1 220
## [20] 277 288 199 224 213  99 198  83  95  96  46
muestrap <- ph[muestraph,]
head(muestrap)
## # A tibble: 6 x 3
##       N MEDICION VALOR
##   <dbl> <chr>    <dbl>
## 1   102 PH         7  
## 2   107 PH         6.8
## 3   168 PH         7  
## 4   282 PH         7.1
## 5   255 PH         6.5
## 6    33 PH         7

En los niveles de PH, solamente muestre al 10% de ellos, dicho en otros términos, solamente tome 30 pozos, debido a que los datos del PH no variaba mucho, asíque no era necesario tomar una muestra tan grande.

3. Realice un muestreo estratificado

Muestreo para Temperatura

set.seed(4)
sample_te <- te %>%
  sample_n(30)
sample_te
## # A tibble: 30 x 3
##        N MEDICION VALOR
##    <dbl> <chr>    <dbl>
##  1    75 TEMP      26.3
##  2   259 TEMP      30.9
##  3    71 TEMP      30.4
##  4   172 TEMP      28.6
##  5   245 TEMP      27.9
##  6   186 TEMP      29  
##  7    62 TEMP      31.7
##  8   102 TEMP      29.3
##  9   130 TEMP      27.9
## 10   152 TEMP      29.6
## # ... with 20 more rows

En el muestro estratificado ya no es necesario tener una muestra tan grande, ya que no haremos la muestra de forma aleatoria. Haremos la muestra recolectando los datos que nosotros pensemos que nos permita tener una muestra más representativa.

Muestreo para los niveles de PH

set.seed(4)
sample_ph <- ph %>%
  sample_n(5)
sample_ph
## # A tibble: 5 x 3
##       N MEDICION VALOR
##   <dbl> <chr>    <dbl>
## 1    75 PH         7  
## 2   259 PH         6.9
## 3    71 PH         6.8
## 4   172 PH         7  
## 5   245 PH         6.5

Además, podemos observar de nuevo que la tempetura varía más que los niveles de PH, esto ya nos índica algo muy importante que nos puede resultar útil al momento de formular nuestra hipótesis.

4. Realice un muestreo ponderado

Muestreo para Temperatura

n=88
muestrat <- te %>%   
  sample_n(size=n, weight = N)
head(muestrat)
## # A tibble: 6 x 3
##       N MEDICION VALOR
##   <dbl> <chr>    <dbl>
## 1   283 TEMP      27.3
## 2   145 TEMP      29.6
## 3   247 TEMP      30.1
## 4   278 TEMP      30  
## 5    62 TEMP      31.7
## 6   223 TEMP      28.7

Muestreo para los niveles de PH

n=30
muestrapeh <- ph %>%   
  sample_n(size=n, weight = N)
head(muestrapeh)
## # A tibble: 6 x 3
##       N MEDICION VALOR
##   <dbl> <chr>    <dbl>
## 1   219 PH         6.7
## 2   288 PH         6.5
## 3   159 PH         7  
## 4   253 PH         6.9
## 5   178 PH         7.4
## 6   250 PH         7.1

En el muestreo poderado le asignamos un peso a la muestra que nos ayude a identificar a la mayoría de datos de la población.

5. Realice un muestreo de fracción

Muestreo para Temperatura

n=9
mtemp <- sample(1:nrow(te), size = n, replace = FALSE)
temp.weight <- te %>%
  sample_frac(0.3)
head(temp.weight); dim(temp.weight)
## # A tibble: 6 x 3
##       N MEDICION VALOR
##   <dbl> <chr>    <dbl>
## 1    73 TEMP      29.2
## 2   147 TEMP      30.1
## 3   191 TEMP      28.5
## 4    87 TEMP      28.6
## 5   282 TEMP      27.9
## 6     9 TEMP      28.7
## [1] 88  3

Muestreo para los Niveles de PH

n=9
muestraph <- sample(1:nrow(ph), size = n, replace = FALSE)
ph.weight <- ph %>%
  sample_frac(0.1)
head(ph.weight); dim(ph.weight)
## # A tibble: 6 x 3
##       N MEDICION VALOR
##   <dbl> <chr>    <dbl>
## 1    44 PH         7  
## 2   267 PH         6.9
## 3    39 PH         7.2
## 4    52 PH         7.1
## 5   285 PH         7.1
## 6    82 PH         7
## [1] 29  3

La muestra de fracción es algo similar a la ponderada, sin embargo aquí solamente tomamos un porcentaje de la población de datos que tenemos, y ese porcentaje sería nuestra muestra. Obviamente, si una población de datos varía mucho tu fracción debe de ser más grande, es por eso que en los datos de las temperaturas decidí acaparar más datos que de lo que tome en los datos de los Niveles de PH, ya que los niveles de PH se parecen mucho entre sí.

Prueba de hipótesis

Realice sus hipótesis y explique lo siguiente

Hipótesis

Mi hipótesis es de que la temperatura influye en los niveles de PH de cada pozo de agua. Ya que si la temperatura es alta, puede influír en que el agua incorpore los minerales o los organismos, que se encuentran en el subsuelo. El agua en su forma purificada tiene un nivel de PH neutra de 7. Sin embargo, hay que recordar que esta agua se encuentra en el interperie y puede ser que todo lo que se encuentre a su alrededor influya en sus niveles de PH.

6. Prueba de Shapiro-Wilk

Temperatura

shapiro.test(te$VALOR)
## 
##  Shapiro-Wilk normality test
## 
## data:  te$VALOR
## W = 0.98362, p-value = 0.001981

Niveles de PH

shapiro.test(ph$VALOR)
## 
##  Shapiro-Wilk normality test
## 
## data:  ph$VALOR
## W = 0.95932, p-value = 2.661e-07

7. Prueba de K.S.

Temperatura

ks.test(te$VALOR, "pnorm", mean=mean(te$VALOR), sd=sd(te$VALOR))
## Warning in ks.test(te$VALOR, "pnorm", mean = mean(te$VALOR), sd = sd(te$VALOR)):
## ties should not be present for the Kolmogorov-Smirnov test
## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  te$VALOR
## D = 0.071961, p-value = 0.09618
## alternative hypothesis: two-sided

Niveles de PH

ks.test(ph$VALOR, "pnorm", mean=mean(te$VALOR), sd=sd(te$VALOR))
## Warning in ks.test(ph$VALOR, "pnorm", mean = mean(te$VALOR), sd = sd(te$VALOR)):
## ties should not be present for the Kolmogorov-Smirnov test
## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  ph$VALOR
## D = 1, p-value < 2.2e-16
## alternative hypothesis: two-sided

8. Normalidad de varianzas

Temperatura y Niveles de PH

var.test(te$VALOR, ph$VALOR)
## 
##  F test to compare two variances
## 
## data:  te$VALOR and ph$VALOR
## F = 21.094, num df = 292, denom df = 292, p-value < 2.2e-16
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  16.76212 26.54421
## sample estimates:
## ratio of variances 
##           21.09354

9. Números de turkey

Temperatura

fivenum(te$VALOR)
## [1] 25.6 28.0 28.7 29.2 32.1

Niveles de PH

fivenum(ph$VALOR)
## [1] 6.1 6.8 6.9 7.0 7.5

10. Comparativo de caja y bigote, comparativo de caja y bigote con desviación:

op <- par(mfrow =c(1,2), cex.axis=.7, cex.lab=.9 )

boxplot(te$VALOR ~ ph$VALOR, col="orange", main="A", ylab = "Temperatura", xlab = "PH")
barplot(tapply(te$VALOR, list(ph$VALOR), mean ), beside = T, main="B",col="orange", ylab = "Temperatura", xlab = "PH")

Pregunta de rescate

¿La gente realmente quiere ser feliz o es una idea que nos vendieron?

La felicidad queda mucho a la interpretación de las personas, ya que si analizamos bien lo que cada persona entiende por felicidad tendríamos muchas respuestas diferentes. No obstante, creo que sería acertado decir que por más diferentes que sean las respuestas, siempre evocan a una situación de bienestar consigo mismo y con el entorno de que lo rodea. Así que la disyuntiva aquí, no es de que nos hayan engañado con un término que resultó ser la finalidad más óptima para nosotros o algo imaginario que se nos imposible alcanzar. La disyuntiva aquí es que la felicidad representa para nosotros un consuelo para una vida triste y que también, es una emoción que nos es inevitable sentirla. Aquí quiero parafrasear a Albert Camus, que dijo “la vida no tiene sentido”, sin embargo el también dijo “no se puede vivir sin sentido”, lo que quiere decir, que por más insignificante que sea, no podemos menospreciar lo más valioso que tenemos y que se llama “vida”. Por lo tanto, para mi la felicidad si existe y aparte, representa el por qué vale la pena seguir viviendo. Es la realización más óptima para cada persona.