Examen de la tercera unidad de competencia de la materia de probabilidad y estadística:
library(pacman)
p_load("base64enc", "htmltools", "mime", "xfun", "prettydoc", "readr", "ggplot2", "tidyr", "plotly", "DT", "readxl", "tidyverse", "dplyr")Inferencia estadística
1. Describa con sus propias palabras los siguientes conceptos
* Inferencia estadística
Nos podemos referir a la inferencia estadística como los procesos que tenemos que seguir para realizar un buen análisis. Utilizando los recursos de la estadísticas como promedios o desviaciones, para conocer bien a los datos que estamos analizando.
* Población
Una población es una totalidad de datos que pueden representar cualquier cosa. Estos pueden variar mucho entre sí o también puede ser que se parezcan bastante uno con el otro.
* Muestreo
Son valores que pueden ser elegidos aleatoriamente o estratificadamente de una determinada población de datos, estos deben de ser lo más representativo posible para poder hacer una hipótesis más acertada.
* Estadísticamente representativo
Se refiere que los resultados que obtuviste representen o se parezcan a la mayoría de los datos de la población
* Hipótesis nula y alternativa
La hipótesis nula es la primera hipótesis formulada o planteada, que se llegó a ella gracias al método científico. Si la hipótesis nula la falseamos y resulta ser rechazada, apelamos a una hipótesis alternativa que le de explicación a lo antes analizado.
* Importancia del muestreo
El muestreo es muy importante para hacer tu inferencia estadística, a causa de que si tu muestreo no es bueno, esto se puede ver reflejado en tu hipótesis, que tienda a ser incorrecto todo el análisis hecho previamente.
Muestreo
pozos <- read_excel("aguasubterranea.xlsx")
te <- subset(pozos, MEDICION == "TEMP" )
ph <- subset(pozos, MEDICION == "PH")Bajo sus propios criterios
2. Realice un muestreo aleatorio simple
Muestreo para Temperatura
n <- 88 #La cantidad de numeros que quiero muestrar
muestratemp <- sample(1:nrow(te), size = n, replace = FALSE)
muestratemp #Mi muestra simple## [1] 2 144 19 214 34 275 245 155 30 23 225 75 168 267 222 6 166 82 199
## [20] 145 84 227 1 56 197 17 43 264 108 136 234 98 202 96 254 28 36 281
## [39] 270 133 244 235 102 58 8 162 169 46 70 178 287 292 135 100 228 127 113
## [58] 195 66 173 114 4 268 12 21 78 77 247 209 40 184 224 104 183 150 25
## [77] 263 71 212 22 181 280 126 251 158 172 149 238
## # A tibble: 6 x 3
## N MEDICION VALOR
## <dbl> <chr> <dbl>
## 1 2 TEMP 29.2
## 2 144 TEMP 28.9
## 3 19 TEMP 30.3
## 4 214 TEMP 28.9
## 5 34 TEMP 30.2
## 6 275 TEMP 30.1
En esta ocasión para realizar el muestreo para la temperaturas, decidí tomar una muestra grande de 88 pozos, porque viendo los datos me dí cuenta que la población de las temperaturas de los pozos variaba mucho, así que decidí muestrar el 30% de ellos.
Muestreo para el Nivel de PH
n <- 30 #La cantidad de numeros que quiero muestrar
muestraph <- sample(1:nrow(ph), size = n, replace = FALSE)
muestraph #Mi muestra simple## [1] 102 107 168 282 255 33 61 247 71 215 236 44 290 177 197 251 208 1 220
## [20] 277 288 199 224 213 99 198 83 95 96 46
## # A tibble: 6 x 3
## N MEDICION VALOR
## <dbl> <chr> <dbl>
## 1 102 PH 7
## 2 107 PH 6.8
## 3 168 PH 7
## 4 282 PH 7.1
## 5 255 PH 6.5
## 6 33 PH 7
En los niveles de PH, solamente muestre al 10% de ellos, dicho en otros términos, solamente tome 30 pozos, debido a que los datos del PH no variaba mucho, asíque no era necesario tomar una muestra tan grande.
3. Realice un muestreo estratificado
Muestreo para Temperatura
## # A tibble: 30 x 3
## N MEDICION VALOR
## <dbl> <chr> <dbl>
## 1 75 TEMP 26.3
## 2 259 TEMP 30.9
## 3 71 TEMP 30.4
## 4 172 TEMP 28.6
## 5 245 TEMP 27.9
## 6 186 TEMP 29
## 7 62 TEMP 31.7
## 8 102 TEMP 29.3
## 9 130 TEMP 27.9
## 10 152 TEMP 29.6
## # ... with 20 more rows
En el muestro estratificado ya no es necesario tener una muestra tan grande, ya que no haremos la muestra de forma aleatoria. Haremos la muestra recolectando los datos que nosotros pensemos que nos permita tener una muestra más representativa.
Muestreo para los niveles de PH
## # A tibble: 5 x 3
## N MEDICION VALOR
## <dbl> <chr> <dbl>
## 1 75 PH 7
## 2 259 PH 6.9
## 3 71 PH 6.8
## 4 172 PH 7
## 5 245 PH 6.5
Además, podemos observar de nuevo que la tempetura varía más que los niveles de PH, esto ya nos índica algo muy importante que nos puede resultar útil al momento de formular nuestra hipótesis.
4. Realice un muestreo ponderado
Muestreo para Temperatura
## # A tibble: 6 x 3
## N MEDICION VALOR
## <dbl> <chr> <dbl>
## 1 283 TEMP 27.3
## 2 145 TEMP 29.6
## 3 247 TEMP 30.1
## 4 278 TEMP 30
## 5 62 TEMP 31.7
## 6 223 TEMP 28.7
Muestreo para los niveles de PH
## # A tibble: 6 x 3
## N MEDICION VALOR
## <dbl> <chr> <dbl>
## 1 219 PH 6.7
## 2 288 PH 6.5
## 3 159 PH 7
## 4 253 PH 6.9
## 5 178 PH 7.4
## 6 250 PH 7.1
En el muestreo poderado le asignamos un peso a la muestra que nos ayude a identificar a la mayoría de datos de la población.
5. Realice un muestreo de fracción
Muestreo para Temperatura
n=9
mtemp <- sample(1:nrow(te), size = n, replace = FALSE)
temp.weight <- te %>%
sample_frac(0.3)
head(temp.weight); dim(temp.weight)## # A tibble: 6 x 3
## N MEDICION VALOR
## <dbl> <chr> <dbl>
## 1 73 TEMP 29.2
## 2 147 TEMP 30.1
## 3 191 TEMP 28.5
## 4 87 TEMP 28.6
## 5 282 TEMP 27.9
## 6 9 TEMP 28.7
## [1] 88 3
Muestreo para los Niveles de PH
n=9
muestraph <- sample(1:nrow(ph), size = n, replace = FALSE)
ph.weight <- ph %>%
sample_frac(0.1)
head(ph.weight); dim(ph.weight)## # A tibble: 6 x 3
## N MEDICION VALOR
## <dbl> <chr> <dbl>
## 1 44 PH 7
## 2 267 PH 6.9
## 3 39 PH 7.2
## 4 52 PH 7.1
## 5 285 PH 7.1
## 6 82 PH 7
## [1] 29 3
La muestra de fracción es algo similar a la ponderada, sin embargo aquí solamente tomamos un porcentaje de la población de datos que tenemos, y ese porcentaje sería nuestra muestra. Obviamente, si una población de datos varía mucho tu fracción debe de ser más grande, es por eso que en los datos de las temperaturas decidí acaparar más datos que de lo que tome en los datos de los Niveles de PH, ya que los niveles de PH se parecen mucho entre sí.
Prueba de hipótesis
Realice sus hipótesis y explique lo siguiente
Hipótesis
Mi hipótesis es de que la temperatura influye en los niveles de PH de cada pozo de agua. Ya que si la temperatura es alta, puede influír en que el agua incorpore los minerales o los organismos, que se encuentran en el subsuelo. El agua en su forma purificada tiene un nivel de PH neutra de 7. Sin embargo, hay que recordar que esta agua se encuentra en el interperie y puede ser que todo lo que se encuentre a su alrededor influya en sus niveles de PH.
6. Prueba de Shapiro-Wilk
Temperatura
##
## Shapiro-Wilk normality test
##
## data: te$VALOR
## W = 0.98362, p-value = 0.001981
7. Prueba de K.S.
Temperatura
## Warning in ks.test(te$VALOR, "pnorm", mean = mean(te$VALOR), sd = sd(te$VALOR)):
## ties should not be present for the Kolmogorov-Smirnov test
##
## One-sample Kolmogorov-Smirnov test
##
## data: te$VALOR
## D = 0.071961, p-value = 0.09618
## alternative hypothesis: two-sided
Niveles de PH
## Warning in ks.test(ph$VALOR, "pnorm", mean = mean(te$VALOR), sd = sd(te$VALOR)):
## ties should not be present for the Kolmogorov-Smirnov test
##
## One-sample Kolmogorov-Smirnov test
##
## data: ph$VALOR
## D = 1, p-value < 2.2e-16
## alternative hypothesis: two-sided
8. Normalidad de varianzas
Temperatura y Niveles de PH
##
## F test to compare two variances
##
## data: te$VALOR and ph$VALOR
## F = 21.094, num df = 292, denom df = 292, p-value < 2.2e-16
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 16.76212 26.54421
## sample estimates:
## ratio of variances
## 21.09354
9. Números de turkey
10. Comparativo de caja y bigote, comparativo de caja y bigote con desviación:
op <- par(mfrow =c(1,2), cex.axis=.7, cex.lab=.9 )
boxplot(te$VALOR ~ ph$VALOR, col="orange", main="A", ylab = "Temperatura", xlab = "PH")
barplot(tapply(te$VALOR, list(ph$VALOR), mean ), beside = T, main="B",col="orange", ylab = "Temperatura", xlab = "PH")Pregunta de rescate
¿La gente realmente quiere ser feliz o es una idea que nos vendieron?
La felicidad queda mucho a la interpretación de las personas, ya que si analizamos bien lo que cada persona entiende por felicidad tendríamos muchas respuestas diferentes. No obstante, creo que sería acertado decir que por más diferentes que sean las respuestas, siempre evocan a una situación de bienestar consigo mismo y con el entorno de que lo rodea. Así que la disyuntiva aquí, no es de que nos hayan engañado con un término que resultó ser la finalidad más óptima para nosotros o algo imaginario que se nos imposible alcanzar. La disyuntiva aquí es que la felicidad representa para nosotros un consuelo para una vida triste y que también, es una emoción que nos es inevitable sentirla. Aquí quiero parafrasear a Albert Camus, que dijo “la vida no tiene sentido”, sin embargo el también dijo “no se puede vivir sin sentido”, lo que quiere decir, que por más insignificante que sea, no podemos menospreciar lo más valioso que tenemos y que se llama “vida”. Por lo tanto, para mi la felicidad si existe y aparte, representa el por qué vale la pena seguir viviendo. Es la realización más óptima para cada persona.