Examen de la tercera unidad de competencia de la materia de probabilidad y estadística
setwd("~/Stat")
library(pacman)
p_load("base64enc", "htmltools", "mime", "xfun", "prettydoc","readr", "knitr","DT","dplyr", "ggplot2", "readxl", "tidyr","lubridate")Inferencia estadística
- Describa con sus propias palabras los siguientes conceptos:
Inferencia estadística: Es el estudio de cómo podemos extraer juicios o conclusiones, a partir de métodos sobre datos de muestras de una población, para poder inducir el comportamiento de la población.
Población: Es el total de individuos, objetos, etc. de lo que se desea estudiar u obtener resultados, normalmente es demasiado grande para poder estudiarlo.
Muestreo: Es la técnica para seleccionar una muestra de nuestra población, este muestreo debe ser representativo.
Estadísticamente representativo: Se dice cuando una muestra contiene las características de la población, permitiendo realizar inferencias similares como si lo realizáramos a la población total.
Hipótesis nula y alternativa La hipótesis nula es aquella, que, realizando una prueba de hipótesis con los datos de la muestra, se espera rechazar, mientras que, la hipótesis alternativa es aquella que nosotros creemos que es la hipótesis verdadera y esperamos probar que sea cierta.
Importancia del muestreo Es importante ya que si hacemos un buen muestreo, que sea representativo, nos ahorrara tiempo y recursos. También se vuelve más simple el estudiar a muchísima población ya que si podemos estudiar de 10000 a 500 y nos es suficiente. ¿Para qué estudiar a más?
Muestreo y prueba de hipótesis
Muestreo
Bajo sus propios criterios
En mi caso, escogí los datos de Agua subterranea
Tabla de datos
2. Realice un muestreo aleatorio simple
- Se determina una muestra de 17 (n) para la población
## [1] 95 189 172 157 149 1 7 250 160 261 244 50 155 249 206 30 9
- Muestreo aleatorio simple sin remplazo
## # A tibble: 6 x 3
## N PH TEMPERATURA
## <dbl> <dbl> <dbl>
## 1 134 6.8 27.5
## 2 240 6.8 29.5
## 3 17 6.9 28.9
## 4 6 6.8 28.4
## 5 49 6.6 28.2
## 6 108 7.2 29.5
- Realizamos un muestreo aleatorio simple sin repetición de 17 datos de aguas subterráneas. Así que, todos tienen la misma probabilidad de ser seleccionados para la muestra, pero, al ser sin remplazamiento, esto impide que el mismo dato vuelva a ser seleccionado.
3. Realice un muestreo estratificado
- Establecer las variables categóricas de los subconjuntos (especies) o estratos para hacer un muestreo aleatorio dentro.
## [1] "PH" "TEMP"
- Muestreo estratificado
## # A tibble: 20 x 3
## # Groups: MEDICION [2]
## N MEDICION VALOR
## <dbl> <chr> <dbl>
## 1 167 PH 6.5
## 2 129 PH 6.7
## 3 270 PH 6.8
## 4 187 PH 6.8
## 5 85 PH 6.9
## 6 277 PH 7.1
## 7 263 PH 6.5
## 8 79 PH 6.8
## 9 213 PH 6.8
## 10 37 PH 7
## 11 105 TEMP 29.8
## 12 217 TEMP 28.1
## 13 165 TEMP 27.5
## 14 290 TEMP 28
## 15 89 TEMP 30
## 16 42 TEMP 26.4
## 17 111 TEMP 28.5
## 18 20 TEMP 29
## 19 44 TEMP 28
## 20 70 TEMP 31.2
- Se dividió a la población y se crearon dos estratos, uno por cada medición (PH y Temperatura). Así que, esperamos encontrar un comportamiento diferente entre estas mediciones. Esto reduce el error muestral respecto al M.A.S. Estos estratos tienen las mismas proporciones de 10 datos.
4. Realice un muestreo ponderado
## # A tibble: 6 x 3
## N PH TEMPERATURA
## <dbl> <dbl> <dbl>
## 1 109 7.1 28.6
## 2 220 7 27.8
## 3 255 6.5 28.6
## 4 283 6.4 27.3
## 5 278 6.8 30
## 6 241 6.5 29.2
- Utilizando el muestreo ponderado, en la variable N ya que se sabe de antemano que esta variable afecta al resultado, Pero puede haber otras variables ocultas que no puedas controlar. Por lo tanto, te interesa trabajar con muestras lo más representativas posibles.
5. Realice un muestreo de fracción
aguas <- data.frame(aguasub)
n <- 15
aguap <- sample(1:nrow(aguas), size=n, replace=FALSE)
head(aguap)## [1] 22 206 230 193 104 255
- De esta manera se va muestrear una fracción 0.05 de la población
## N PH TEMPERATURA
## 1 141 7.4 29.4
## 2 252 6.8 27.5
## 3 221 6.9 28.6
## 4 108 7.2 29.5
## 5 33 7.0 28.2
## 6 45 7.3 29.2
## [1] 15 3
- Se eligieron 15 datos de la población de 293, la fracción del muestreo es 0.05=5% de mi población.
Prueba de hipótesis
Realice sus hipótesis y aplique lo siguiente
- \(H_o\): Existe relación entre el nivel de PH con la Temperatura
- \(H_1\): No existe relación entre el nivel de PH con la Temperatura
6. Prueba de shapiro wilk
- Un valor de P≥ 0.05 en los tests de normalidad indican que no hay prueba suficiente para rechazar la normalidad de la variable.
##
## Shapiro-Wilk normality test
##
## data: TEMP$VALOR
## W = 0.98362, p-value = 0.001981
##
## Shapiro-Wilk normality test
##
## data: PH$VALOR
## W = 0.95932, p-value = 2.661e-07
7. Prueba de k.s.
## Warning in ks.test(TEMP$VALOR, "pnorm", mean = mean(TEMP$VALOR), sd =
## sd(TEMP$VALOR)): ties should not be present for the Kolmogorov-Smirnov test
##
## One-sample Kolmogorov-Smirnov test
##
## data: TEMP$VALOR
## D = 0.071961, p-value = 0.09618
## alternative hypothesis: two-sided
## Warning in ks.test(PH$VALOR, "pnorm", mean = mean(PH$VALOR), sd = sd(PH$VALOR)):
## ties should not be present for the Kolmogorov-Smirnov test
##
## One-sample Kolmogorov-Smirnov test
##
## data: PH$VALOR
## D = 0.1436, p-value = 1.129e-05
## alternative hypothesis: two-sided
- Se rechaza la hipotesis nula, ya que P es menor al 0.05.
8. Normalidad de varianzas
- prueba F En esta prueba se busca que se acepte la \(H_0\) que implica que las varianzas de ambas muestras son iguales. Para este ejemplo tenemos los siguientes resultados
##
## F test to compare two variances
##
## data: TEMP$VALOR and PH$VALOR
## F = 21.094, num df = 292, denom df = 292, p-value < 2.2e-16
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 16.76212 26.54421
## sample estimates:
## ratio of variances
## 21.09354
# var.equal = T, las varianzas son iguales u Homogéneas
t.test( TEMP$VALOR, PH$VALOR, var.equal = T, )##
## Two Sample t-test
##
## data: TEMP$VALOR and PH$VALOR
## t = 358.45, df = 584, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## 21.68802 21.92700
## sample estimates:
## mean of x mean of y
## 28.697952 6.890444
- La prueba de F arroja para nuestras muestras TEMP y PH un valor de P = \(2.2e^-16\), menor al α establecido (0.05) para nuestro experimento, por lo tanto se rechaza la H0.
9. Numeros de tukey
## [1] 25.6 28.0 28.7 29.2 32.1
## [1] 6.1 6.8 6.9 7.0 7.5
10. Comparativo de caja y bigote, comparativo de caja y bigote con desviación
op <- par(mfrow =c(1,2), cex.axis=.7, cex.lab=.9 )
boxplot(aguasmedicion$VALOR ~ aguasmedicion$MEDICION , col="grey", main="A" )
barplot(tapply(aguasmedicion$VALOR, list(aguasmedicion$MEDICION), mean ), beside = T, main="B" )- Representación del comportamiento de la temperatura y el ph, mediante un boxplot. Se puede observar demasiada diferencia ya que las mediciones de temperatura son de 30 unidades y las de PH son solo de 7.
Pregunta de rescate
- ¿La gente realmente quiere ser feliz o es una idea que nos vendieron?
Opino que la idea de alcanzar la felicidad, nos la “vendieron” desde hace muchísimas generaciones. Ya que, la mayoría del mundo desde hace muchos años, es la meta que han perseguido toda su vida. Tanto así que, casi ninguna persona puede alcanzar durante toda su vida. Esta idea, en mi pensar, solo trae más tristeza o desespero porque piensas que no estas “feliz” con lo que tienes o te rodea. Todas las personas deben vivir sus sueños sin preocupaciones, solo con la idea de trascender o estar donde se sientan mas cómodos. Antes en el occidente solo se educaba a los niños para que encontraran su ligar en el mundo, mientras que unos años para acá, se busca la auténtica felicidad.
- Para descargar el codigo de este examen: