library(pacman)
p_load("base64enc", "htmltools", "mime", "xfun", "prettydoc", "readr", "ggplot2", "tidyr", "plotly", "DT", "ggpubr", "tidyverse","Hmisc", "corrplot", "readxl", "dplyr")
setwd("~/PyE")Inferencia estadística
- Describa con sus propias palabras los siguientes conceptos:
- Inferencia estadística
Primero debemos entender lo que significa inferir. Inferir significa llegar a conclusiones, hacer predicciones o tomar decisiones a partir de lo que se conoce, se puede decir que suponer e inferir son parecidos, a diferencia de que inferir se apoya de datos verdaderos. La inferencia estadística, consiste en hacer inferencias a traves de conjunto de metodos y procedimientos que se utilizan para determinar propiedadades o el comportamiento de una población estadística, a partir de una muestra.
- Población
La población en estadística es el conjunto total de datos que existen de una variable. Es decir, se consideran todos y cada uno de los datos.
- Muestreo
Es cuando se toma una parte de los datos (muestra) de la población total.
- Estadísticamente representativo
Consiste en que la muestra sea representativa de toda la población, es decir que no sea sesgada y contenga las mismas características de la población. Es por esto que es importante conocer las diferentes técnicas de muestreo y seleccionar el adecuado para el analísis que vamos a realizar.
- Hipótesis nula y alternativa
La hipótesis alternativa H1, es generalmente la hipótesis que el investigador desea apoyar y la hipótesis nula H0, una contradicción de la hipótesis alternativa. Normalmente cuando se comparan dos grupos, la hipótesis nula (H0) establece que no hay diferencias entre ambos grupos, y la hipótesis alternativa al ser la contradicción establece que existen diferencias significativas entre ambos grupos.
- Importancia del muestreo
La importancia del muestreo es que ahorra recursos valiosos como tiempo y dinero, ya que es mucho más facil analizar solo una parte de la población. En muchas ocasiones es imposible enumerar la población total, y tratar de hacerlo tomaría mucho tiempo, es por es esto que realizar un muestreo es mucho mas viable.
Muestreo y prueba de hipótesis
Muestreo
Importar datos
## [1] 293 2
Bajo sus propios criterios
- Realice un muestreo aleatorio simple
- Se realiza el muestreo aleatorio simple sin remplazo
## [1] 6 182 136 226 118 240 281 146 52 99 148 238 256 167 264 219 115 106 200
## [20] 276 224 174 54 213 162 40 34 83 161 203 254 160 114 273 135 249 78 39
## [39] 61 211
## # A tibble: 6 x 2
## `VALOR PH` `VALOR TEMP`
## <dbl> <dbl>
## 1 6.8 28.4
## 2 7 27.8
## 3 6.8 28.2
## 4 7 27.1
## 5 6.1 28.9
## 6 6.8 29.5
Como podemos observar del conjunto total de datos de aguasub (agua subterranea), se realizo un muestreo aleatorio de 40 elementos de la poblacion total de 293 con la función sample. Enseguida se organizaron los datos en un marco de datos. Cada elemento cuanta con dos distintos valores, su medición de PH y de TEMP (temperatura.)
- Realice un muestreo estratificado
## # A tibble: 6 x 3
## N MEDICION VALOR
## <dbl> <chr> <dbl>
## 1 1 PH 6.8
## 2 2 PH 6.9
## 3 3 PH 6.8
## 4 4 PH 7.1
## 5 5 PH 6.6
## 6 6 PH 6.8
## [1] "PH" "TEMP"
set.seed(1)
muestra_agua <- aguasub1 %>%
group_by(MEDICION) %>%
sample_n(size = n, replace = TRUE)
muestra_agua## # A tibble: 80 x 3
## # Groups: MEDICION [2]
## N MEDICION VALOR
## <dbl> <chr> <dbl>
## 1 167 PH 6.5
## 2 129 PH 6.7
## 3 270 PH 6.8
## 4 187 PH 6.8
## 5 85 PH 6.9
## 6 277 PH 7.1
## 7 263 PH 6.5
## 8 79 PH 6.8
## 9 213 PH 6.8
## 10 37 PH 7
## # ... with 70 more rows
El muestro estratificado consiste en separar la población en “estratos” o subconjuntos y sobre esto realizar el análisis de la muestra. En este caso, se busco separar los dos estratos en la columna medicion, PH y TEMP. De esta forma se obtienen el mismo numero de muestras de ambos subconjuntos, 40 y 40.
- Realice un muestreo ponderado
## # A tibble: 6 x 2
## `VALOR PH` `VALOR TEMP`
## <dbl> <dbl>
## 1 7 28
## 2 6.9 28.9
## 3 7.1 29.3
## 4 6.9 28.8
## 5 7.2 29.4
## 6 7 28.9
En el muestreo ponderado se utiliza cuando un grupo de la población es muy pequeño y poco probable de aparecer en otros tipos de muestreos, así se utiliza este y weight= es valor a considerarse con un mayor “peso” para aparecer en la muestra.
- Realice un muestreo de fracción
## # A tibble: 6 x 2
## `VALOR PH` `VALOR TEMP`
## <dbl> <dbl>
## 1 6.9 27.9
## 2 7.4 30
## 3 6.9 29.8
## 4 6.8 28
## 5 6.9 27.8
## 6 6.8 28.7
## [1] 88 2
Decidí solo muestrear 30% de la poblacion (una fracción de 0.3), como podemos ver es una muestra de 88 datos del total de los 293 de la población. Decidí con un porcentaje no muy grande pues no son tantos datos y su nivel de PH y Temperatura no varían mucho.
Explique cada respuesta
Prueba de hipótesis
Al ya haber trabajado un poco en la primera unidad con el tema de PH y temperatura la hipotesis nula (H0) que se va a establecer es que si la temperatura se eleva el PH también se elevara. En cambio mi hipótesis alternativa (H1) es que si la temperatura se eleva el PH va a disminuir.
- Prueba de shapiro wilk
Valor de significancia: P>0.05
##
## Shapiro-Wilk normality test
##
## data: aguasub$`VALOR PH`
## W = 0.95932, p-value = 2.661e-07
##
## Shapiro-Wilk normality test
##
## data: aguasub$`VALOR TEMP`
## W = 0.98362, p-value = 0.001981
Como se puede observar, el valor de P tanto de TEMP como PH es <0.05, por lo tanto se rechaza H0.
- Prueba de k.s.
## Warning in ks.test(aguasub$`VALOR PH`, "pnorm", mean = mean(aguasub$`VALOR
## PH`), : ties should not be present for the Kolmogorov-Smirnov test
##
## One-sample Kolmogorov-Smirnov test
##
## data: aguasub$`VALOR PH`
## D = 0.1436, p-value = 1.129e-05
## alternative hypothesis: two-sided
## Warning in ks.test(aguasub$`VALOR TEMP`, "pnorm", mean = mean(aguasub$`VALOR
## TEMP`), : ties should not be present for the Kolmogorov-Smirnov test
##
## One-sample Kolmogorov-Smirnov test
##
## data: aguasub$`VALOR TEMP`
## D = 0.071961, p-value = 0.09618
## alternative hypothesis: two-sided
Se puede observar que solo los valores de TEMP son P>0.05.
- Normalidad de varianzas
##
## F test to compare two variances
##
## data: aguasub$`VALOR PH` and aguasub$`VALOR TEMP`
## F = 0.047408, num df = 292, denom df = 292, p-value < 2.2e-16
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 0.03767300 0.05965831
## sample estimates:
## ratio of variances
## 0.04740789
Nuestra prueba arroja que P= 2.2e-16, es decir es menor que el P establecido (0.05),por lo tanto se rechaza la hipotesis nula (H0), ya que las varianzas no son iguales.
- Numeros de tukey
## [1] 6.1 6.8 6.9 7.0 7.5
## [1] 25.6 28.0 28.7 29.2 32.1
- Comparativo de caja y bigote, comparativo de caja y bigote con desviación
op <- par(mfrow =c(1,2), cex.axis=.7, cex.lab=.9 )
boxplot(aguasub$`VALOR TEMP` ~ aguasub$`VALOR PH`, col="purple", main="A" )
barplot(tapply(aguasub$`VALOR TEMP`, list(aguasub$`VALOR PH`), mean ), beside = T, col = "purple", main="B", xlab = "VALOR PH", ylab = "VALOR TEMP" )Conclusión
En las diversas pruebas se demintio la hipotesis nula, es decir que no existe diferencia entre los valores de PH y TEMP, no son proporcionales. En cambio se probo la hipotésis alternativa, si aumenta la TEMP disminuye el PH,(inversamente proporcional) esto se observa en las ultimas figuras (boxplot (A) y gráfico de barras con desviación estándar (b) ) los datos extremos superiores de PH se encuentran en relación con las temperaturas menores. Los datos extremos inferiores se encuentran en relación con las temperaturas superiores.
Pregunta de rescate
Solo suma pero no resta
- ¿La gente realmente quiere ser feliz o es una idea que nos vendieron?
El termino de felicidad es algo muy abstracto, por años los grandes filosofos han tratado de buscar la respuesta a la pregunta de "¿Qué es la felicidad? La mayoría lo asocia con la sensación de bienestar cuando logramos nuestras metas, otros dicen que más bien la felicidadad se da en el camino para llegar a nuestras metas, y creo que por eso cada quien tiene una definición personal, pero yo creo que en general se resume en estar bien consigo mismo, tanto de salud fisíca como mental. Desde siempre el hombre ha buscado relacionarse con los demás, formar relaciones, familias, sociedades etc. Esta en nuestra naturaleza ser un ser social. Es por esto que la familia siempre ha sido una pieza clave en todas las civilizaciones y religiones. Al igual que con uno mismo, una persona quiere que sus seres queridos se sientan bien consigo mismos. Pero a traves de los años y con el avance del capitalismo ha sido fácil relacionar el deseo de querer ser felices con el deseo de querer ser ricos. La razón de esto es porque para lograr estar bien con uno mismo se necesita alimento, hogar, medicina etc, y todo esto solo se consigue con dinero. Hoy en día muchos piensan que para ser felices se necesita de mucho dinero, de muchos bienes materiales, y los medios se alimentan de esto, mostrando que viviendo una vida de lujos es una vida feliz. Al final yo creo que la gente siempre va a buscar la felicidad, solo que muchos creen que dinero y felicidad son sinonimos, y esto lo tratan de vender los medios, pero no podemos negar que en la actual sociedad si se requiere de dinero para ser felices, solo hay que saber apreciar mas nuestro bienestar que los bienes materiales.