E3U3D

Gloria G.

9/7/2020

library(pacman)
p_load("base64enc", "htmltools", "mime", "xfun", "prettydoc", "readr", "ggplot2", "tidyr", "plotly", "DT", "ggpubr", "tidyverse","Hmisc", "corrplot", "readxl", "dplyr")
setwd("~/PyE")

Inferencia estadística

  1. Describa con sus propias palabras los siguientes conceptos:
  • Inferencia estadística

Primero debemos entender lo que significa inferir. Inferir significa llegar a conclusiones, hacer predicciones o tomar decisiones a partir de lo que se conoce, se puede decir que suponer e inferir son parecidos, a diferencia de que inferir se apoya de datos verdaderos. La inferencia estadística, consiste en hacer inferencias a traves de conjunto de metodos y procedimientos que se utilizan para determinar propiedadades o el comportamiento de una población estadística, a partir de una muestra.

  • Población

La población en estadística es el conjunto total de datos que existen de una variable. Es decir, se consideran todos y cada uno de los datos.

  • Muestreo

Es cuando se toma una parte de los datos (muestra) de la población total.

  • Estadísticamente representativo

Consiste en que la muestra sea representativa de toda la población, es decir que no sea sesgada y contenga las mismas características de la población. Es por esto que es importante conocer las diferentes técnicas de muestreo y seleccionar el adecuado para el analísis que vamos a realizar.

  • Hipótesis nula y alternativa

La hipótesis alternativa H1, es generalmente la hipótesis que el investigador desea apoyar y la hipótesis nula H0, una contradicción de la hipótesis alternativa. Normalmente cuando se comparan dos grupos, la hipótesis nula (H0) establece que no hay diferencias entre ambos grupos, y la hipótesis alternativa al ser la contradicción establece que existen diferencias significativas entre ambos grupos.

  • Importancia del muestreo

La importancia del muestreo es que ahorra recursos valiosos como tiempo y dinero, ya que es mucho más facil analizar solo una parte de la población. En muchas ocasiones es imposible enumerar la población total, y tratar de hacerlo tomaría mucho tiempo, es por es esto que realizar un muestreo es mucho mas viable.

Muestreo y prueba de hipótesis

Muestreo

Importar datos

aguasub <- read_excel("examen.xlsx")
dim(aguasub)
## [1] 293   2
datatable(aguasub)  

Bajo sus propios criterios

  1. Realice un muestreo aleatorio simple
  • Se realiza el muestreo aleatorio simple sin remplazo
n <- 40
mas.agua <- sample(1:nrow(aguasub), size=n, replace=FALSE)
mas.agua
##  [1]   6 182 136 226 118 240 281 146  52  99 148 238 256 167 264 219 115 106 200
## [20] 276 224 174  54 213 162  40  34  83 161 203 254 160 114 273 135 249  78  39
## [39]  61 211
mas.agua1 <- aguasub[mas.agua, ]
head(mas.agua1)
## # A tibble: 6 x 2
##   `VALOR PH` `VALOR TEMP`
##        <dbl>        <dbl>
## 1        6.8         28.4
## 2        7           27.8
## 3        6.8         28.2
## 4        7           27.1
## 5        6.1         28.9
## 6        6.8         29.5

Como podemos observar del conjunto total de datos de aguasub (agua subterranea), se realizo un muestreo aleatorio de 40 elementos de la poblacion total de 293 con la función sample. Enseguida se organizaron los datos en un marco de datos. Cada elemento cuanta con dos distintos valores, su medición de PH y de TEMP (temperatura.)

  1. Realice un muestreo estratificado
aguasub1 <- read_excel("aguasubterranea.xlsx")
head(aguasub1)
## # A tibble: 6 x 3
##       N MEDICION VALOR
##   <dbl> <chr>    <dbl>
## 1     1 PH         6.8
## 2     2 PH         6.9
## 3     3 PH         6.8
## 4     4 PH         7.1
## 5     5 PH         6.6
## 6     6 PH         6.8
levels(as.factor(aguasub1$MEDICION))
## [1] "PH"   "TEMP"
set.seed(1)
muestra_agua <- aguasub1 %>%
  group_by(MEDICION) %>%
  sample_n(size = n, replace = TRUE)
muestra_agua
## # A tibble: 80 x 3
## # Groups:   MEDICION [2]
##        N MEDICION VALOR
##    <dbl> <chr>    <dbl>
##  1   167 PH         6.5
##  2   129 PH         6.7
##  3   270 PH         6.8
##  4   187 PH         6.8
##  5    85 PH         6.9
##  6   277 PH         7.1
##  7   263 PH         6.5
##  8    79 PH         6.8
##  9   213 PH         6.8
## 10    37 PH         7  
## # ... with 70 more rows

El muestro estratificado consiste en separar la población en “estratos” o subconjuntos y sobre esto realizar el análisis de la muestra. En este caso, se busco separar los dos estratos en la columna medicion, PH y TEMP. De esta forma se obtienen el mismo numero de muestras de ambos subconjuntos, 40 y 40.

  1. Realice un muestreo ponderado
mp.agua <- aguasub %>%   
  sample_n(size=n, weight = aguasub$`VALOR PH`)
head(mp.agua)
## # A tibble: 6 x 2
##   `VALOR PH` `VALOR TEMP`
##        <dbl>        <dbl>
## 1        7           28  
## 2        6.9         28.9
## 3        7.1         29.3
## 4        6.9         28.8
## 5        7.2         29.4
## 6        7           28.9

En el muestreo ponderado se utiliza cuando un grupo de la población es muy pequeño y poco probable de aparecer en otros tipos de muestreos, así se utiliza este y weight= es valor a considerarse con un mayor “peso” para aparecer en la muestra.

  1. Realice un muestreo de fracción
aguasubt <- aguasub %>%
  sample_frac(0.3)
head(aguasubt); dim(aguasubt)
## # A tibble: 6 x 2
##   `VALOR PH` `VALOR TEMP`
##        <dbl>        <dbl>
## 1        6.9         27.9
## 2        7.4         30  
## 3        6.9         29.8
## 4        6.8         28  
## 5        6.9         27.8
## 6        6.8         28.7
## [1] 88  2

Decidí solo muestrear 30% de la poblacion (una fracción de 0.3), como podemos ver es una muestra de 88 datos del total de los 293 de la población. Decidí con un porcentaje no muy grande pues no son tantos datos y su nivel de PH y Temperatura no varían mucho.

Explique cada respuesta

Prueba de hipótesis

Al ya haber trabajado un poco en la primera unidad con el tema de PH y temperatura la hipotesis nula (H0) que se va a establecer es que si la temperatura se eleva el PH también se elevara. En cambio mi hipótesis alternativa (H1) es que si la temperatura se eleva el PH va a disminuir.

  1. Prueba de shapiro wilk

Valor de significancia: P>0.05

shapiro.test(aguasub$`VALOR PH`)
## 
##  Shapiro-Wilk normality test
## 
## data:  aguasub$`VALOR PH`
## W = 0.95932, p-value = 2.661e-07
shapiro.test(aguasub$`VALOR TEMP`)
## 
##  Shapiro-Wilk normality test
## 
## data:  aguasub$`VALOR TEMP`
## W = 0.98362, p-value = 0.001981

Como se puede observar, el valor de P tanto de TEMP como PH es <0.05, por lo tanto se rechaza H0.

  1. Prueba de k.s.
ks.test(aguasub$`VALOR PH`,"pnorm", mean=mean(aguasub$`VALOR PH`), sd=sd(aguasub$`VALOR PH`))
## Warning in ks.test(aguasub$`VALOR PH`, "pnorm", mean = mean(aguasub$`VALOR
## PH`), : ties should not be present for the Kolmogorov-Smirnov test
## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  aguasub$`VALOR PH`
## D = 0.1436, p-value = 1.129e-05
## alternative hypothesis: two-sided
ks.test(aguasub$`VALOR TEMP`,"pnorm", mean=mean(aguasub$`VALOR TEMP`), sd=sd(aguasub$`VALOR TEMP`))
## Warning in ks.test(aguasub$`VALOR TEMP`, "pnorm", mean = mean(aguasub$`VALOR
## TEMP`), : ties should not be present for the Kolmogorov-Smirnov test
## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  aguasub$`VALOR TEMP`
## D = 0.071961, p-value = 0.09618
## alternative hypothesis: two-sided

Se puede observar que solo los valores de TEMP son P>0.05.

  1. Normalidad de varianzas
var.test(aguasub$`VALOR PH`, aguasub$`VALOR TEMP`)
## 
##  F test to compare two variances
## 
## data:  aguasub$`VALOR PH` and aguasub$`VALOR TEMP`
## F = 0.047408, num df = 292, denom df = 292, p-value < 2.2e-16
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  0.03767300 0.05965831
## sample estimates:
## ratio of variances 
##         0.04740789

Nuestra prueba arroja que P= 2.2e-16, es decir es menor que el P establecido (0.05),por lo tanto se rechaza la hipotesis nula (H0), ya que las varianzas no son iguales.

  1. Numeros de tukey
fivenum(aguasub$`VALOR PH`)
## [1] 6.1 6.8 6.9 7.0 7.5
fivenum(aguasub$`VALOR TEMP`)
## [1] 25.6 28.0 28.7 29.2 32.1
  1. Comparativo de caja y bigote, comparativo de caja y bigote con desviación
op <- par(mfrow =c(1,2), cex.axis=.7, cex.lab=.9 )

boxplot(aguasub$`VALOR TEMP` ~ aguasub$`VALOR PH`, col="purple", main="A"  )
barplot(tapply(aguasub$`VALOR TEMP`, list(aguasub$`VALOR PH`), mean ), beside = T, col = "purple", main="B", xlab = "VALOR PH", ylab = "VALOR TEMP" )

Conclusión

En las diversas pruebas se demintio la hipotesis nula, es decir que no existe diferencia entre los valores de PH y TEMP, no son proporcionales. En cambio se probo la hipotésis alternativa, si aumenta la TEMP disminuye el PH,(inversamente proporcional) esto se observa en las ultimas figuras (boxplot (A) y gráfico de barras con desviación estándar (b) ) los datos extremos superiores de PH se encuentran en relación con las temperaturas menores. Los datos extremos inferiores se encuentran en relación con las temperaturas superiores.

Pregunta de rescate

Solo suma pero no resta

  • ¿La gente realmente quiere ser feliz o es una idea que nos vendieron?

El termino de felicidad es algo muy abstracto, por años los grandes filosofos han tratado de buscar la respuesta a la pregunta de "¿Qué es la felicidad? La mayoría lo asocia con la sensación de bienestar cuando logramos nuestras metas, otros dicen que más bien la felicidadad se da en el camino para llegar a nuestras metas, y creo que por eso cada quien tiene una definición personal, pero yo creo que en general se resume en estar bien consigo mismo, tanto de salud fisíca como mental. Desde siempre el hombre ha buscado relacionarse con los demás, formar relaciones, familias, sociedades etc. Esta en nuestra naturaleza ser un ser social. Es por esto que la familia siempre ha sido una pieza clave en todas las civilizaciones y religiones. Al igual que con uno mismo, una persona quiere que sus seres queridos se sientan bien consigo mismos. Pero a traves de los años y con el avance del capitalismo ha sido fácil relacionar el deseo de querer ser felices con el deseo de querer ser ricos. La razón de esto es porque para lograr estar bien con uno mismo se necesita alimento, hogar, medicina etc, y todo esto solo se consigue con dinero. Hoy en día muchos piensan que para ser felices se necesita de mucho dinero, de muchos bienes materiales, y los medios se alimentan de esto, mostrando que viviendo una vida de lujos es una vida feliz. Al final yo creo que la gente siempre va a buscar la felicidad, solo que muchos creen que dinero y felicidad son sinonimos, y esto lo tratan de vender los medios, pero no podemos negar que en la actual sociedad si se requiere de dinero para ser felices, solo hay que saber apreciar mas nuestro bienestar que los bienes materiales.