Examen de la tercera unidad de competencia de la materia de probabilidad y estadística

setwd("~/Stat")
library(pacman)
p_load("base64enc", "htmltools", "mime", "xfun", "prettydoc","readr", "knitr","DT","dplyr", "ggplot2", "readxl", "tidyr","lubridate")

Inferencia estadística

  1. Describa con sus propias palabras los siguientes conceptos:
  • Inferencia estadística: Es el estudio de cómo podemos extraer juicios o conclusiones, a partir de métodos sobre datos de muestras de una población, para poder inducir el comportamiento de la población.

  • Población: Es el total de individuos, objetos, etc. de lo que se desea estudiar u obtener resultados, normalmente es demasiado grande para poder estudiarlo.

  • Muestreo: Es la técnica para seleccionar una muestra de nuestra población, este muestreo debe ser representativo.

  • Estadísticamente representativo: Se dice cuando una muestra contiene las características de la población, permitiendo realizar inferencias similares como si lo realizáramos a la población total.

  • Hipótesis nula y alternativa La hipótesis nula es aquella, que, realizando una prueba de hipótesis con los datos de la muestra, se espera rechazar, mientras que, la hipótesis alternativa es aquella que nosotros creemos que es la hipótesis verdadera y esperamos probar que sea cierta.

  • Importancia del muestreo Es importante ya que si hacemos un buen muestreo, que sea representativo, nos ahorrara tiempo y recursos. También se vuelve más simple el estudiar a muchísima población ya que si podemos estudiar de 10000 a 500 y nos es suficiente. ¿Para qué estudiar a más?

  • Muestreo y prueba de hipótesis

Muestreo

Bajo sus propios criterios

En mi caso, escogí los datos de Agua subterranea

aguasub <- read_excel("~/Stat/aguasubterranea2.xlsx")
View(aguasub)

Tabla de datos

datatable(aguasub)

2. Realice un muestreo aleatorio simple

  • Se determina una muestra de 17 (n) para la población
n <- 17
muestra <- sample(1:nrow(aguasub), size=n, replace=FALSE)
muestra
##  [1]  95 189 172 157 149   1   7 250 160 261 244  50 155 249 206  30   9
  • Muestreo aleatorio simple sin remplazo
aguamuestra <- aguasub %>%
  sample_n(size=n, replace=FALSE)
head(aguamuestra)
## # A tibble: 6 x 3
##       N    PH TEMPERATURA
##   <dbl> <dbl>       <dbl>
## 1   134   6.8        27.5
## 2   240   6.8        29.5
## 3    17   6.9        28.9
## 4     6   6.8        28.4
## 5    49   6.6        28.2
## 6   108   7.2        29.5
  • Realizamos un muestreo aleatorio simple sin repetición de 17 datos de aguas subterráneas. Así que, todos tienen la misma probabilidad de ser seleccionados para la muestra, pero, al ser sin remplazamiento, esto impide que el mismo dato vuelva a ser seleccionado.

3. Realice un muestreo estratificado

aguasmedicion <- read_excel("~/Stat/aguasubterranea.xlsx")
View(aguasmedicion)
  • Establecer las variables categóricas de los subconjuntos (especies) o estratos para hacer un muestreo aleatorio dentro.
levels(as.factor(aguasmedicion$MEDICION))
## [1] "PH"   "TEMP"
  • Muestreo estratificado
set.seed(1)
sample_agua <- aguasmedicion %>%
  group_by(MEDICION) %>%
  sample_n(10)
sample_agua
## # A tibble: 20 x 3
## # Groups:   MEDICION [2]
##        N MEDICION VALOR
##    <dbl> <chr>    <dbl>
##  1   167 PH         6.5
##  2   129 PH         6.7
##  3   270 PH         6.8
##  4   187 PH         6.8
##  5    85 PH         6.9
##  6   277 PH         7.1
##  7   263 PH         6.5
##  8    79 PH         6.8
##  9   213 PH         6.8
## 10    37 PH         7  
## 11   105 TEMP      29.8
## 12   217 TEMP      28.1
## 13   165 TEMP      27.5
## 14   290 TEMP      28  
## 15    89 TEMP      30  
## 16    42 TEMP      26.4
## 17   111 TEMP      28.5
## 18    20 TEMP      29  
## 19    44 TEMP      28  
## 20    70 TEMP      31.2
  • Se dividió a la población y se crearon dos estratos, uno por cada medición (PH y Temperatura). Así que, esperamos encontrar un comportamiento diferente entre estas mediciones. Esto reduce el error muestral respecto al M.A.S. Estos estratos tienen las mismas proporciones de 10 datos.

4. Realice un muestreo ponderado

aguamuestra2 <- aguasub %>%   
  sample_n(size=n, weight = N)
head(aguamuestra2)
## # A tibble: 6 x 3
##       N    PH TEMPERATURA
##   <dbl> <dbl>       <dbl>
## 1   109   7.1        28.6
## 2   220   7          27.8
## 3   255   6.5        28.6
## 4   283   6.4        27.3
## 5   278   6.8        30  
## 6   241   6.5        29.2
  • Utilizando el muestreo ponderado, en la variable N ya que se sabe de antemano que esta variable afecta al resultado, Pero puede haber otras variables ocultas que no puedas controlar. Por lo tanto, te interesa trabajar con muestras lo más representativas posibles.

5. Realice un muestreo de fracción

  aguas <- data.frame(aguasub)
n <- 15
aguap <- sample(1:nrow(aguas), size=n, replace=FALSE)
head(aguap)
## [1]  22 206 230 193 104 255
  • De esta manera se va muestrear una fracción 0.05 de la población
aguat <- aguas %>%
  sample_frac(0.05)
head(aguat); dim(aguat)
##     N  PH TEMPERATURA
## 1 141 7.4        29.4
## 2 252 6.8        27.5
## 3 221 6.9        28.6
## 4 108 7.2        29.5
## 5  33 7.0        28.2
## 6  45 7.3        29.2
## [1] 15  3
  • Se eligieron 15 datos de la población de 293, la fracción del muestreo es 0.05=5% de mi población.

Prueba de hipótesis

Realice sus hipótesis y aplique lo siguiente

  • \(H_o\): Existe relación entre el nivel de PH con la Temperatura
  • \(H_1\): No existe relación entre el nivel de PH con la Temperatura

6. Prueba de shapiro wilk

TEMP <- subset(aguasmedicion, MEDICION == "TEMP"    )
PH <- subset(aguasmedicion, MEDICION == "PH"    )
  • Un valor de P≥ 0.05 en los tests de normalidad indican que no hay prueba suficiente para rechazar la normalidad de la variable.
shapiro.test(TEMP$VALOR)
## 
##  Shapiro-Wilk normality test
## 
## data:  TEMP$VALOR
## W = 0.98362, p-value = 0.001981
shapiro.test(PH$VALOR)
## 
##  Shapiro-Wilk normality test
## 
## data:  PH$VALOR
## W = 0.95932, p-value = 2.661e-07

7. Prueba de k.s.

ks.test(TEMP$VALOR,"pnorm", mean=mean(TEMP$VALOR), sd=sd(TEMP$VALOR))
## Warning in ks.test(TEMP$VALOR, "pnorm", mean = mean(TEMP$VALOR), sd =
## sd(TEMP$VALOR)): ties should not be present for the Kolmogorov-Smirnov test
## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  TEMP$VALOR
## D = 0.071961, p-value = 0.09618
## alternative hypothesis: two-sided
ks.test(PH$VALOR,"pnorm", mean=mean(PH$VALOR), sd=sd(PH$VALOR))
## Warning in ks.test(PH$VALOR, "pnorm", mean = mean(PH$VALOR), sd = sd(PH$VALOR)):
## ties should not be present for the Kolmogorov-Smirnov test
## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  PH$VALOR
## D = 0.1436, p-value = 1.129e-05
## alternative hypothesis: two-sided
  • Se rechaza la hipotesis nula, ya que P es menor al 0.05.

8. Normalidad de varianzas

  • prueba F En esta prueba se busca que se acepte la \(H_0\) que implica que las varianzas de ambas muestras son iguales. Para este ejemplo tenemos los siguientes resultados
var.test(TEMP$VALOR, PH$VALOR)
## 
##  F test to compare two variances
## 
## data:  TEMP$VALOR and PH$VALOR
## F = 21.094, num df = 292, denom df = 292, p-value < 2.2e-16
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  16.76212 26.54421
## sample estimates:
## ratio of variances 
##           21.09354
# var.equal = T, las varianzas son iguales u Homogéneas 
t.test( TEMP$VALOR, PH$VALOR, var.equal = T, )
## 
##  Two Sample t-test
## 
## data:  TEMP$VALOR and PH$VALOR
## t = 358.45, df = 584, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  21.68802 21.92700
## sample estimates:
## mean of x mean of y 
## 28.697952  6.890444
  • La prueba de F arroja para nuestras muestras TEMP y PH un valor de P = \(2.2e^-16\), menor al α establecido (0.05) para nuestro experimento, por lo tanto se rechaza la H0.

9. Numeros de tukey

fivenum(TEMP$VALOR)
## [1] 25.6 28.0 28.7 29.2 32.1
fivenum(PH$VALOR)
## [1] 6.1 6.8 6.9 7.0 7.5

10. Comparativo de caja y bigote, comparativo de caja y bigote con desviación

op <- par(mfrow =c(1,2), cex.axis=.7, cex.lab=.9 )

boxplot(aguasmedicion$VALOR ~ aguasmedicion$MEDICION , col="grey", main="A"  )
barplot(tapply(aguasmedicion$VALOR, list(aguasmedicion$MEDICION), mean ), beside = T, main="B" )

  • Representación del comportamiento de la temperatura y el ph, mediante un boxplot. Se puede observar demasiada diferencia ya que las mediciones de temperatura son de 30 unidades y las de PH son solo de 7.

Pregunta de rescate

  • ¿La gente realmente quiere ser feliz o es una idea que nos vendieron?

Opino que la idea de alcanzar la felicidad, nos la “vendieron” desde hace muchísimas generaciones. Ya que, la mayoría del mundo desde hace muchos años, es la meta que han perseguido toda su vida. Tanto así que, casi ninguna persona puede alcanzar durante toda su vida. Esta idea, en mi pensar, solo trae más tristeza o desespero porque piensas que no estas “feliz” con lo que tienes o te rodea. Todas las personas deben vivir sus sueños sin preocupaciones, solo con la idea de trascender o estar donde se sientan mas cómodos. Antes en el occidente solo se educaba a los niños para que encontraran su ligar en el mundo, mientras que unos años para acá, se busca la auténtica felicidad.

  • Para descargar el codigo de este examen:
xfun::embed_file("E3U3D.Rmd")
Download E3U3D.Rmd