EPyE3

Alfonso Manuel Rubio Albestrain

8/7/2020


Examen de la tercera unidad de competencia de la materia de probabilidad y estadística

  • Fecha de entrega: antes de Jueves 9 de Julio 11:00 p.m.
setwd("~/PyE")
library(pacman)
p_load("base64enc", "htmltools", "mime", "xfun", "prettydoc","readr", "knitr","DT","dplyr", "ggplot2")
  • El examen se divide en 3 partes

Inferencia estadística

  1. Describa con sus propias palabras los siguientes conceptos:
  • Inferencia estadística Es un conjunto de aplicaciones con los que podemos inducir, por medio de una muestra estadísica, como se comporta una población en específico.

  • Población Es el conjunto de datos con los que contamos referente a una variable.

  • Muestreo El muestreo es la técnica que se aplica para realizar una selección de datos de una población.

  • Estadísticamente representativo Podemos decir que una muestra es estadísticamente representativa cuando tenemos una cantidad de muestras en relación de un grupo.

  • Hipótesis nula y alternativa La hipótesis sirve para refutar o negar lo que se afirma la hipótesis de investigación. Por otro lado, la alternativa solo se formulan cuando hay otras posibilidades.

  • Importancia del muestreo En mi opinión el muestreo es una técina de suma importancia ya que nos ayuda a ahorrar tiempo, y pérdidas si hablamos ya de una aplicación donde se vean relacionados sectores económicos. Siempre y cuando sea estadísticamente representativo.

En esta parte es muy importante la redacción

  • Muestreo y prueba de hipótesis Escoja alguno de los 3 archivos con datos para realizar su examen:

Muestreo

Bajo sus propios criterios

library(readxl)
aguasubterraneatab <- read_excel("aguasubterranea.xlsx")
aguasub<-data.frame(aguasubterraneatab)
PH<-subset(aguasub,MEDICION=="PH")
TEMP<-subset(aguasub,MEDICION=="TEMP")
  1. Realice un muestreo aleatorio simple
datatable(aguasubterraneatab)
n <- 50
muestra1 <- sample(1:nrow(PH), size=n, replace=FALSE)
muestra1
##  [1] 126 147 277  43 161  58  97 188 122 254 222 282 109  68 171  64 182 166 263
## [20]  99  91 256 186 202 262 292 123  10 124  51  61 153  65 281  77 270  11 168
## [39]   1 110 218  46 131  48 127 246 252 207 190  31
muestra2 <- sample(1:nrow(TEMP), size=n, replace=FALSE)
muestra2
##  [1] 247  87 260 109 211  66 284 195 255  17 169  44 174 189 283 244  30  92 275
## [20] 158  15  94 147 113 279 265  46 126 205  65 204 277 115  96 133 288 131 267
## [39]  71  86 123  49 107 154 148  83 261 210 194 182
PHmuestra1 <- PH[muestra1, ]
head(PHmuestra1)
##       N MEDICION VALOR
## 126 126       PH   6.9
## 147 147       PH   6.8
## 277 277       PH   7.1
## 43   43       PH   6.6
## 161 161       PH   6.9
## 58   58       PH   6.9
TEMPmuestra2<-TEMP[muestra2,]
head(TEMPmuestra2)
##       N MEDICION VALOR
## 540 247     TEMP  30.1
## 380  87     TEMP  28.6
## 553 260     TEMP  28.3
## 402 109     TEMP  28.6
## 504 211     TEMP  28.4
## 359  66     TEMP  28.9
  1. Realice un muestreo estratificado
dim(PH)
## [1] 293   3
head(PH)
##   N MEDICION VALOR
## 1 1       PH   6.8
## 2 2       PH   6.9
## 3 3       PH   6.8
## 4 4       PH   7.1
## 5 5       PH   6.6
## 6 6       PH   6.8
dim(TEMP)
## [1] 293   3
head(TEMP)
##     N MEDICION VALOR
## 294 1     TEMP  28.5
## 295 2     TEMP  29.2
## 296 3     TEMP  28.9
## 297 4     TEMP  29.4
## 298 5     TEMP  28.3
## 299 6     TEMP  28.4
set.seed(1)
sample_aguasubterraneatab <- aguasubterraneatab %>%
  group_by(MEDICION) %>%
  sample_n(15)
sample_aguasubterraneatab
## # A tibble: 30 x 3
## # Groups:   MEDICION [2]
##        N MEDICION VALOR
##    <dbl> <chr>    <dbl>
##  1   167 PH         6.5
##  2   129 PH         6.7
##  3   270 PH         6.8
##  4   187 PH         6.8
##  5    85 PH         6.9
##  6   277 PH         7.1
##  7   263 PH         6.5
##  8    79 PH         6.8
##  9   213 PH         6.8
## 10    37 PH         7  
## # ... with 20 more rows
  1. Realice un muestreo ponderado
PHmuestra3 <-aguasubterraneatab %>%   
  sample_n(size=n, replace=FALSE)
head(PHmuestra3)
## # A tibble: 6 x 3
##       N MEDICION VALOR
##   <dbl> <chr>    <dbl>
## 1    45 PH         7.3
## 2   109 TEMP      28.6
## 3    22 PH         7.3
## 4   193 PH         7  
## 5    78 TEMP      28.3
## 6   206 TEMP      28.6
TEMPmuestra3 <-aguasubterraneatab %>%   
  sample_n(size=n, replace=FALSE)
head(TEMPmuestra3)
## # A tibble: 6 x 3
##       N MEDICION VALOR
##   <dbl> <chr>    <dbl>
## 1   158 TEMP      25.6
## 2    86 PH         7  
## 3   190 TEMP      29.2
## 4    34 TEMP      30.2
## 5    62 TEMP      31.7
## 6    49 PH         6.6
  1. Realice un muestreo de fracción
aguasubt <- data.frame(aguasubterraneatab)
n <- 50
aguasubt2 <- sample(1:nrow(aguasub), size=n, replace=FALSE)
head(aguasubt2)
## [1] 451 504 457 358 127  41
aguas.fr <- aguasubterraneatab %>%
  sample_frac(0.18)
head(aguas.fr); dim(aguas.fr)
## # A tibble: 6 x 3
##       N MEDICION VALOR
##   <dbl> <chr>    <dbl>
## 1   268 PH         6.8
## 2    93 PH         6.7
## 3    43 TEMP      28.8
## 4     7 TEMP      28  
## 5   282 PH         7.1
## 6   241 PH         6.5
## [1] 105   3

Explique cada respuesta

Prueba de hipótesis

Relice sus hipótesis y aplique lo siguiente HIPÓTESIS

Considero que el PH cambia en función de la temperatura

La temperatura no tiene relación con el PH

  1. Prueba de shapiro wilk
shapiro.test(PH$VALOR)
## 
##  Shapiro-Wilk normality test
## 
## data:  PH$VALOR
## W = 0.95932, p-value = 2.661e-07
shapiro.test(TEMP$VALOR)
## 
##  Shapiro-Wilk normality test
## 
## data:  TEMP$VALOR
## W = 0.98362, p-value = 0.001981

Según el test de Shapiro Wilk si el valor de p es menor a 0.05 la hipótesis nula se rechaza, en esta ocasión podemos ver que el valor es 0.001 por lo tanto se rechaza. 7. Prueba de k.s.

ks.test(PH$VALOR,"pnorm", mean=mean(PH$VALOR), sd=sd(PH$VALOR))
## Warning in ks.test(PH$VALOR, "pnorm", mean = mean(PH$VALOR), sd = sd(PH$VALOR)):
## ties should not be present for the Kolmogorov-Smirnov test
## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  PH$VALOR
## D = 0.1436, p-value = 1.129e-05
## alternative hypothesis: two-sided
ks.test(TEMP$VALOR, "pnorm", mean = mean(TEMP$VALOR), sd = sd(TEMP$VALOR))
## Warning in ks.test(TEMP$VALOR, "pnorm", mean = mean(TEMP$VALOR), sd =
## sd(TEMP$VALOR)): ties should not be present for the Kolmogorov-Smirnov test
## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  TEMP$VALOR
## D = 0.071961, p-value = 0.09618
## alternative hypothesis: two-sided

En este test podemos darnos cuenta que los valores resultantes son bajos lo que nos indica que no existe una distribución normal

  1. Normalidad de varianzas
var.test(PH$VALOR, TEMP$VALOR)
## 
##  F test to compare two variances
## 
## data:  PH$VALOR and TEMP$VALOR
## F = 0.047408, num df = 292, denom df = 292, p-value < 2.2e-16
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  0.03767300 0.05965831
## sample estimates:
## ratio of variances 
##         0.04740789

Podemos observar que los resultados de este test es P= 2.2e-16 por lo tanto es mucho menor al valor 0.05 por lo cual podemos rechazar la hipótesis nula

  1. Numeros de tukey
fivenum(PH$VALOR)
## [1] 6.1 6.8 6.9 7.0 7.5
fivenum(TEMP$VALOR)
## [1] 25.6 28.0 28.7 29.2 32.1
  1. Comparativo de caja y bigote, comparativo de caja y bigote con desviación
boxplot(aguasubterraneatab$VALOR  ~ aguasubterraneatab$MEDICION)

dat <- par(mfrow = c(1,2), cex.axis = 0.7, cex.lab = 0.9)
boxplot(aguasubterraneatab$VALOR ~ aguasubterraneatab$MEDICION, col = "Red", main = "A")
barplot(tapply(aguasubterraneatab$VALOR, list(aguasubterraneatab$MEDICION), mean), beside = T, main = "B" , col = "green")

Podemos observar que nuestras variables de temperatura y Ph se encuentran muy distantes por lo tanto no existe mucha relación, nuestra hipótesis sería rechazada.

Pregunta de rescate

Solo suma pero no resta

  • ¿La gente realmente quiere ser feliz o es una idea que nos vendieron?

Se dice que la felicidad es una emoción que se produce cuando el ser humano cree haber alcanzado una meta propuesta. Hoy en día, la mayoría de las personas tenemos metas y siempre estamos luchando por alcanzarlas. Desde los niños que simpre estan buscando cosas por descubrir, los jovenes estudiantes siempre buscando alcanzar un grado acádemico, una buena nota,trabajar y comprar algo, así como los adultos que todos los días salen a trabajar para conseguir el sustento. Siempre tenemos algo por el cual luchar, y una vez alcanzado, nos produce la sensación de Felicidad. El ser feliz tambien depende del o los enfoques que nosotros como persona tenemos, de ahí la frase cada quien es feliz a su manera, yo puedo ser feliz por tener a mis padres conmigo, pero… ¿Qué pasará cuando ya no lo estén? ¿Mi felicidad se acabará? Tan solo pensarlo me produce ansiedad, conmoción y tristeza, sin embargo cuando eso pase, tendría que cambiar mi enfoque de felicidad. Tal vez mi nuevo enfoque sería formar mi propia familia y así sucesivamente. En base a todo esto, podría decir que la felicidad es relativa, lo que a mí me hace feliz, puede que a tí no lo haga y viceversa.

La felicidad es un sentimiento que nos hace vivir al límite cada día, todo sea por alcanzar esa emoción…
* Para descargar el codigo de este examen:

xfun::embed_file("epye3.rmd")
Download epye3.rmd