EPyE3

Francisco Fimbres

8/7/2020

Examen de la tercera unidad de competencia de la materia de probabilidad y estadística

  • Fecha de entrega: antes de Jueves 9 de Julio 11:00 p.m.
setwd("~/Rstudio verano")
library(pacman)
library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
p_load("base64enc", "htmltools", "mime", "xfun", "prettydoc","readr", "knitr","DT","dplyr", "ggplot2")
  • El examen se divide en 3 partes

Inferencia estadística

  1. Describa con sus propias palabras los siguientes conceptos:
  • Inferencia estadística: Es una rama de la estadística que se encarga de extraer conclusiones generales a partir de una parte de la población, El objetivo es obtener una serie de conclusiones útiles que permitan al usuario hacer deducciones utiles y más presisas.

  • Población: Es un número de personas que conforman una región o ciudad, etc.

  • Muestreo: Es el proceso de seleccionar un conjunto de individuos de una población para poder ponerlos bajo estudio y poder caracterizar el total de la población.

  • Estadísticamente representativo: Es una pequeña cantidad de números que refleja con la mayor precisión posible, a un grupo más grande ya sean números, personas, etc, etc.

  • Hipótesis nula y alternativa: La hipótesis nula es cuando el usuario pretende descartar o echazar la Hipótesis y la utilizamos para afirmar o negar un suceso en relacion a los parametros que impusimos.

Hipótesis alternativa la utilizamos como prueba para determinar si se puede rechazar la hipótesis nula.

  • Importancia del muestreo: Es una parte muy importante al seleccionar un conjunto de datos o personas con el fin de etudiarlos y podr caracterizarlos de la manera mas específica

En esta parte es muy importante la redacción

  • Muestreo y prueba de hipótesis Escoja alguno de los 3 archivos con datos para realizar su examen:
#Datos de agua subterranea
#xfun::embed_file("aguasubterranea.xlsx")
#Datos de salud 
#xfun::embed_file("COVID_CONFIRMADOS_ESTADOS.xlsx")
#nota: Aquí en los datos de covid puede por ejemplo tomar 2 estados y comparar

#Datos de calidad del aire 
#xfun::embed_file("calidad_aire_ozono_Junio_Julio.xlsx")
#Comparar los primeros 5 dias de Junio y Julio de 2020 en terminos de contenido de ozono en el aire (partes por billon)

Muestreo

Bajo sus propios criterios

library(readxl)
aguasubterranea <- read_excel("aguasubterranea.xlsx")
  1. Realice un muestreo aleatorio simple
PH <- subset(aguasubterranea, MEDICION == "PH")
TEMP <- subset(aguasubterranea, MEDICION == "TEMP")

n <- 43
nramdom<- sample(1:nrow(PH), size=n, replace=FALSE)
nramdom
##  [1] 198 220 179 195 284   7 159 110 137  57 202   6 115  34  72 251 191  80 125
## [20]  16  74  62 182   4 208 132 274  47  21 196  75   5 133  77  23 168 257 288
## [39]  65 280 206  41  91
n2 <- 43
nramdom2<- sample(1:nrow(TEMP), size=n, replace=FALSE)
nramdom2
##  [1] 203 218  35 173 216 103  81 276 185   6   4 137 177 232 181  55  27  40  46
## [20] 224  15 254 264 160  36 265 227 136  18  43 124 186   9 219  72 287 278 112
## [39] 171  21  71  24  30
datatable(aguasubterranea)
nramdomPH <- PH[nramdom, ]
head(nramdomPH)
## # A tibble: 6 x 3
##       N MEDICION VALOR
##   <dbl> <chr>    <dbl>
## 1   198 PH         7  
## 2   220 PH         7  
## 3   179 PH         6.9
## 4   195 PH         7.2
## 5   284 PH         6.8
## 6     7 PH         6.5
nramdomTEMP <- TEMP[nramdom2, ]
head(nramdomTEMP)
## # A tibble: 6 x 3
##       N MEDICION VALOR
##   <dbl> <chr>    <dbl>
## 1   203 TEMP      27.5
## 2   218 TEMP      28.7
## 3    35 TEMP      31.1
## 4   173 TEMP      29.1
## 5   216 TEMP      27.8
## 6   103 TEMP      29.9
  1. Realice un muestreo estratificado
dim(PH)
## [1] 293   3
## [1] 293   3
head(PH)
## # A tibble: 6 x 3
##       N MEDICION VALOR
##   <dbl> <chr>    <dbl>
## 1     1 PH         6.8
## 2     2 PH         6.9
## 3     3 PH         6.8
## 4     4 PH         7.1
## 5     5 PH         6.6
## 6     6 PH         6.8
dim(TEMP)
## [1] 293   3
## [1] 293   3
head(TEMP)
## # A tibble: 6 x 3
##       N MEDICION VALOR
##   <dbl> <chr>    <dbl>
## 1     1 TEMP      28.5
## 2     2 TEMP      29.2
## 3     3 TEMP      28.9
## 4     4 TEMP      29.4
## 5     5 TEMP      28.3
## 6     6 TEMP      28.4
muestra2 <- aguasubterranea %>%
  group_by (MEDICION) %>%
  sample_n(43)
  1. Realice un muestreo ponderado
muestra1 <- PH %>%
  sample_n(size=n, weigth = N, replace=FALSE)

head(muestra1)
## # A tibble: 6 x 3
##       N MEDICION VALOR
##   <dbl> <chr>    <dbl>
## 1    98 PH         7.3
## 2   105 PH         6.9
## 3    92 PH         7  
## 4   101 PH         6.8
## 5   227 PH         7  
## 6    25 PH         7
muestra2 <- TEMP %>%
  sample_n(size=n, weigth = N, replace=FALSE)

head(muestra2)
## # A tibble: 6 x 3
##       N MEDICION VALOR
##   <dbl> <chr>    <dbl>
## 1   292 TEMP      28.2
## 2   120 TEMP      27.7
## 3   123 TEMP      27.9
## 4   147 TEMP      30.1
## 5   161 TEMP      29  
## 6   216 TEMP      27.8
  1. Realice un muestreo de fracción
Muestra3 <- data.frame(aguasubterranea)
n <- 43
Muestra4 <- sample(1:nrow(aguasubterranea), size=n, replace=FALSE)
head(Muestra4)
## [1] 179 165 180 401 221 408
Muestra5 <- aguasubterranea %>%
  sample_frac(0.05)
head(Muestra5); dim(Muestra5)
## # A tibble: 6 x 3
##       N MEDICION VALOR
##   <dbl> <chr>    <dbl>
## 1   112 TEMP      28.6
## 2    68 TEMP      29  
## 3    50 TEMP      30  
## 4    71 TEMP      30.4
## 5    97 TEMP      28.9
## 6   123 TEMP      27.9
## [1] 29  3

Explique cada respuesta

Prueba de hipótesis

Relice sus hipótesis y aplique lo siguiente

Viendo que los datos son parecidos en nuestras muestras el PH del agua depende de la temperatura

  1. Prueba de shapiro wilk
PH <- subset(aguasubterranea, MEDICION == "PH")
TEMP <- subset(aguasubterranea, MEDICION == "TEMP")
shapiro.test(TEMP$VALOR)
## 
##  Shapiro-Wilk normality test
## 
## data:  TEMP$VALOR
## W = 0.98362, p-value = 0.001981
shapiro.test(PH$VALOR)
## 
##  Shapiro-Wilk normality test
## 
## data:  PH$VALOR
## W = 0.95932, p-value = 2.661e-07

Viendo los resultados dados en el test de Shapiro Wilk y sabiendo que nuetra probilidad es 0.05 y viedo que da menor a 0.00 esta rechaza la hpótesis

  1. Prueba de k.s.
ks.test(TEMP$VALOR,"pnorm", mean=mean(TEMP$VALOR), sd=sd(TEMP$VALOR))
## Warning in ks.test(TEMP$VALOR, "pnorm", mean = mean(TEMP$VALOR), sd =
## sd(TEMP$VALOR)): ties should not be present for the Kolmogorov-Smirnov test
## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  TEMP$VALOR
## D = 0.071961, p-value = 0.09618
## alternative hypothesis: two-sided

Es una prueba no paramétrica que determina la bondad de ajuste, y dado que este es muy bajo no sigue una distribución normal

  1. Normalidad de varianzas
var.test(PH$VALOR, TEMP$VALOR)
## 
##  F test to compare two variances
## 
## data:  PH$VALOR and TEMP$VALOR
## F = 0.047408, num df = 292, denom df = 292, p-value < 2.2e-16
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  0.03767300 0.05965831
## sample estimates:
## ratio of variances 
##         0.04740789
t.test(PH$VALOR, TEMP$VALOR, var.equal = T, )
## 
##  Two Sample t-test
## 
## data:  PH$VALOR and TEMP$VALOR
## t = -358.45, df = 584, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -21.92700 -21.68802
## sample estimates:
## mean of x mean of y 
##  6.890444 28.697952

La ormalidad de varianzas nos dive que los datos de PH y TEMPERATURA deben er iguales, viendo los resultados arrojados que nos dió menor a 0.0 afirmamos que la hipótesis se rechaza

  1. Numeros de tukey
fivenum(PH$VALOR)
## [1] 6.1 6.8 6.9 7.0 7.5
fivenum(TEMP$VALOR)
## [1] 25.6 28.0 28.7 29.2 32.1

Los números de Tukey muestran la primer cuartila, el número menor, la tercer cuartila, el valor medio y el valor maximo de todos los datos, los valores de TEMPERATURA y PH estan muy alejados uno del otro siendo comparados

  1. Comparativo de caja y bigote, comparativo de caja y bigote con desviación
op <- par(mfrow =c(1,2), cex.axis=.7, cex.lab=.9 )

boxplot(aguasubterranea$VALOR ~ aguasubterranea$MEDICION , col="red", main="Comparación 1"  )
barplot(tapply(aguasubterranea$VALOR, list(aguasubterranea$MEDICION), mean ), beside = T, main="Comparación 2" )

Viendo las graficas de caja y vigote se observa que la grafica de PH está muy por debajo que de la TEMPERATURA y asi viendo que no tienen relación sus datos por su difrencia de tamaño, la hipotesis se rechaza.

Pregunta de rescate

Solo suma pero no resta

  • ¿La gente realmente quiere ser feliz o es una idea que nos vendieron?

Las personas, toda la vida han sido felices e infelices, mas no se daban cuenta por que ahun no existia el concepto de felicidad, y al ver que los esteriotipos de las empresas de que la felicidad es tener todo lo que tu quieres(material) seras feliz, pero siempre ha existido la felicidad misma, familiar, mas no se savia que era, repito por que el concepto no existia, la respuesta es si si es una idea que las empresas nos vendieron para maximizar su mercado y no es una ida que nos vendieron debido a que nosotros ya lo viviamos pero no sabíamos que era ni como se sentía, esta es un respuesta doble dada la sircunstancias

  • Para descargar el codigo de este examen:
xfun::embed_file("epye3.rmd")
Download epye3.rmd