EXAMEN 3

Probabilidad y estadistica

setwd("~/ProbYEstadistica")
library(pacman)
library(readxl)
p_load("base64enc", "htmltools", "mime", "xfun", "prettydoc","readr", "knitr","DT","dplyr", "ggplot2")

INFERENCIA ESTADISTICA

  1. Describa con sus propias palabras los siguientes conceptos:
  • Inferencia Estadistica Inferencia estadistica hace referencia a como en el proceso de estadistica, que interviene recoleccion de una muestra, calculo de probabilidades y analisis de comportamiento de datos, se puede hacer un juicio o una conclusion con base a los resultados que se obtuvieron, respecto a el comportamiento de los diferentes parametros de la muestra puesto que puede ayudar a comprender si dentro de un estudio podemos confiar en las proyecciones que se hacen o que tan fiable es al momento de realizar una prediccion.

  • Poblacion Una poblacion se puede considerar a un conjunto o a una integracion de datos con alguna aparente relacion que no son del todo fijos o es decir variables, puesto que la recoleccion de datos puede aumentar o disminuir conforme pasa el tiempo.

  • Muestreo Un muestreo es la accion de tomar una muestra de una poblacion o conjunto de datos, es decir, seleccionar una fraccion o un parte de todos los datos que forman a la poblacion el cual para lograr un buen analisis debe ser variada y representativa del mismo.

  • Estadisticamente Representativo Se entiende por estadisticamente representativo cuando al tomar una muestra se puede obtener resultados o analisis que sean caracteristicos de toda la poblacion, esto depende mucho de la manera en que se toma el muestreo debido a que los datos deberian de contar con ciertas propiedades en funcion de optimizar el proceso.

  • Hipotesis nula y alternativa Una hipotesis es suponer o enunciar algo sobre los datos recolectados intentando comprender su comportamiento y seguido de ello su comprobacion. Para esto tenemos dos tipos de hipotesis: nula H0 y alternativa H1, la hipotesis nula en pocas palabras es la que afirma que algunos parametros o fenomenos no tienen relacion, y que por lo general es la que se prueba ya que se rechaza o no, con el proposito de seguir con la investigacion, con respecto a la hipotesis alternativa es la que propone una relacion entre los parametros o fenomenos diferentes a la nula y se considera por lo general el pensamiento del investigador o la idea que le ineteresa probar.

  • Importancia del muestreo Un muestreo es fundamentalmente lo mas importante del proceso ya que de el se obtienen los datos que se utilizaran para el analisis, que si no son por lo menos representativos podria llegar a darse una conclusion y analisis incorrecto puesto que no representan a la poblacion, en cambio si no tiene una variabilidad podria llegar a discriminar algunos datos o rangos de la poblacion. En general si no se tiene un muestreo correcto al ser estas las bases todo lo demas sera relativamente incorrecto.

MUESTREO

Muestreo Aleatorio Simple

As <- read_excel("aguasubterraneas.xlsx")
dim(As)
## [1] 293   3
#datatable(As)
n <- 30
muestra <- sample(1:nrow(As), size=n, replace=FALSE)
muestra
##  [1]  53 172 130 162 179 278 159  15 283 221  54  10 201 234  24 100 219   5 170
## [20]   2 273 293 216  89 164  13 289 175 142 169
Asmuestra <- As[muestra, ]
head(Asmuestra)
## # A tibble: 6 x 3
##       N    PH  TEMP
##   <dbl> <dbl> <dbl>
## 1    53   7    28.6
## 2   172   7    28.6
## 3   130   6.9  27.9
## 4   162   6.8  28.9
## 5   179   6.9  28  
## 6   278   6.8  30
Asmuestra2 <- As %>%
  sample_n(size = n, remplace=FALSE)
head(Asmuestra2)
## # A tibble: 6 x 3
##       N    PH  TEMP
##   <dbl> <dbl> <dbl>
## 1   183   7    28.9
## 2    34   7    30.2
## 3     9   7    28.7
## 4     6   6.8  28.4
## 5   164   6.8  27.9
## 6   130   6.9  27.9
Asmuestra2 <- As %>%
  sample_n(size = n, remplace=TRUE)
head(Asmuestra2)
## # A tibble: 6 x 3
##       N    PH  TEMP
##   <dbl> <dbl> <dbl>
## 1   215   7    28.2
## 2    15   6.7  28.7
## 3   144   7    28.9
## 4   171   6.6  28.8
## 5   293   7    27.7
## 6   242   6.9  29

Al ser este tipo de muestreo muy simple se intenta tener una tabla o excel muy entendible con el fin de que se pueda llegar a un muestreo de los datos representativo donde se busca la indiscriminacion de PH o TEMP, es decir, que no se tome un valor sobre otro puesto que ambos son necesarios al establecer la existencia en la relacion, por ello opte por el acomodo de dos columnas con variables. En conclusion el muestreo aleatorio simple es la manera menos compleja en que se toma un muestreo debido a que se toma de manera aleatoria valores dentro de todos los posibles en la poblacion.

Muestreo Estratificado

As <- read_excel("aguasubterranea.xlsx")
dim(As)
## [1] 586   3
head(As)
## # A tibble: 6 x 3
##       N MEDICION VALOR
##   <dbl> <chr>    <dbl>
## 1     1 PH         6.8
## 2     2 PH         6.9
## 3     3 PH         6.8
## 4     4 PH         7.1
## 5     5 PH         6.6
## 6     6 PH         6.8
levels(as.factor(As$MEDICION))
## [1] "PH"   "TEMP"
Asub <- As
Asub$N <- 1:586
Asub[1:5, 1:3]
## # A tibble: 5 x 3
##       N MEDICION VALOR
##   <int> <chr>    <dbl>
## 1     1 PH         6.8
## 2     2 PH         6.9
## 3     3 PH         6.8
## 4     4 PH         7.1
## 5     5 PH         6.6
set.seed(123)
sample(Asub$N, size = 6, replace = FALSE)
## [1] 415 463 179 526 195 118
set.seed(1)
sample_As <- As %>%
  group_by(MEDICION) %>%
  sample_n(10)
sample_As
## # A tibble: 20 x 3
## # Groups:   MEDICION [2]
##        N MEDICION VALOR
##    <dbl> <chr>    <dbl>
##  1   167 PH         6.5
##  2   129 PH         6.7
##  3   270 PH         6.8
##  4   187 PH         6.8
##  5    85 PH         6.9
##  6   277 PH         7.1
##  7   263 PH         6.5
##  8    79 PH         6.8
##  9   213 PH         6.8
## 10    37 PH         7  
## 11   105 TEMP      29.8
## 12   217 TEMP      28.1
## 13   165 TEMP      27.5
## 14   290 TEMP      28  
## 15    89 TEMP      30  
## 16    42 TEMP      26.4
## 17   111 TEMP      28.5
## 18    20 TEMP      29  
## 19    44 TEMP      28  
## 20    70 TEMP      31.2

Con el muestreo estratificado cambia un poco, al tener este tipo la capacidad de reconocer que dentro de tus variables de medicion existen diferentes clases o tipos( PH y TEMP) se puede realizar un muestreo sin necesidad de tener una tabla o excel con una division muy sistematica pues este lo interpreta al aplicar la combinacion correcta de variables y datos. En general este es util al momento de tener dentro de tu poblacion mediciones de diferentes tipos que si bien pH y temperatura son muy diferentes en algun caso dado por ejemplo de concentraciones en un liquido los parametros pueden llegar a ser muy parecidos por lo que es necesario estratificarlos con el fin de no cometer errores graves.

Muestreo Ponderado

Asmuestra3 <- As %>%
  sample_n(size = n, weight = VALOR)
head(Asmuestra3)
## # A tibble: 6 x 3
##       N MEDICION VALOR
##   <dbl> <chr>    <dbl>
## 1   102 PH         7  
## 2   109 TEMP      28.6
## 3   104 TEMP      29.1
## 4    41 TEMP      30.1
## 5   103 TEMP      29.9
## 6   193 TEMP      28.9

El muestreo ponderado es el tipo con el cual cada variable de la muestra se considera para poder tomarlas y ver las que coinciden un numero considerable de veces, util en casos donde se necesite conocer modas o frecuencia, debido a que al analisar una variable en especifico se pone a prueba esa columna o conjunto de valores.

Muestreo de Fraccion

n <- 50
Asubt <- sample(1:nrow(As), size=n, replace= FALSE)
head(Asubt)
## [1] 465 525 176 345 110  84
AgSu <- As %>%
  sample_frac(0.05)
head(AgSu); dim(AgSu)
## # A tibble: 6 x 3
##       N MEDICION VALOR
##   <dbl> <chr>    <dbl>
## 1   147 TEMP      30.1
## 2   247 PH         6.4
## 3   219 PH         6.7
## 4   135 PH         7  
## 5   111 PH         6.9
## 6   239 TEMP      29
## [1] 29  3

Una muestra de Fraccion se usa para tomar solo una proporcion de los datos o casos puesto que a diferencia de tomar una muestra donde todos la poblacion puede ser parte de tu analisis con este comando lo reduces a una proporcion que puede llegar a ser conveniente

Prueba de Hipotesis

Por medio de un analisis de distribucion normal y relacion de variables se podra hallar si en las dos variables analizadas de pH y temperatura existe alguna relacion proporcional que nos permita entender si por consecuencia de alguna de estas o algun otro medio los cambios que hay en estas son proporcionalmente iguales o relacionados.

AguaSub <- read_excel("aguasubterranea.xlsx")
PH <- subset(AguaSub, MEDICION == "PH")
TEMP <- subset(AguaSub, MEDICION == "TEMP")
summary(AguaSub$VALOR)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    6.10    6.90   16.55   17.79   28.70   32.10
hist(PH$VALOR, col = "deepskyblue")

hist(TEMP$VALOR, col = "deepskyblue")

#en funcion de obtener Z
summary(PH$VALOR)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    6.10    6.80    6.90    6.89    7.00    7.50
sd(PH$VALOR)
## [1] 0.2215546
#en funcion de obtener Z
summary(TEMP$VALOR)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    25.6    28.0    28.7    28.7    29.2    32.1
sd(TEMP$VALOR)
## [1] 1.017549
  • Prueba de Shapiro-Wilk
# pH
shapiro.test(PH$VALOR)
## 
##  Shapiro-Wilk normality test
## 
## data:  PH$VALOR
## W = 0.95932, p-value = 2.661e-07
# TEMPERATURA
shapiro.test(TEMP$VALOR)
## 
##  Shapiro-Wilk normality test
## 
## data:  TEMP$VALOR
## W = 0.98362, p-value = 0.001981
  • Prueba KS
# pH
ks.test(PH$VALOR, "pnorm", mean = mean(PH$VALOR), sd = sd(PH$VALOR))
## Warning in ks.test(PH$VALOR, "pnorm", mean = mean(PH$VALOR), sd = sd(PH$VALOR)):
## ties should not be present for the Kolmogorov-Smirnov test
## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  PH$VALOR
## D = 0.1436, p-value = 1.129e-05
## alternative hypothesis: two-sided
#TEMPERATURA
ks.test(TEMP$VALOR, "pnorm", mean = mean(TEMP$VALOR), sd = sd(TEMP$VALOR))
## Warning in ks.test(TEMP$VALOR, "pnorm", mean = mean(TEMP$VALOR), sd =
## sd(TEMP$VALOR)): ties should not be present for the Kolmogorov-Smirnov test
## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  TEMP$VALOR
## D = 0.071961, p-value = 0.09618
## alternative hypothesis: two-sided
  • Normalidad de Varianzas Conocida como prueba F
var.test(PH$VALOR, TEMP$VALOR)
## 
##  F test to compare two variances
## 
## data:  PH$VALOR and TEMP$VALOR
## F = 0.047408, num df = 292, denom df = 292, p-value < 2.2e-16
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  0.03767300 0.05965831
## sample estimates:
## ratio of variances 
##         0.04740789

La prueba de F nos muestra valores para los subconjuntos de PH y TEMP, el de P= 2.2x10^-16 siendo por lo tanto menor a 0.05 se considera la hipotesis nula inaceptable, se rechaza, por lo tanto es necesario seguir con una hipotesis alternativa

  • Numeros de Tukey
# Para PH

fivenum(PH$VALOR)
## [1] 6.1 6.8 6.9 7.0 7.5
# Para TEMPERATURA 

fivenum(TEMP$VALOR)
## [1] 25.6 28.0 28.7 29.2 32.1

Por medio de estas pruebas hechas a la temperatura y el pH de un conjunto, siendo estas partes del grupo de mediciones pero que aparentementes son diferentes se busca calcular y hallar los diferentes valores que permitan obtener los parametros de varianza o en general P que nos hablan acerca de de cuanta coincidencias hay entre las varianzas de ambos subconjuntos, practicamente nos sirve para entender si existe una relacion o no, con base a la hipotesis nula.

  • Comparativo de cajas y bigote con desviacion.
boxplot(AguaSub$VALOR ~ AguaSub$MEDICION, col = "green")

boxplot(PH$VALOR, col = "turquoise", main = "PH")

boxplot(TEMP$VALOR, col = "palegreen", main = "TEMPERATURA")

op <- par(mfrow =c(1,2), cex.axis=.7, cex.lab=.9 )

boxplot(AguaSub$VALOR ~ AguaSub$MEDICION, col="coral2", main="A"  )
barplot(tapply(AguaSub$VALOR, list(AguaSub$MEDICION), mean ), beside = T, main="B")

Al tener dos variables con numeros muy diferentes encontramos algo asi, donde existe un gran diferencia entre ambos puesto que uno se maneja en un rango alrededor del 10 y el otro con 30 por lo que principalmente en la desviacion estandar podemos notar una gran diferencia.

CONCLUSION

En conclusion durante este unidad los temas toman gran importancia debido al campo de aplicaciones que se tienen, que considerando el gran avance tecnologico sera necesario dominar algunas de estas herramientas con el fin de facilitar nuestro trabajo y poder realizar muestreos y calculos de probabilidad certeros.

¿LA GENTE REALMENTE QUIERE SER FELIZ O ES UNA IDEA QUE NOS VENDIERON

Considero que si, pienso que la felicidad mas que una palabra es un sentimiento, creo que todas las personas lo han experimentado y conforme pasa el tiempo van encontrando una relacion entre la felicidad y que lo provoca, unico en cada persona, por lo que partiendo de ello se podria decir que la gente busca ser feliz por la idea de bienestar que produce pero que es innegable el hecho de que conforme pasa el tiempo nos venden una concepcion de felicidad que realmente no se aplica a todos pero que nos persuade a creerlo, muchas veces vemos en medios sociales, publicidad o propaganda una felicidad condicionada, es decir, que al menos si cumples con algunos “requisitos” llegaras a ser feliz lo que se ha aprovechado con el fin de satisfacer alguna necesidad material o superficial, donde los grandes corporativos venden esa imagen solo para obtener mayor relevancia o ingresos, que ha provocado una desconstruccion de lo que es la felicidad y por consecuencia una perdida en la concepcion de lo que realmente es. De manera general pienso que la felicidad no es solo una idea sino un todo, con esto me refiero a que no es tan simple como parece, intervienen demasiados factores que van mas alla de lo tangible como para poder llegar a entenderla pero que sin duda alguna podria decir que es algo que hemos sentido y con explicacion o no, deseamos volver a experimentarlo.