Examen de la tercera unidad de competencia de la materia de probabilidad y estadística

setwd("~/PROBABILIDAD/")
library(pacman)
p_load("base64enc", "htmltools", "mime", "xfun", "prettydoc", "readr", "ggplot2", "tidyr", "plotly", "DT", "ggpubr", "tidyverse", "Hmisc", "corrplot")
library(knitr)
library(DT)
library(dplyr)
library(readxl)

Inferencia estadística

Describa con sus propias palabras los siguientes conceptos:

Inferencia estadística La inference estadistica es un conjunto de tecnicas y metodos que mediante la informacion extraida de una determinada muestra permiten deducir como es que se comporta una poblacion, teniendo contemplado un margen de error medible.

Población En estadistica la poblacion no es necesariamente un conjunto de personas o de seres vivos, puede entenderse tambien como un conjunto de datos relacionados entre si que se encuentran en un area delimitada.

Muestreo

Realizar estudios a toda una poblacion de gran tamaño podria ser imposible, puesto que se invertiria mucho tiempo, dinero y otros factores. El muestreo es una tecnica que en estadistica es utilizada para seleccionar un pequeño grupo de la poblacion para representarla, y con esto obtener resultados parecidos a los que se obtendrian si se realizaran estudios a toda la poblacion ahorrando recursos.

Estadísticamente representativo

Que una muestra sea estadisticamente representativa significa que el conjunto seleccionado para la muestra cuenta con las caracteristicas mas representativas para reflejar a la poblacion completa lo mas preciso posible.

Hipótesis nula y alternativa

Al realizar los estudios pertinentes a una poblacion, el investigador llega a su conclusion y para esto debe establecer dos hipotesis, la hipotesis nula y la hipotesis alternativa. la hipotesis nula consiste en una conclusion opuesta a la que se llego, es decir que con la hipotesis nula se pretende probar que lo contrario a lo concluido por el investigador es lo correcto. Por su parte la hipotesis alternativa plantea (aunque no siempre)oposicion a la hipotesis nula y generalmente se trata de la conclusion a la que el investigador ha llegado tras su trabajo de estudio.

Importancia del muestreo

El muestreo como anteriormente se menciona, propone que un pequeño grupo que mantenga las caracteristicas mas representativas para toda la poblacion, se ponga bajo estudio, hacer esto posibilita al investigador para que ahorre el tiempo y los recursos necesarios. Es por esto que el muestreo es basicamente la raiz de toda la investigacion, pues si el muestreo no se realiza de la manera correcta, las conclusiones y resultados podrian verse muy afectados y resultar erroneos. Entre mas precisa sea la seleccion de muestra, el muestreo tambien lo sera y por ende se obtendran resultados o conclusiones de mejor calidad.

Muestreo y prueba de hipótesis

Los datos elegidos para este estudio son los de agua subterraneas.

aguasubterranea <- read_excel("aguasubterranea.xlsx")

aguasubterraneaPH <- aguasubterranea %>% filter(aguasubterranea$MEDICION == 'PH')
aguasubterraneaTEMP <- aguasubterranea %>% filter(aguasubterranea$MEDICION == 'TEMP')

Muestreo

Muestreo Aleatorio Simple Para esta prueba se tomara un tamaño de muestra de 15 (n) se realiza un muestreo para el PH y otro para la TEMPERATURA(TEMP)

n <- 15
aguaPH <- sample(1:nrow(aguasubterraneaPH), size=n, replace=FALSE)
aguaTEMP <- sample(1:nrow(aguasubterraneaTEMP), size=n, replace=FALSE)
#Resultado de la muestra
aguaPH
##  [1] 205 103  54 157 216 105 234  28 129  25 156 135  81 242 273
aguaTEMP
##  [1] 169  72 139  27   1 149 253 226 180 161 136 217  36 258 153

Con el muestreo aleatorio simple se toma un tamaño de muestra que represente a la poblacion de maner totalmente aleatorea como su nombre lo indica sin tomar en cuenta ningun rasgo de los datos.

Muestreo Estratificado Se separara el grupo de PH para el estudio:

set.seed(5)
muestra_estratificada <- aguasubterraneaPH %>%
  group_by(VALOR) %>%
  sample_n(size=n, replace=TRUE)
muestra_estratificada

Con el muestreo estratificado dividimos la poblacion y la analisamos por partes como se observo.

Muestreo Ponderado

muestreoPonderado <- aguasubterraneaPH %>%   
  sample_n(size=n, weight = aguasubterraneaPH$VALOR)
head(muestreoPonderado)
muestreoPF <- sample(1:nrow(aguasubterraneaPH), size=n, replace=FALSE)
head(muestreoPF)
## [1] 119 124 143  49 254 189

Para realizar el muestreo ponderado se utilizo el segmento de valores para el PH.

Muestreo De Fracción

muestreoF <- sample(1:nrow(aguasubterraneaPH), size=n, replace=FALSE)
head(muestreoF)
## [1] 250 119 103 221  31  93

La muestra por si misma es una porcion de la poblacion, y el muestreo de fraccion secciona y reduce mas el tamaño de esta porcion analizando una pequeña parte de la muestra.

Prueba de hipótesis

La hipotesis planteada es ¿Tendra la temperatura alguna relacion directa con el PH del agua subterraenea?

Prueba de shapiro wilk

shapiro.test(aguasubterraneaPH$VALOR)
## 
##  Shapiro-Wilk normality test
## 
## data:  aguasubterraneaPH$VALOR
## W = 0.95932, p-value = 2.661e-07
shapiro.test(aguasubterraneaTEMP$VALOR)
## 
##  Shapiro-Wilk normality test
## 
## data:  aguasubterraneaTEMP$VALOR
## W = 0.98362, p-value = 0.001981

Prueba de Normalidad de Kolmogorov-Smirnov

ks.test(aguasubterraneaPH$VALOR,"pnorm", mean=mean(aguasubterraneaPH$VALOR), sd=sd(aguasubterraneaPH$VALOR))
## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  aguasubterraneaPH$VALOR
## D = 0.1436, p-value = 1.129e-05
## alternative hypothesis: two-sided
ks.test(aguasubterraneaTEMP$VALOR,"pnorm", mean=mean(aguasubterraneaTEMP$VALOR), sd=sd(aguasubterraneaTEMP$VALOR))
## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  aguasubterraneaTEMP$VALOR
## D = 0.071961, p-value = 0.09618
## alternative hypothesis: two-sided

Esta prueba nos permite saber si la muestra proviene de una con una media y desviacion tipica.

Normalidad de Varianzas

var.test(aguasubterraneaPH$VALOR, aguasubterraneaTEMP$VALOR)
## 
##  F test to compare two variances
## 
## data:  aguasubterraneaPH$VALOR and aguasubterraneaTEMP$VALOR
## F = 0.047408, num df = 292, denom df = 292, p-value < 2.2e-16
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  0.03767300 0.05965831
## sample estimates:
## ratio of variances 
##         0.04740789

En esta ocacion la hipotesis nula es rechasada puesto que muestra un valor menor a 0.05 y la hipotesis es correcta de vuelta.

Numeros de tukey

fivenum(aguasubterraneaPH$VALOR)
## [1] 6.1 6.8 6.9 7.0 7.5
fivenum(aguasubterraneaTEMP$VALOR)
## [1] 25.6 28.0 28.7 29.2 32.1

Comparativo de Caja y Bigote, Comparativo de Caja y Bigote Con Desviación

op <- par(mfrow =c(1,2), cex.axis=.7, cex.lab=.9 )

boxplot(aguasubterranea$VALOR ~ aguasubterranea$MEDICION, col="grey", main="A"  )
barplot(tapply(aguasubterranea$VALOR, list(aguasubterranea$MEDICION), mean ), beside = T, main="B")

Por ultimo obteniendo un comparativo de caja y vigote se puede tomar la conclusion final y asumir que la hipotesis es correcta y la temperatura esta directamente ligada a la variacion de PH en el agua subterranea.

Pregunta de rescate

¿La gente realmente quiere ser feliz o es una idea que nos vendieron?