setwd("~/PROBABILIDAD/")
library(pacman)
p_load("base64enc", "htmltools", "mime", "xfun", "prettydoc", "readr", "ggplot2", "tidyr", "plotly", "DT", "ggpubr", "tidyverse", "Hmisc", "corrplot")
library(knitr)
library(DT)
library(dplyr)
library(readxl)
Describa con sus propias palabras los siguientes conceptos:
Inferencia estadística La inference estadistica es un conjunto de tecnicas y metodos que mediante la informacion extraida de una determinada muestra permiten deducir como es que se comporta una poblacion, teniendo contemplado un margen de error medible.
Población En estadistica la poblacion no es necesariamente un conjunto de personas o de seres vivos, puede entenderse tambien como un conjunto de datos relacionados entre si que se encuentran en un area delimitada.
Muestreo
Realizar estudios a toda una poblacion de gran tamaño podria ser imposible, puesto que se invertiria mucho tiempo, dinero y otros factores. El muestreo es una tecnica que en estadistica es utilizada para seleccionar un pequeño grupo de la poblacion para representarla, y con esto obtener resultados parecidos a los que se obtendrian si se realizaran estudios a toda la poblacion ahorrando recursos.
Estadísticamente representativo
Que una muestra sea estadisticamente representativa significa que el conjunto seleccionado para la muestra cuenta con las caracteristicas mas representativas para reflejar a la poblacion completa lo mas preciso posible.
Hipótesis nula y alternativa
Al realizar los estudios pertinentes a una poblacion, el investigador llega a su conclusion y para esto debe establecer dos hipotesis, la hipotesis nula y la hipotesis alternativa. la hipotesis nula consiste en una conclusion opuesta a la que se llego, es decir que con la hipotesis nula se pretende probar que lo contrario a lo concluido por el investigador es lo correcto. Por su parte la hipotesis alternativa plantea (aunque no siempre)oposicion a la hipotesis nula y generalmente se trata de la conclusion a la que el investigador ha llegado tras su trabajo de estudio.
Importancia del muestreo
El muestreo como anteriormente se menciona, propone que un pequeño grupo que mantenga las caracteristicas mas representativas para toda la poblacion, se ponga bajo estudio, hacer esto posibilita al investigador para que ahorre el tiempo y los recursos necesarios. Es por esto que el muestreo es basicamente la raiz de toda la investigacion, pues si el muestreo no se realiza de la manera correcta, las conclusiones y resultados podrian verse muy afectados y resultar erroneos. Entre mas precisa sea la seleccion de muestra, el muestreo tambien lo sera y por ende se obtendran resultados o conclusiones de mejor calidad.
Los datos elegidos para este estudio son los de agua subterraneas.
aguasubterranea <- read_excel("aguasubterranea.xlsx")
aguasubterraneaPH <- aguasubterranea %>% filter(aguasubterranea$MEDICION == 'PH')
aguasubterraneaTEMP <- aguasubterranea %>% filter(aguasubterranea$MEDICION == 'TEMP')
Muestreo Aleatorio Simple Para esta prueba se tomara un tamaño de muestra de 15 (n) se realiza un muestreo para el PH y otro para la TEMPERATURA(TEMP)
n <- 15
aguaPH <- sample(1:nrow(aguasubterraneaPH), size=n, replace=FALSE)
aguaTEMP <- sample(1:nrow(aguasubterraneaTEMP), size=n, replace=FALSE)
#Resultado de la muestra
aguaPH
## [1] 205 103 54 157 216 105 234 28 129 25 156 135 81 242 273
aguaTEMP
## [1] 169 72 139 27 1 149 253 226 180 161 136 217 36 258 153
Con el muestreo aleatorio simple se toma un tamaño de muestra que represente a la poblacion de maner totalmente aleatorea como su nombre lo indica sin tomar en cuenta ningun rasgo de los datos.
Muestreo Estratificado Se separara el grupo de PH para el estudio:
set.seed(5)
muestra_estratificada <- aguasubterraneaPH %>%
group_by(VALOR) %>%
sample_n(size=n, replace=TRUE)
muestra_estratificada
Con el muestreo estratificado dividimos la poblacion y la analisamos por partes como se observo.
Muestreo Ponderado
muestreoPonderado <- aguasubterraneaPH %>%
sample_n(size=n, weight = aguasubterraneaPH$VALOR)
head(muestreoPonderado)
muestreoPF <- sample(1:nrow(aguasubterraneaPH), size=n, replace=FALSE)
head(muestreoPF)
## [1] 119 124 143 49 254 189
Para realizar el muestreo ponderado se utilizo el segmento de valores para el PH.
Muestreo De Fracción
muestreoF <- sample(1:nrow(aguasubterraneaPH), size=n, replace=FALSE)
head(muestreoF)
## [1] 250 119 103 221 31 93
La muestra por si misma es una porcion de la poblacion, y el muestreo de fraccion secciona y reduce mas el tamaño de esta porcion analizando una pequeña parte de la muestra.
La hipotesis planteada es ¿Tendra la temperatura alguna relacion directa con el PH del agua subterraenea?
Prueba de shapiro wilk
shapiro.test(aguasubterraneaPH$VALOR)
##
## Shapiro-Wilk normality test
##
## data: aguasubterraneaPH$VALOR
## W = 0.95932, p-value = 2.661e-07
shapiro.test(aguasubterraneaTEMP$VALOR)
##
## Shapiro-Wilk normality test
##
## data: aguasubterraneaTEMP$VALOR
## W = 0.98362, p-value = 0.001981
Prueba de Normalidad de Kolmogorov-Smirnov
ks.test(aguasubterraneaPH$VALOR,"pnorm", mean=mean(aguasubterraneaPH$VALOR), sd=sd(aguasubterraneaPH$VALOR))
##
## One-sample Kolmogorov-Smirnov test
##
## data: aguasubterraneaPH$VALOR
## D = 0.1436, p-value = 1.129e-05
## alternative hypothesis: two-sided
ks.test(aguasubterraneaTEMP$VALOR,"pnorm", mean=mean(aguasubterraneaTEMP$VALOR), sd=sd(aguasubterraneaTEMP$VALOR))
##
## One-sample Kolmogorov-Smirnov test
##
## data: aguasubterraneaTEMP$VALOR
## D = 0.071961, p-value = 0.09618
## alternative hypothesis: two-sided
Esta prueba nos permite saber si la muestra proviene de una con una media y desviacion tipica.
Normalidad de Varianzas
var.test(aguasubterraneaPH$VALOR, aguasubterraneaTEMP$VALOR)
##
## F test to compare two variances
##
## data: aguasubterraneaPH$VALOR and aguasubterraneaTEMP$VALOR
## F = 0.047408, num df = 292, denom df = 292, p-value < 2.2e-16
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 0.03767300 0.05965831
## sample estimates:
## ratio of variances
## 0.04740789
En esta ocacion la hipotesis nula es rechasada puesto que muestra un valor menor a 0.05 y la hipotesis es correcta de vuelta.
Numeros de tukey
fivenum(aguasubterraneaPH$VALOR)
## [1] 6.1 6.8 6.9 7.0 7.5
fivenum(aguasubterraneaTEMP$VALOR)
## [1] 25.6 28.0 28.7 29.2 32.1
Comparativo de Caja y Bigote, Comparativo de Caja y Bigote Con Desviación
op <- par(mfrow =c(1,2), cex.axis=.7, cex.lab=.9 )
boxplot(aguasubterranea$VALOR ~ aguasubterranea$MEDICION, col="grey", main="A" )
barplot(tapply(aguasubterranea$VALOR, list(aguasubterranea$MEDICION), mean ), beside = T, main="B")
Por ultimo obteniendo un comparativo de caja y vigote se puede tomar la conclusion final y asumir que la hipotesis es correcta y la temperatura esta directamente ligada a la variacion de PH en el agua subterranea.
¿La gente realmente quiere ser feliz o es una idea que nos vendieron?