setwd("~/PROBABILIDAD/")
library(pacman)
p_load("base64enc", "htmltools", "mime", "xfun", "prettydoc", "readr", "ggplot2", "tidyr", "plotly", "DT", "ggpubr", "tidyverse", "Hmisc", "corrplot", "readxl")
library(knitr)
library(DT)
library(dplyr)
library(readxl)
Inferencia estadística La inference estadistica es un conjunto de tecnicas y metodos que mediante la informacion extraida de una determinada muestra permiten deducir como es que se comporta una poblacion, teniendo contemplado un margen de error medible.
Población En estadistica la poblacion no es necesariamente un conjunto de personas o de seres vivos, puede entenderse tambien como un conjunto de datos relacionados entre si que se encuentran en un area delimitada.
Muestreo
Realizar estudios a toda una poblacion de gran tamaño podria ser imposible, puesto que se invertiria mucho tiempo, dinero y otros factores. El muestreo es una tecnica que en estadistica es utilizada para seleccionar un pequeño grupo de la poblacion para representarla, y con esto obtener resultados parecidos a los que se obtendrian si se realizaran estudios a toda la poblacion ahorrando recursos.
Estadísticamente representativo
Que una muestra sea estadisticamente representativa significa que el conjunto seleccionado para la muestra cuenta con las caracteristicas mas representativas para reflejar a la poblacion completa lo mas preciso posible.
Hipótesis nula y alternativa
Al realizar los estudios pertinentes a una poblacion, el investigador llega a su conclusion y para esto debe establecer dos hipotesis, la hipotesis nula y la hipotesis alternativa. la hipotesis nula consiste en una conclusion opuesta a la que se llego, es decir que con la hipotesis nula se pretende probar que lo contrario a lo concluido por el investigador es lo correcto. Por su parte la hipotesis alternativa plantea (aunque no siempre)oposicion a la hipotesis nula y generalmente se trata de la conclusion a la que el investigador ha llegado tras su trabajo de estudio.
Importancia del muestreo
El muestreo como anteriormente se menciona, propone que un pequeño grupo que mantenga las caracteristicas mas representativas para toda la poblacion, se ponga bajo estudio, hacer esto posibilita al investigador para que ahorre el tiempo y los recursos necesarios. Es por esto que el muestreo es basicamente la raiz de toda la investigacion, pues si el muestreo no se realiza de la manera correcta, las conclusiones y resultados podrian verse muy afectados y resultar erroneos. Entre mas precisa sea la seleccion de muestra, el muestreo tambien lo sera y por ende se obtendran resultados o conclusiones de mejor calidad.
Los datos elegidos para este estudio son los de agua subterraneas.
aguasubterranea <- read_excel("aguasubterranea.xlsx")
aguasubterraneaPH <- aguasubterranea %>% filter(aguasubterranea$MEDICION == 'PH')
aguasubterraneaTEMP <- aguasubterranea %>% filter(aguasubterranea$MEDICION == 'TEMP')
Muestreo Aleatorio Simple Para esta prueba se tomara un tamaño de muestra de 15 (n) se realiza un muestreo para el PH y otro para la TEMPERATURA(TEMP)
n <- 15
aguaPH <- sample(1:nrow(aguasubterraneaPH), size=n, replace=FALSE)
aguaTEMP <- sample(1:nrow(aguasubterraneaTEMP), size=n, replace=FALSE)
aguaPH
## [1] 43 192 47 135 147 12 282 202 66 49 28 242 229 20 267
aguaTEMP
## [1] 244 276 211 148 126 108 232 150 63 28 251 78 203 100 71
Con el muestreo aleatorio simple se toma un tamaño de muestra que represente a la poblacion de maner totalmente aleatorea como su nombre lo indica sin tomar en cuenta ningun rasgo de los datos.
Muestreo Estratificado Se separara el grupo de PH para el estudio:
set.seed(5)
muestra_estratificada <- aguasubterraneaPH %>%
group_by(VALOR) %>%
sample_n(size=n, replace=TRUE)
muestra_estratificada
Con el muestreo estratificado dividimos la poblacion y la analisamos por partes como se observo.
Muestreo Ponderado
muestreoPonderado <- aguasubterraneaPH %>%
sample_n(size=n, weight = aguasubterraneaPH$VALOR)
head(muestreoPonderado)
muestreoPF <- sample(1:nrow(aguasubterraneaPH), size=n, replace=FALSE)
head(muestreoPF)
## [1] 119 124 143 49 254 189
Para realizar el muestreo ponderado se utilizo el segmento de valores para el PH.
Muestreo De Fracción
muestreoF <- sample(1:nrow(aguasubterraneaPH), size=n, replace=FALSE)
head(muestreoF)
## [1] 250 119 103 221 31 93
La muestra por si misma es una porcion de la poblacion, y el muestreo de fraccion secciona y reduce mas el tamaño de esta porcion analizando una pequeña parte de la muestra.
La hipotesis planteada es ¿Tendra la temperatura alguna relacion directa con el PH del agua subterraenea?
Prueba de shapiro wilk
shapiro.test(aguasubterraneaPH$VALOR)
##
## Shapiro-Wilk normality test
##
## data: aguasubterraneaPH$VALOR
## W = 0.95932, p-value = 2.661e-07
shapiro.test(aguasubterraneaTEMP$VALOR)
##
## Shapiro-Wilk normality test
##
## data: aguasubterraneaTEMP$VALOR
## W = 0.98362, p-value = 0.001981
Prueba de Normalidad de Kolmogorov-Smirnov
ks.test(aguasubterraneaPH$VALOR,"pnorm", mean=mean(aguasubterraneaPH$VALOR), sd=sd(aguasubterraneaPH$VALOR))
##
## One-sample Kolmogorov-Smirnov test
##
## data: aguasubterraneaPH$VALOR
## D = 0.1436, p-value = 1.129e-05
## alternative hypothesis: two-sided
ks.test(aguasubterraneaTEMP$VALOR,"pnorm", mean=mean(aguasubterraneaTEMP$VALOR), sd=sd(aguasubterraneaTEMP$VALOR))
##
## One-sample Kolmogorov-Smirnov test
##
## data: aguasubterraneaTEMP$VALOR
## D = 0.071961, p-value = 0.09618
## alternative hypothesis: two-sided
Esta prueba nos permite saber si la muestra proviene de una con una media y desviacion tipica.
Normalidad de Varianzas
var.test(aguasubterraneaPH$VALOR, aguasubterraneaTEMP$VALOR)
##
## F test to compare two variances
##
## data: aguasubterraneaPH$VALOR and aguasubterraneaTEMP$VALOR
## F = 0.047408, num df = 292, denom df = 292, p-value < 2.2e-16
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 0.03767300 0.05965831
## sample estimates:
## ratio of variances
## 0.04740789
En esta ocacion la hipotesis nula es rechasada puesto que muestra un valor menor a 0.05 y la hipotesis es correcta de vuelta.
Numeros de tukey
fivenum(aguasubterraneaPH$VALOR)
## [1] 6.1 6.8 6.9 7.0 7.5
fivenum(aguasubterraneaTEMP$VALOR)
## [1] 25.6 28.0 28.7 29.2 32.1
Comparativo de Caja y Bigote, Comparativo de Caja y Bigote Con Desviación
op <- par(mfrow =c(1,2), cex.axis=.7, cex.lab=.9 )
boxplot(aguasubterranea$VALOR ~ aguasubterranea$MEDICION, col="grey", main="A" )
barplot(tapply(aguasubterranea$VALOR, list(aguasubterranea$MEDICION), mean ), beside = T, main="B")
Por ultimo obteniendo un comparativo de caja y vigote se puede tomar la conclusion final y asumir que la hipotesis es correcta y la temperatura esta directamente ligada a la variacion de PH en el agua subterranea.
¿La gente realmente quiere ser feliz o es una idea que nos vendieron?
La felicidad es un termino complicado y unico para cada individuo, desde un punto de vista espiritual la felicidad es la armonia en todos los sentidos humanos, desde el punto de vista materialista la felicidad es el estado de satisfaccion producido al alcanzar una meta u obtener un bien deseado, lo indiscutible es que el termino es individual para cada ser, pues no todos tienen los mismos ideales de alcanzar su “felicidad”.
Profundizando mas en puntos de vista algo materialistas la felicidad llega cuando obtenemos todo aquel bien que deseamos y cada vez que alcanzamos ese bien vamos en busca de otro, si traducimos “bien” como un producto del mercado que podria ser un nuevo telefono celular, una consola de video juegos, entre otras necesidades creadas por el mercado, no reales, si la felicidad es una idea vendida, pero visto desde la otra cara de la moneda nos encontramos con personas que no tienen ninguna clase de necesidad material o creada y aun asi mantienen la armonia en sus sentidos. Tras este analisis concluyo que la felicidad es una idea vendida, y a la vez no, dependiendo desde que ojo se observe.
Para descargar el codigo del examen:
xfun::embed_file("E3U3D.rmd")
Download E3U3D.rmd