Examen de la tercera unidad de competencia de la materia de probabilidad y estadística

setwd("~/PROBABILIDAD/")
library(pacman)
p_load("base64enc", "htmltools", "mime", "xfun", "prettydoc", "readr", "ggplot2", "tidyr", "plotly", "DT", "ggpubr", "tidyverse", "Hmisc", "corrplot", "readxl")
library(knitr)
library(DT)
library(dplyr)
library(readxl)

Inferencia estadística

Inferencia estadística La inference estadistica es un conjunto de tecnicas y metodos que mediante la informacion extraida de una determinada muestra permiten deducir como es que se comporta una poblacion, teniendo contemplado un margen de error medible.

Población En estadistica la poblacion no es necesariamente un conjunto de personas o de seres vivos, puede entenderse tambien como un conjunto de datos relacionados entre si que se encuentran en un area delimitada.

Muestreo

Realizar estudios a toda una poblacion de gran tamaño podria ser imposible, puesto que se invertiria mucho tiempo, dinero y otros factores. El muestreo es una tecnica que en estadistica es utilizada para seleccionar un pequeño grupo de la poblacion para representarla, y con esto obtener resultados parecidos a los que se obtendrian si se realizaran estudios a toda la poblacion ahorrando recursos.

Estadísticamente representativo

Que una muestra sea estadisticamente representativa significa que el conjunto seleccionado para la muestra cuenta con las caracteristicas mas representativas para reflejar a la poblacion completa lo mas preciso posible.

Hipótesis nula y alternativa

Al realizar los estudios pertinentes a una poblacion, el investigador llega a su conclusion y para esto debe establecer dos hipotesis, la hipotesis nula y la hipotesis alternativa. la hipotesis nula consiste en una conclusion opuesta a la que se llego, es decir que con la hipotesis nula se pretende probar que lo contrario a lo concluido por el investigador es lo correcto. Por su parte la hipotesis alternativa plantea (aunque no siempre)oposicion a la hipotesis nula y generalmente se trata de la conclusion a la que el investigador ha llegado tras su trabajo de estudio.

Importancia del muestreo

El muestreo como anteriormente se menciona, propone que un pequeño grupo que mantenga las caracteristicas mas representativas para toda la poblacion, se ponga bajo estudio, hacer esto posibilita al investigador para que ahorre el tiempo y los recursos necesarios. Es por esto que el muestreo es basicamente la raiz de toda la investigacion, pues si el muestreo no se realiza de la manera correcta, las conclusiones y resultados podrian verse muy afectados y resultar erroneos. Entre mas precisa sea la seleccion de muestra, el muestreo tambien lo sera y por ende se obtendran resultados o conclusiones de mejor calidad.

Muestreo y prueba de hipótesis

Los datos elegidos para este estudio son los de agua subterraneas.

aguasubterranea <- read_excel("aguasubterranea.xlsx")

aguasubterraneaPH <- aguasubterranea %>% filter(aguasubterranea$MEDICION == 'PH')
aguasubterraneaTEMP <- aguasubterranea %>% filter(aguasubterranea$MEDICION == 'TEMP')

Muestreo

Muestreo Aleatorio Simple Para esta prueba se tomara un tamaño de muestra de 15 (n) se realiza un muestreo para el PH y otro para la TEMPERATURA(TEMP)

n <- 15
aguaPH <- sample(1:nrow(aguasubterraneaPH), size=n, replace=FALSE)
aguaTEMP <- sample(1:nrow(aguasubterraneaTEMP), size=n, replace=FALSE)
aguaPH
##  [1]  43 192  47 135 147  12 282 202  66  49  28 242 229  20 267
aguaTEMP
##  [1] 244 276 211 148 126 108 232 150  63  28 251  78 203 100  71

Con el muestreo aleatorio simple se toma un tamaño de muestra que represente a la poblacion de maner totalmente aleatorea como su nombre lo indica sin tomar en cuenta ningun rasgo de los datos.

Muestreo Estratificado Se separara el grupo de PH para el estudio:

set.seed(5)
muestra_estratificada <- aguasubterraneaPH %>%
  group_by(VALOR) %>%
  sample_n(size=n, replace=TRUE)
muestra_estratificada

Con el muestreo estratificado dividimos la poblacion y la analisamos por partes como se observo.

Muestreo Ponderado

muestreoPonderado <- aguasubterraneaPH %>%   
  sample_n(size=n, weight = aguasubterraneaPH$VALOR)
head(muestreoPonderado)
muestreoPF <- sample(1:nrow(aguasubterraneaPH), size=n, replace=FALSE)
head(muestreoPF)
## [1] 119 124 143  49 254 189

Para realizar el muestreo ponderado se utilizo el segmento de valores para el PH.

Muestreo De Fracción

muestreoF <- sample(1:nrow(aguasubterraneaPH), size=n, replace=FALSE)
head(muestreoF)
## [1] 250 119 103 221  31  93

La muestra por si misma es una porcion de la poblacion, y el muestreo de fraccion secciona y reduce mas el tamaño de esta porcion analizando una pequeña parte de la muestra.

Prueba de hipótesis

La hipotesis planteada es ¿Tendra la temperatura alguna relacion directa con el PH del agua subterraenea?

Prueba de shapiro wilk

shapiro.test(aguasubterraneaPH$VALOR)
## 
##  Shapiro-Wilk normality test
## 
## data:  aguasubterraneaPH$VALOR
## W = 0.95932, p-value = 2.661e-07
shapiro.test(aguasubterraneaTEMP$VALOR)
## 
##  Shapiro-Wilk normality test
## 
## data:  aguasubterraneaTEMP$VALOR
## W = 0.98362, p-value = 0.001981

Prueba de Normalidad de Kolmogorov-Smirnov

ks.test(aguasubterraneaPH$VALOR,"pnorm", mean=mean(aguasubterraneaPH$VALOR), sd=sd(aguasubterraneaPH$VALOR))
## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  aguasubterraneaPH$VALOR
## D = 0.1436, p-value = 1.129e-05
## alternative hypothesis: two-sided
ks.test(aguasubterraneaTEMP$VALOR,"pnorm", mean=mean(aguasubterraneaTEMP$VALOR), sd=sd(aguasubterraneaTEMP$VALOR))
## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  aguasubterraneaTEMP$VALOR
## D = 0.071961, p-value = 0.09618
## alternative hypothesis: two-sided

Esta prueba nos permite saber si la muestra proviene de una con una media y desviacion tipica.

Normalidad de Varianzas

var.test(aguasubterraneaPH$VALOR, aguasubterraneaTEMP$VALOR)
## 
##  F test to compare two variances
## 
## data:  aguasubterraneaPH$VALOR and aguasubterraneaTEMP$VALOR
## F = 0.047408, num df = 292, denom df = 292, p-value < 2.2e-16
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  0.03767300 0.05965831
## sample estimates:
## ratio of variances 
##         0.04740789

En esta ocacion la hipotesis nula es rechasada puesto que muestra un valor menor a 0.05 y la hipotesis es correcta de vuelta.

Numeros de tukey

fivenum(aguasubterraneaPH$VALOR)
## [1] 6.1 6.8 6.9 7.0 7.5
fivenum(aguasubterraneaTEMP$VALOR)
## [1] 25.6 28.0 28.7 29.2 32.1

Comparativo de Caja y Bigote, Comparativo de Caja y Bigote Con Desviación

op <- par(mfrow =c(1,2), cex.axis=.7, cex.lab=.9 )

boxplot(aguasubterranea$VALOR ~ aguasubterranea$MEDICION, col="grey", main="A"  )
barplot(tapply(aguasubterranea$VALOR, list(aguasubterranea$MEDICION), mean ), beside = T, main="B")

Por ultimo obteniendo un comparativo de caja y vigote se puede tomar la conclusion final y asumir que la hipotesis es correcta y la temperatura esta directamente ligada a la variacion de PH en el agua subterranea.

Pregunta de rescate

¿La gente realmente quiere ser feliz o es una idea que nos vendieron?

La felicidad es un termino complicado y unico para cada individuo, desde un punto de vista espiritual la felicidad es la armonia en todos los sentidos humanos, desde el punto de vista materialista la felicidad es el estado de satisfaccion producido al alcanzar una meta u obtener un bien deseado, lo indiscutible es que el termino es individual para cada ser, pues no todos tienen los mismos ideales de alcanzar su “felicidad”.

Profundizando mas en puntos de vista algo materialistas la felicidad llega cuando obtenemos todo aquel bien que deseamos y cada vez que alcanzamos ese bien vamos en busca de otro, si traducimos “bien” como un producto del mercado que podria ser un nuevo telefono celular, una consola de video juegos, entre otras necesidades creadas por el mercado, no reales, si la felicidad es una idea vendida, pero visto desde la otra cara de la moneda nos encontramos con personas que no tienen ninguna clase de necesidad material o creada y aun asi mantienen la armonia en sus sentidos. Tras este analisis concluyo que la felicidad es una idea vendida, y a la vez no, dependiendo desde que ojo se observe.

Para descargar el codigo del examen:

xfun::embed_file("E3U3D.rmd")
Download E3U3D.rmd