Prueba de Hipotesis un grupo.

Carlos Jimémez-Gallardo
Estadístico
MSc Infórmatica Educativa
Universidad de La Frontera
carlos.jimenez@ufrontera.cl

Data Scientist
www.innovate.cl cjimenez@innovate.cl

Introduccion

Un objetivo requerido en el control de variables, es el cumplimiento de valores normativos o valores norma, por ejemplo Niveles de Manganeso en el agua.

Al respecto, uno proceso estadístico útil es la Prueba de significación de la hipótesis nula (Null Hypothesis Statistical Test, NHST, en inglés), aunque no es bien vista es útil en casos como este.

Lo que se plantea teóricamente es que los datos presentan un comportamiento esperable con una posición central (que en este caso sería el valor de norma)

De acuerdo con esto, planteemos una pregunta de investigación.

Nota 1: para cualquiera sea el proceso de comparación, se debe considerar el cumplimiento de supuestos, para este caso

S. Calidad de Datos
Arreglar en lo posible
S. Normalidad
Cumple	No cumple
Proceso paramétrico	Proceso no paramétrico
Prueba t-student	Prueba Wilcox
en R
t.test(VD,mu=valor de prueba, alternative=“**“)	wilcox.test(VD,mu=valor de prueba, alternative=“**“)

** se relaciona simpre con H1, luego “greater” o “less” o “two.sided”

Pregunta de Investigación e Hipótesis

PI ¿ El nivel de manganeso en el agua cumple con el requisito normativo?

de acuerdo a la norma Chile NCh409 contempla 0.1 mg/lt

Por tanto nuestra hipótesis de investigación

\(H_i\) : el agua bebestible debe tener como máximo 0,10 mg/lt, al traducir, esto vemos que la desigualdad solicitada es menor o igual (“<=”), entonces las hipótesis estadísticas serían

\(H_0\) : el nivel promedio de Manganeso en el agua es menor o igual a la norma , \(H_0: \bar{Mn} \le 0.1 \ mg/lts\)

\(H_1\) : el nivel promedio de Manganeso en el agua es mayor que la norma, \(H_1: \bar{Mn} > 0.1 \ mg/lts\)

Supuestos

Calidad de datos

Librerias a ocupar

library(tidyverse)
library(Analitica)
library(nortest)

Analisis sobre comportamiento de la variable de estudio

descripYG(datos,Mn)

##     n     Mean  Median        SD Kurtosis Skewness       CV     Min  Max  P25
## 1 474 0.144491 0.08875 0.1705022 8.338952 2.126077 1.180019 -0.0425 1.15 0.04
##        P75      IQR  Fence_Low Fence_High
## 1 0.169375 0.129375 -0.1540625  0.3634375

de acuerdo a los datos, no pueden existir valores negativos, lo que significa una mala medicion, como existe suficientes mediciones podriasmos prescindir de ellas

datos1<-datos %>% 
  filter(Mn>=0)

descripYG(datos1,Mn)

##     n      Mean Median        SD Kurtosis Skewness       CV Min  Max    P25
## 1 445 0.1552815  0.094 0.1704402 8.270794 2.138381 1.097621   0 1.15 0.0475
##      P75   IQR Fence_Low Fence_High
## 1 0.1855 0.138   -0.1595     0.3925

ahora existe un comportamiento esperable de los datos.

Supuesto Normalidad

shapiro.test(datos1$Mn)

## 
##  Shapiro-Wilk normality test
## 
## data:  datos1$Mn
## W = 0.7507, p-value < 2.2e-16

ad.test(datos1$Mn) #library(nortest)

## 
##  Anderson-Darling normality test
## 
## data:  datos1$Mn
## A = 36.417, p-value < 2.2e-16

cvm.test(datos1$Mn)

## Warning in cvm.test(datos1$Mn): p-value is smaller than 7.37e-10, cannot be
## computed more accurately

## 
##  Cramer-von Mises normality test
## 
## data:  datos1$Mn
## W = 6.8584, p-value = 7.37e-10

lillie.test(datos1$Mn)

## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  datos1$Mn
## D = 0.21705, p-value < 2.2e-16

pearson.test(datos1$Mn)

## 
##  Pearson chi-square normality test
## 
## data:  datos1$Mn
## P = 452.62, p-value < 2.2e-16

sf.test(datos1$Mn)

## 
##  Shapiro-Francia normality test
## 
## data:  datos1$Mn
## W = 0.74944, p-value < 2.2e-16

JBGTest(datos1$Mn) #library(Analitica)

## 
## Jarque-Bera (Glinskiy)
## 
## Variant: JB(Classic)
## 
## Statistic: 854.2508 , df = 2 , p-value = 0

Analisis Hipótesis de Investigación

Si Supuesto Normalidad es verdadero

t.test(datos1$Mn,mu=0.1,alternative = "greater", conf.level = .95)

## 
##  One Sample t-test
## 
## data:  datos1$Mn
## t = 6.8421, df = 444, p-value = 1.3e-11
## alternative hypothesis: true mean is greater than 0.1
## 95 percent confidence interval:
##  0.1419638       Inf
## sample estimates:
## mean of x 
## 0.1552815

n  <- length(datos1$Mn)
xb <- mean(datos1$Mn)
s  <- sd(datos1$Mn)
al <- 0.05

t_crit <- qt(1 - al/2, df = n - 1)

LI <- xb - t_crit * s/sqrt(n)
LS <- xb + t_crit * s/sqrt(n)

cat("limite inf: ",LI)

## limite inf:  0.1394024

cat("limite sup: ",LS)

## limite sup:  0.1711605

Dado el p-value de 1.3e-11, es decir, 0, entonces no se puede aceptar la hipótesis que plantea que el nivel promedio de Manganeso en el agua es menor o igual a la norma. En palabras más específicas si realiza 100 veces el mismo proceso nunca encontrará un promedio menor a 0.1 mg por lt.

los valores de la media de Mn en agua, se encontrara entre 0.1394024 y 0.1711605 mg/lt (intervalo de confianza al 1-\(\alpha\)%)

Si Supuesto Normalidad es falso

wilcox.test(datos1$Mn,mu=0.1, alternative = "greater")

## 
##  Wilcoxon signed rank test with continuity correction
## 
## data:  datos1$Mn
## V = 55586, p-value = 0.01396
## alternative hypothesis: true location is greater than 0.1

El p-value (0.01396) resulta ser menor que alfa, entonces no se puede aceptar la hipótesis que plantea que el nivel promedio de Manganeso en el agua es menor o igual a la norma.

Nota 2:

La prueba de Wilcoxon al ser una prueba no paramétrica trabaja con una alternativa a la media aritmética como indicador de posición, es por esto que a pesar de tener la misma conclusión, el valor de p es distinto y se debe tener cuidado, ya que como se ve, en existe una diferencia sustancial entre ambos, por tanto al estar cerca de \(\alpha\), pudiese con una prueba rechazar y con la otra aceptar \(H_0\)

Adicionalmente no se presenta intervalos de confianza.