Carlos Jimémez-Gallardo
Estadístico
MSc Infórmatica Educativa
Universidad de La Frontera
carlos.jimenez@ufrontera.cl
Data Scientist
www.innovate.cl
cjimenez@innovate.cl
Un objetivo requerido en el control de variables, es el cumplimiento de valores normativos o valores norma, por ejemplo Niveles de Manganeso en el agua.
Al respecto, uno proceso estadístico útil es la Prueba de significación de la hipótesis nula (Null Hypothesis Statistical Test, NHST, en inglés), aunque no es bien vista es útil en casos como este.
Lo que se plantea teóricamente es que los datos presentan un comportamiento esperable con una posición central (que en este caso sería el valor de norma)
De acuerdo con esto, planteemos una pregunta de investigación.
Nota 1: para cualquiera sea el proceso de comparación, se debe considerar el cumplimiento de supuestos, para este caso
| S. Calidad de Datos | |
|---|---|
| Arreglar en lo posible | |
| S. Normalidad | |
| Cumple | No cumple |
| Proceso paramétrico | Proceso no paramétrico |
| Prueba t-student | Prueba Wilcox |
| en R | |
| t.test(VD,mu=valor de prueba, alternative=“**“) | wilcox.test(VD,mu=valor de prueba, alternative=“**“) |
** se relaciona simpre con H1, luego “greater” o “less” o “two.sided”
PI ¿ El nivel de manganeso en el agua cumple con el requisito normativo?
de acuerdo a la norma Chile NCh409 contempla 0.1 mg/lt
Por tanto nuestra hipótesis de investigación
\(H_i\) : el agua bebestible debe tener como máximo 0,10 mg/lt, al traducir, esto vemos que la desigualdad solicitada es menor o igual (“<=”), entonces las hipótesis estadísticas serían
\(H_0\) : el nivel promedio de Manganeso en el agua es menor o igual a la norma , \(H_0: \bar{Mn} \le 0.1 \ mg/lts\)
\(H_1\) : el nivel promedio de Manganeso en el agua es mayor que la norma, \(H_1: \bar{Mn} > 0.1 \ mg/lts\)
Librerias a ocupar
library(tidyverse)
library(Analitica)
library(nortest)
Analisis sobre comportamiento de la variable de estudio
descripYG(datos,Mn)
## n Mean Median SD Kurtosis Skewness CV Min Max P25
## 1 474 0.144491 0.08875 0.1705022 8.338952 2.126077 1.180019 -0.0425 1.15 0.04
## P75 IQR Fence_Low Fence_High
## 1 0.169375 0.129375 -0.1540625 0.3634375
de acuerdo a los datos, no pueden existir valores negativos, lo que significa una mala medicion, como existe suficientes mediciones podriasmos prescindir de ellas
datos1<-datos %>%
filter(Mn>=0)
descripYG(datos1,Mn)
## n Mean Median SD Kurtosis Skewness CV Min Max P25
## 1 445 0.1552815 0.094 0.1704402 8.270794 2.138381 1.097621 0 1.15 0.0475
## P75 IQR Fence_Low Fence_High
## 1 0.1855 0.138 -0.1595 0.3925
ahora existe un comportamiento esperable de los datos.
shapiro.test(datos1$Mn)
##
## Shapiro-Wilk normality test
##
## data: datos1$Mn
## W = 0.7507, p-value < 2.2e-16
ad.test(datos1$Mn) #library(nortest)
##
## Anderson-Darling normality test
##
## data: datos1$Mn
## A = 36.417, p-value < 2.2e-16
cvm.test(datos1$Mn)
## Warning in cvm.test(datos1$Mn): p-value is smaller than 7.37e-10, cannot be
## computed more accurately
##
## Cramer-von Mises normality test
##
## data: datos1$Mn
## W = 6.8584, p-value = 7.37e-10
lillie.test(datos1$Mn)
##
## Lilliefors (Kolmogorov-Smirnov) normality test
##
## data: datos1$Mn
## D = 0.21705, p-value < 2.2e-16
pearson.test(datos1$Mn)
##
## Pearson chi-square normality test
##
## data: datos1$Mn
## P = 452.62, p-value < 2.2e-16
sf.test(datos1$Mn)
##
## Shapiro-Francia normality test
##
## data: datos1$Mn
## W = 0.74944, p-value < 2.2e-16
JBGTest(datos1$Mn) #library(Analitica)
##
## Jarque-Bera (Glinskiy)
##
## Variant: JB(Classic)
##
## Statistic: 854.2508 , df = 2 , p-value = 0
t.test(datos1$Mn,mu=0.1,alternative = "greater", conf.level = .95)
##
## One Sample t-test
##
## data: datos1$Mn
## t = 6.8421, df = 444, p-value = 1.3e-11
## alternative hypothesis: true mean is greater than 0.1
## 95 percent confidence interval:
## 0.1419638 Inf
## sample estimates:
## mean of x
## 0.1552815
n <- length(datos1$Mn)
xb <- mean(datos1$Mn)
s <- sd(datos1$Mn)
al <- 0.05
t_crit <- qt(1 - al/2, df = n - 1)
LI <- xb - t_crit * s/sqrt(n)
LS <- xb + t_crit * s/sqrt(n)
cat("limite inf: ",LI)
## limite inf: 0.1394024
cat("limite sup: ",LS)
## limite sup: 0.1711605
Dado el p-value de 1.3e-11, es decir, 0, entonces no se puede aceptar la hipótesis que plantea que el nivel promedio de Manganeso en el agua es menor o igual a la norma. En palabras más específicas si realiza 100 veces el mismo proceso nunca encontrará un promedio menor a 0.1 mg por lt.
los valores de la media de Mn en agua, se encontrara entre 0.1394024 y 0.1711605 mg/lt (intervalo de confianza al 1-\(\alpha\)%)
wilcox.test(datos1$Mn,mu=0.1, alternative = "greater")
##
## Wilcoxon signed rank test with continuity correction
##
## data: datos1$Mn
## V = 55586, p-value = 0.01396
## alternative hypothesis: true location is greater than 0.1
El p-value (0.01396) resulta ser menor que alfa, entonces no se puede aceptar la hipótesis que plantea que el nivel promedio de Manganeso en el agua es menor o igual a la norma.
Nota 2:
La prueba de Wilcoxon al ser una prueba no paramétrica trabaja con una alternativa a la media aritmética como indicador de posición, es por esto que a pesar de tener la misma conclusión, el valor de p es distinto y se debe tener cuidado, ya que como se ve, en existe una diferencia sustancial entre ambos, por tanto al estar cerca de \(\alpha\), pudiese con una prueba rechazar y con la otra aceptar \(H_0\)
Adicionalmente no se presenta intervalos de confianza.