Carlos Jiménez-Gallardo
Estadístico
MSc Infórmatica Educativa
Universidad de La Frontera
carlos.jimenez@ufrontera.cl
Data Scientist
www.innovate.cl
cjimenez@innovate.cl
un proceso que pretenden identificar causas, claramente debe comparar. Por lo general, esta comparación se realiza contra lo que se llama en estadística un GRUPO CONTROL (condiciones naturales de funcionamiento, siempre esta presente). En la mayoría de las ocasiones compara contra elementos ya existentes, como por ejemplo la durabilidad del pegamento “la gotita” frente a “rex”, o probar dosis de productos, etc.; pero la condición es que solo sean 2 grupos.
En este caso tenemos mediciones de niveles de Manganeso en varios ríos a 2 profundidades.
Se desea saber a que profundidad se presenta una mayor concentración de Mn
De acuerdo con esto, planteemos una pregunta de investigación.
Nota 1: para cualquiera sea el proceso de comparación, se debe considerar el cumplimiento de supuestos, para este caso
| Calidad de datos | arregle en medida de lo posible | |||
|---|---|---|---|---|
| Supuestos | Cumple | No cumple | ||
| Normalidad | Test paramétrico | Test no paramétrico | ||
| Homocedasticidad | Cumple | No cumple | Cumple | No cumple |
| test | t.test | t.test corrección de Welch | U Mann-Whitney | Brunner-Munzel |
| en R | CASO 1 | CASO 2 | CASO 3 | CASO 4 |
revisar las formulas mas adelante.
** se relaciona simpre con H1, luego “greater” o “less” o “two.sided”
PI ¿cual es el efecto que produce la profundidad en la concentración de Mn?
Por tanto nuestra hipótesis de investigación Si ud., desconoce puede plantearlo en términos de diferencia real
\(H_i\) : existe diferencia en la concentración de Mn entre la medición superficial y la profundad
\(H_0\) : el nivel promedio de Manganeso en la medición superficial es similar a la realizada en profundad , \(H_0:\bar{Mn_s} \ = \ \bar{Mn_p}\)
\(H_1\) : el nivel promedio de Manganeso en la medición superficial difiere a la realizada en profundad , \(H_0:\bar{Mn_s} \ \ne \ \bar{Mn_p}\)
Librerias a ocupar
library(tidyverse)
library(Analitica)
library(nortest)
library(doBy)
Análisis sobre comportamiento de la variable de estudio
descripYG(datos,Mn,profundidad)
## Picking joint bandwidth of 0.0326
## Group n Mean Median SD Kurtosis Skewness CV Min
## 1 Profundo 216 0.06096736 0.0430 0.07503576 7.63607 1.884425 1.2307530 -0.0425
## 2 Superf 258 0.21441783 0.1285 0.19499214 5.70292 1.629931 0.9094026 -0.0035
## Max P25 P75 IQR
## 1 0.38125 0.0160 0.085000 0.069000
## 2 1.15000 0.0805 0.304125 0.223625
de acuerdo a los datos, no pueden existir valores negativos, lo que significa una mala medición, como existe suficientes mediciones podriamos prescindir de ellas.
datos1<-datos %>%
filter(Mn>=0)
descripYG(datos1,Mn, profundidad)
## Picking joint bandwidth of 0.0327
## Group n Mean Median SD Kurtosis Skewness CV Min
## 1 Profundo 188 0.07328165 0.0475 0.07258962 8.120892 2.118565 0.9905565 0.000
## 2 Superf 257 0.21526576 0.1315 0.19489544 5.701969 1.631140 0.9053713 0.013
## Max P25 P75 IQR
## 1 0.38125 0.0265 0.092875 0.066375
## 2 1.15000 0.0805 0.305500 0.225000
ahora existe un comportamiento esperable de los datos.
\(H_{0SN}\): X ~ N(mu,s) \(H_{1SN}\): X <> N(mu,s)
#aplicando por grupo
#forma 1
by(datos1,
INDICES = datos1$profundidad,
FUN = function(datos1)
{shapiro.test(datos1$Mn)})
## datos1$profundidad: Profundo
##
## Shapiro-Wilk normality test
##
## data: datos1$Mn
## W = 0.77742, p-value = 1.281e-15
##
## ------------------------------------------------------------
## datos1$profundidad: Superf
##
## Shapiro-Wilk normality test
##
## data: datos1$Mn
## W = 0.81086, p-value < 2.2e-16
#forma 2
Normalidad <- datos1 %>%
group_by(profundidad) %>%
summarise(pvalor = shapiro.test(Mn)$p.value) #
print(Normalidad)
## # A tibble: 2 × 2
## profundidad pvalor
## <chr> <dbl>
## 1 Profundo 1.28e-15
## 2 Superf 5.52e-17
#forma 3
shapiro.test(datos1$Mn[datos1$profundidad=="Superf"])
##
## Shapiro-Wilk normality test
##
## data: datos1$Mn[datos1$profundidad == "Superf"]
## W = 0.81086, p-value < 2.2e-16
shapiro.test(datos1$Mn[datos1$profundidad=="Profundo"])
##
## Shapiro-Wilk normality test
##
## data: datos1$Mn[datos1$profundidad == "Profundo"]
## W = 0.77742, p-value = 1.281e-15
\(H_{0SH}\): las varianzas son iguales \(H_{1SH}\): las varianzas son distintas
summary(BartlettTest(Mn~profundidad,data=datos)) # numero de elementos por grupo igual
##
## --- Homoscedasticity Test Summary ---
##
## Method applied : Bartlett
## Chi-squared Statistic : 178.4595
## Degrees of freedom : 1
## p-value : 0 ***
## Decision (alpha = 0.05): Heterocedastic
## ----------------------------------------
bartlett.test(Mn~profundidad,data=datos)
##
## Bartlett test of homogeneity of variances
##
## data: Mn by profundidad
## Bartlett's K-squared = 178.46, df = 1, p-value < 2.2e-16
summary(Levene.Test(Mn~profundidad,data=datos,center="mean"))
##
## --- Homoscedasticity Test Summary ---
##
## Method applied : Levene (mean) - global by cells
## F Statistic : 121.022
## Degrees of freedom : 1 (between), 472 (within)
## p-value : 0 ***
## Decision (alpha = 0.05): Heteroscedastic (cells)
## ----------------------------------------
summary(Levene.Test(Mn~profundidad,data=datos,center="median"))
##
## --- Homoscedasticity Test Summary ---
##
## Method applied : Levene (median) - global by cells
## F Statistic : 52.38639
## Degrees of freedom : 1 (between), 472 (within)
## p-value : 1.860512e-12 ***
## Decision (alpha = 0.05): Heteroscedastic (cells)
## ----------------------------------------
t.test(datos1$Mn ~ datos1$profundidad ,mu=0,alternative = "two.sided", conf.level = .95, var.equal=TRUE)
##
## Two Sample t-test
##
## data: datos1$Mn by datos1$profundidad
## t = -9.5154, df = 443, p-value < 2.2e-16
## alternative hypothesis: true difference in means between group Profundo and group Superf is not equal to 0
## 95 percent confidence interval:
## -0.1713099 -0.1126583
## sample estimates:
## mean in group Profundo mean in group Superf
## 0.07328165 0.21526576
Dado el p-value de 2.2e-16, es decir, 0, entonces no se puede aceptar la hipótesis que plantea que el nivel promedio de Manganeso tanto en la superficie como en la profundidad son similares. En palabras más específicas si realiza 100 veces el mismo proceso nunca encontrará similitud entre ambas mediciones.
#Intervalo de confianza
la diferencia entre las mediciones bordeara entre (intervalo de confianza al 1-\(\alpha\)%)
t.test(datos1$Mn ~ datos1$profundidad ,mu=0,alternative = "two.sided", conf.level = .95, var.equal=FALSE)
##
## Welch Two Sample t-test
##
## data: datos1$Mn by datos1$profundidad
## t = -10.708, df = 345.3, p-value < 2.2e-16
## alternative hypothesis: true difference in means between group Profundo and group Superf is not equal to 0
## 95 percent confidence interval:
## -0.1680646 -0.1159037
## sample estimates:
## mean in group Profundo mean in group Superf
## 0.07328165 0.21526576
Nota: la decisión para este caso es la misma, pero note que el valor de t difiere, así como el df
wilcox.test(datos1$Mn ~ datos1$profundidad ,mu=0,alternative = "two.sided")
##
## Wilcoxon rank sum test with continuity correction
##
## data: datos1$Mn by datos1$profundidad
## W = 9449, p-value < 2.2e-16
## alternative hypothesis: true location shift is not equal to 0
El p-value (2.2e-16=0) resulta ser menor que alfa, entonces no se puede aceptar la hipótesis que plantea que el nivel promedio de Manganeso a nivel superficial es similar que a mayor profundidad
Nota 2:
La prueba de Wilcoxon al ser una prueba no paramétrica trabaja con una alternativa a la media aritmética como indicador de posición, es por esto que a pesar de tener la misma conclusión, el valor de p es distinto y se debe tener cuidado, ya que como se ve, en existe una diferencia sustancial entre ambos, por tanto al estar cerca de \(\alpha\), pudiese con una prueba rechazar y con la otra aceptar \(H_0\)
Adicionalmente no se presenta intervalos de confianza.
summary(BMTest(datos1$Mn[datos1$profundidad=="Superf"],datos1$Mn[datos1$profundidad=="Profundo"] ,alternative = "two.sided"))
## ========================================
## Summary of Pairwise Comparison Test
## ========================================
## Method: Brunner-Munzel (two.sided)
##
## Comparison : Grupo1 - Grupo2
## Mean difference : 0.142
## Degrees of freedom : 405.32
## Standard error : 10.5304
## t critical value : 1.9658
## p-value : 0
## P(X < Y) + 0.5 P(X = Y): 0.1956
## Significance : ***
##
## Group means (ordered from highest to lowest):
## Grupo1: 0.215
## Grupo2: 0.073
El p-value (0) resulta ser menor que alfa, entonces no se puede aceptar la hipótesis que plantea que el nivel promedio de Manganeso a nivel superficial es similar que a mayor profundidad