Introduccion

un proceso que pretenden identificar causas, claramente debe comparar. Por lo general, esta comparación se realiza contra lo que se llama en estadística un GRUPO CONTROL (condiciones naturales de funcionamiento, siempre esta presente). En la mayoría de las ocasiones compara contra elementos ya existentes, como por ejemplo la durabilidad del pegamento “la gotita” frente a “rex”, o probar dosis de productos, etc.; pero la condición es que solo sean 2 grupos.

En este caso tenemos mediciones de niveles de Manganeso en varios ríos a 2 profundidades.

Se desea saber a que profundidad se presenta una mayor concentración de Mn

De acuerdo con esto, planteemos una pregunta de investigación.

Nota 1: para cualquiera sea el proceso de comparación, se debe considerar el cumplimiento de supuestos, para este caso

Calidad de datos arregle en medida de lo posible
Supuestos Cumple No cumple
Normalidad Test paramétrico Test no paramétrico
Homocedasticidad Cumple No cumple Cumple No cumple
test t.test t.test corrección de Welch U Mann-Whitney Brunner-Munzel
en R CASO 1 CASO 2 CASO 3 CASO 4

revisar las formulas mas adelante.

** se relaciona simpre con H1, luego “greater” o “less” o “two.sided”

Pregunta de Investigación e Hipótesis

PI ¿cual es el efecto que produce la profundidad en la concentración de Mn?

Por tanto nuestra hipótesis de investigación Si ud., desconoce puede plantearlo en términos de diferencia real

\(H_i\) : existe diferencia en la concentración de Mn entre la medición superficial y la profundad

\(H_0\) : el nivel promedio de Manganeso en la medición superficial es similar a la realizada en profundad , \(H_0:\bar{Mn_s} \ = \ \bar{Mn_p}\)

\(H_1\) : el nivel promedio de Manganeso en la medición superficial difiere a la realizada en profundad , \(H_0:\bar{Mn_s} \ \ne \ \bar{Mn_p}\)

Supuestos

Calidad de datos

Librerias a ocupar

library(tidyverse)
library(Analitica)
library(nortest)
library(doBy)

Análisis sobre comportamiento de la variable de estudio

descripYG(datos,Mn,profundidad)
## Picking joint bandwidth of 0.0326

##      Group   n       Mean Median         SD Kurtosis Skewness        CV     Min
## 1 Profundo 216 0.06096736 0.0430 0.07503576  7.63607 1.884425 1.2307530 -0.0425
## 2   Superf 258 0.21441783 0.1285 0.19499214  5.70292 1.629931 0.9094026 -0.0035
##       Max    P25      P75      IQR
## 1 0.38125 0.0160 0.085000 0.069000
## 2 1.15000 0.0805 0.304125 0.223625

de acuerdo a los datos, no pueden existir valores negativos, lo que significa una mala medición, como existe suficientes mediciones podriamos prescindir de ellas.

datos1<-datos %>% 
  filter(Mn>=0)

descripYG(datos1,Mn, profundidad)
## Picking joint bandwidth of 0.0327

##      Group   n       Mean Median         SD Kurtosis Skewness        CV   Min
## 1 Profundo 188 0.07328165 0.0475 0.07258962 8.120892 2.118565 0.9905565 0.000
## 2   Superf 257 0.21526576 0.1315 0.19489544 5.701969 1.631140 0.9053713 0.013
##       Max    P25      P75      IQR
## 1 0.38125 0.0265 0.092875 0.066375
## 2 1.15000 0.0805 0.305500 0.225000

ahora existe un comportamiento esperable de los datos.

Supuesto Normalidad

\(H_{0SN}\): X ~ N(mu,s) \(H_{1SN}\): X <> N(mu,s)

#aplicando por grupo
#forma 1
by(datos1,
   INDICES = datos1$profundidad,
   FUN = function(datos1)
     {shapiro.test(datos1$Mn)})
## datos1$profundidad: Profundo
## 
##  Shapiro-Wilk normality test
## 
## data:  datos1$Mn
## W = 0.77742, p-value = 1.281e-15
## 
## ------------------------------------------------------------ 
## datos1$profundidad: Superf
## 
##  Shapiro-Wilk normality test
## 
## data:  datos1$Mn
## W = 0.81086, p-value < 2.2e-16
#forma 2
Normalidad <- datos1 %>% 
  group_by(profundidad) %>% 
  summarise(pvalor = shapiro.test(Mn)$p.value) # 

print(Normalidad)
## # A tibble: 2 × 2
##   profundidad   pvalor
##   <chr>          <dbl>
## 1 Profundo    1.28e-15
## 2 Superf      5.52e-17
#forma 3

shapiro.test(datos1$Mn[datos1$profundidad=="Superf"])
## 
##  Shapiro-Wilk normality test
## 
## data:  datos1$Mn[datos1$profundidad == "Superf"]
## W = 0.81086, p-value < 2.2e-16
shapiro.test(datos1$Mn[datos1$profundidad=="Profundo"])
## 
##  Shapiro-Wilk normality test
## 
## data:  datos1$Mn[datos1$profundidad == "Profundo"]
## W = 0.77742, p-value = 1.281e-15

Supuesto de Homocedasticidad

\(H_{0SH}\): las varianzas son iguales \(H_{1SH}\): las varianzas son distintas

summary(BartlettTest(Mn~profundidad,data=datos)) # numero de elementos por grupo igual
## 
## --- Homoscedasticity Test Summary ---
## 
## Method applied         : Bartlett 
## Chi-squared Statistic  : 178.4595 
## Degrees of freedom     : 1 
## p-value                : 0 *** 
## Decision (alpha = 0.05): Heterocedastic 
## ----------------------------------------
bartlett.test(Mn~profundidad,data=datos)
## 
##  Bartlett test of homogeneity of variances
## 
## data:  Mn by profundidad
## Bartlett's K-squared = 178.46, df = 1, p-value < 2.2e-16
summary(Levene.Test(Mn~profundidad,data=datos,center="mean"))
## 
## --- Homoscedasticity Test Summary ---
## 
## Method applied         : Levene (mean) - global by cells 
## F Statistic            : 121.022 
## Degrees of freedom     : 1 (between), 472 (within)
## p-value                : 0 *** 
## Decision (alpha = 0.05): Heteroscedastic (cells) 
## ----------------------------------------
summary(Levene.Test(Mn~profundidad,data=datos,center="median"))
## 
## --- Homoscedasticity Test Summary ---
## 
## Method applied         : Levene (median) - global by cells 
## F Statistic            : 52.38639 
## Degrees of freedom     : 1 (between), 472 (within)
## p-value                : 1.860512e-12 *** 
## Decision (alpha = 0.05): Heteroscedastic (cells) 
## ----------------------------------------

Analisis Hipótesis de Investigación

Si Supuesto Normalidad es verdadero y Homocedastico (caso 1)

t.test(datos1$Mn ~ datos1$profundidad ,mu=0,alternative = "two.sided", conf.level = .95, var.equal=TRUE)
## 
##  Two Sample t-test
## 
## data:  datos1$Mn by datos1$profundidad
## t = -9.5154, df = 443, p-value < 2.2e-16
## alternative hypothesis: true difference in means between group Profundo and group Superf is not equal to 0
## 95 percent confidence interval:
##  -0.1713099 -0.1126583
## sample estimates:
## mean in group Profundo   mean in group Superf 
##             0.07328165             0.21526576

Dado el p-value de 2.2e-16, es decir, 0, entonces no se puede aceptar la hipótesis que plantea que el nivel promedio de Manganeso tanto en la superficie como en la profundidad son similares. En palabras más específicas si realiza 100 veces el mismo proceso nunca encontrará similitud entre ambas mediciones.

#Intervalo de confianza

la diferencia entre las mediciones bordeara entre (intervalo de confianza al 1-\(\alpha\)%)

Si Supuesto Normalidad es verdadero y Heterocedastico (caso 2)

t.test(datos1$Mn ~ datos1$profundidad ,mu=0,alternative = "two.sided", conf.level = .95, var.equal=FALSE)
## 
##  Welch Two Sample t-test
## 
## data:  datos1$Mn by datos1$profundidad
## t = -10.708, df = 345.3, p-value < 2.2e-16
## alternative hypothesis: true difference in means between group Profundo and group Superf is not equal to 0
## 95 percent confidence interval:
##  -0.1680646 -0.1159037
## sample estimates:
## mean in group Profundo   mean in group Superf 
##             0.07328165             0.21526576

Nota: la decisión para este caso es la misma, pero note que el valor de t difiere, así como el df

Si Supuesto Normalidad es falso y Homocedastico (caso 3)

wilcox.test(datos1$Mn ~ datos1$profundidad ,mu=0,alternative = "two.sided")
## 
##  Wilcoxon rank sum test with continuity correction
## 
## data:  datos1$Mn by datos1$profundidad
## W = 9449, p-value < 2.2e-16
## alternative hypothesis: true location shift is not equal to 0

El p-value (2.2e-16=0) resulta ser menor que alfa, entonces no se puede aceptar la hipótesis que plantea que el nivel promedio de Manganeso a nivel superficial es similar que a mayor profundidad

Nota 2:

La prueba de Wilcoxon al ser una prueba no paramétrica trabaja con una alternativa a la media aritmética como indicador de posición, es por esto que a pesar de tener la misma conclusión, el valor de p es distinto y se debe tener cuidado, ya que como se ve, en existe una diferencia sustancial entre ambos, por tanto al estar cerca de \(\alpha\), pudiese con una prueba rechazar y con la otra aceptar \(H_0\)

Adicionalmente no se presenta intervalos de confianza.

Si Supuesto Normalidad es falso y Heterocedastico (caso 4)

summary(BMTest(datos1$Mn[datos1$profundidad=="Superf"],datos1$Mn[datos1$profundidad=="Profundo"] ,alternative = "two.sided"))
## ========================================
##   Summary of Pairwise Comparison Test
## ========================================
## Method: Brunner-Munzel (two.sided) 
## 
## Comparison          : Grupo1 - Grupo2
## Mean difference     : 0.142
## Degrees of freedom  : 405.32
## Standard error      : 10.5304
## t critical value    : 1.9658
## p-value             : 0
## P(X < Y) + 0.5 P(X = Y): 0.1956
## Significance        : ***
## 
## Group means (ordered from highest to lowest):
##   Grupo1: 0.215
##   Grupo2: 0.073

El p-value (0) resulta ser menor que alfa, entonces no se puede aceptar la hipótesis que plantea que el nivel promedio de Manganeso a nivel superficial es similar que a mayor profundidad